CN110879797B

CN110879797B - 高速可重构处理器配置信息缓存替换方法及存储体系结构

Info

Publication number: CN110879797B
Application number: CN201911056632.9A
Authority: CN
Inventors: 杨晨; 王逸洲; 王小力; 耿莉
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2019-10-31
Filing date: 2019-10-31
Publication date: 2021-09-07
Anticipated expiration: 2039-10-31
Also published as: CN110879797A

Abstract

本发明公开了一种高速可重构处理器配置信息缓存替换方法及存储体系结构，当访问发生命中时，根据命中频率更新被命中数据块的Re值，所述Re值为数据块被替换的优先级；当访问发生缺失时，根据命中频率更新被替换进缓存的数据块的Re值，通过加窗选择算法确定被替换的数据块。采用改变数据块的被替换优先级来实现缓存替换策略，便于移植在现有的存储系统中，硬件开销较小。根据配置信息大小和频率两个特征进行缓存资源分配，降低了缓存的整体缺失率，而不是仅仅从考量单个缓存组的缺失率，除此之外对大于缓存容量的工作集有较好的适应性。

Description

高速可重构处理器配置信息缓存替换方法及存储体系结构

技术领域

本发明属于高速缓存管理技术领域，具体涉及一种高速可重构处理器配置信息缓存替换方法及存储体系结构。

背景技术

可重构处理器是一种兼具高灵活性和高能量效率的并行计算架构，它与通用处理器的区别在于：它在运行时通过配置流来动态地改变运算单元阵列的功能，而且功能的改变往往只消耗几个或者十几个时钟周期，然后通过数据流来驱动运算单元阵列进行计算。在具备灵活性的同时，性能也逐渐接近专用定制芯片。可重构处理器主要的应用领域有媒体处理、通信基带处理、加解密计算、模式识别等，特点是计算密集，数据间依赖关系较弱等。随着可重构计算技术的不断发展，应用范围将越来越广泛。

为了满足多功能、高性能的应用需求，当前的趋势是在计算系统中加入多个可重构计算阵列。与其他典型的计算系统类似，由多个可重构阵列组成的计算系统面临的挑战之一是：不断增加的内存带宽需求和有限的片外存储器访问速度之间日益增大的差距。片上缓存是一种减少片外存储器带宽要求的有效方法，而片上缓存管理技术中的缓存替换策略可以减小访问缺失率，也能达到减小片外存储器带宽要求的目的。不同的缓存替换策略具有不同的特点。LRU替换策略对于高局部工作集具有很好的性能，但是不考虑数据块被访问的频率，当Cache容量小于程序的工作集时,Cache会表现出抖动现象。MoinuddinK.Qureshi提出的RRIP替换策略预测数据块的下一次访问间隔，把访问时间间隔较小的数据块留在Cache中，能够使新插入但无后续访问的块尽早被替换。对于可重构处理器，目前的替换策略均没有考虑配置信息的大小对缓存访问的影响。

发明内容

本发明提供了一种高速可重构处理器配置信息缓存替换方法及存储体系结构，使得可重构处理器缓存访问缺失率显著降低，减小片外存储器带宽要求。

为达到上述目的，本发明所述一种高速可重构处理器配置信息缓存替换方法，当访问发生命中时，根据命中频率更新被命中数据块的Re值，所述Re值为数据块被替换的优先级，数据块的访问频率越大，其Re值越小；

当访问发生缺失时，根据命中频率更新被替换进缓存的数据块的Re值，通过加窗选择算法确定被替换的数据块。

进一步的，命中频率计算方法为：当数据块访问命中时，将数据块的命中频率加1。

进一步的，当本次访问命中时，被命中数据块Re值的更新过程为，比较当前访问的数据块的命中频率与阈值的关系：

当命中频率大于等于阈值时，将当前访问数据块的Re值更新为1；

当命中频率小于阈值时，将当前访问数据块的Re值更新为2；

当访问缺失时，被命中数据块Re值的更新过程为：比较当前访问数据块的频率与阈值，

当命中频率大于等于阈值时，将当前访问数据块的Re值更新为3；

当命中频率小于阈值时，将当前访问数据块的Re值更新为4。

进一步的，阈值Threhold由公式(1.1)确定：

Threshold＝(T_hit+T_miss)/N_context (1.1)

其中，T_hit当前的命中次数，T_miss为当前的缺失数，N_context为配置信息的总套数。

进一步的，加窗选择算法根据以下步骤进行：

S1、求出本次访问数据块对应缓存组中Re值最大的两个数据块，如果Re值最大的两个数据块的Re值相同，则按照缓存物理位置从小到大选取；

S2、比较S1所选的两个数据块所属配置信息大小，将配置信息小的数据块作为被替换块，如果配置信息大小相同则选择缓存物理位置大的数据块作为被替换块。

一种可重构处理器的存储体系结构，用于实现上述方法。

进一步的，一种可重构处理器的存储体系结构包括片外存储器、片上缓存、加窗选择模块、频率比较模块、Re更新模块以及可重构阵列；所述片外存储器与片上缓存双向交互，所述片上缓存的第一输出端连接有频率比较模块，片上缓存的第二输出端与加窗选择模块的输入端连接，所述加窗选择模块的输出端与频率比较模块的输入端连接，所述频率比较模块的输出端与Re更新模块的输出端连接，所述可重构阵列与片上缓存连接，从片上缓存接受配置信息。

进一步的，频率比较模块包括计数器和寄存器，当访问命中时，根据Tag信号将相应数据块的命中频率加1，并将更新后的命中频率存储至寄存器中，以统计命中频率。

与现有技术相比，本发明至少具有以下有益的技术效果：

采用改变数据块的被替换优先级来实现缓存替换策略，便于移植在现有的存储系统中，硬件开销较小。

考虑配置信息对缓存访问造成的影响，根据配置信息大小和频率两个特征进行缓存资源分配。加入配置信息大小因素，使得替换算法不是仅仅考量单个缓存组的缺失率，而是以降低整个缓存的缺失率为优化目标，倾向于将配置信息大的缓存块保留在缓存内，减小了一次性缺失的数量；加入配置信息频率因素，倾向于将配置信息出现频率高的缓存块保留在缓存内，减小缓存块反复缺失的概率。本发明比较于传统算法明显降低了缓存的整体缺失率，除此之外对大于缓存容量的工作集有较好的适应性，提高了可重构处理器的性能。

一种可重构处理器的存储体系结构，采用频率比较模块统计命中频率，采用加窗选择模块实现加窗算法，采用Re更新模块来更新数据块的Re值，将Re值与优先级建立联系，以实现上述方法，采用本发明所述的存储体系结构，能够降低缓存的整体缺失率，除此之外对大于缓存容量的工作集有较好的适应性，提高了可重构处理器的性能。

附图说明

图1为组相联映射机制下，配置信息对缓存组访问序列的影响示意图；

图2为可重构处理器的存储体系结构示意图；

图3为可重构处理器的访问地址组成示意图；

图4为16路组相联映射下的缓存情况；

图5为频率统计模块示意图；

图6为加窗选择算法示意图；

图7为多种随机测试集下三种方法命中比较；

图8为缓存大小对替换算法性能的影响；

图9为配置信息示例图；

图10为采用LRU、RRIP算法访问配置信息J后替换出Cache的块；

图11为采用本发明访问配置信息J后替换出Cache的块。

具体实施方式

为了使本发明的目的和技术方案更加清晰和便于理解。以下结合附图和实施例，对本发明进行进一步的详细说明，此处所描述的具体实施例仅用于解释本发明，并非用于限定本发明。

在本发明的描述中，需要理解的是，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

在可重构处理器中，配置信息用于决定运算单元阵列的组织形式以实现相应的功能。不同的功能实现所需要的配置信息大小可能不同。例如，对于某运算单元阵列实现卷积的配置信息大小为M比特，处理器需要m次地址访问；对于实现乘法的配置信息大小可能为N比特(N<M)，则处理器只需要进行n次地址访问(n<m)。在组相联的映射机制下，配置信息在不同缓存组(set)的访问序列之间建立了联系，如图1所示，配置信息的不定长使得这种联系变得更为复杂。除此之外，不同配置信息的使用频率也是有差异的，这是源于配置信息对应的计算功能在应用中的使用频率差异。因此，在设计可重构处理器配置信息的缓存替换方法时会面对以下主要问题：

1.在组相联的映射机制下，配置信息大小对数据块被替换优先级有影响，而多个组之间的访问存在联系，替换策略如何保证降低整个缓存的缺失率，而不是降低单个缓存组的缺失率。

2.未考虑配置信息频率对数据块被替换优先级的影响时，使用频率低的数据块会放在缓存中，增加缺失率。

本发明提出的缓存替换方法主要面向可重构处理器，可重构处理器的片上缓存体系结构如图2所示，包括片外存储器、片上缓存、加窗选择模块、频率比较模块、Re更新模块以及可重构阵列。片外存储器与片上缓存双向交互，片上缓存的第一输出端连接有频率比较模块，片上缓存的第二输出端与加窗选择模块的输入端连接，加窗选择模块的输出端与频率比较模块的输入端连接，频率比较模块的输出端与Re更新模块的输出端连接，可重构阵列与片上缓存连接，从片上缓存接受配置信息。和假设图2中片外存储器的大小为2²⁹×64比特，每个数据块的大小为2⁶比特，片外存储器与片上缓存之间的映射机制为16路组相连映射，共8个组。则与该存储系统对应的访问地址如图3所示，每个数据块对应的Tag大小为2²⁶比特，并通过3比特的组索引来确定数据块被映射至哪个缓存组，缓存情况如图4所示。除此之外，每个数据块还设置有3比特寄存器表示的Re值(数据块被替换的优先级)，16比特寄存器表示的Fre值(数据块被访问的次数)。

本发明所提出的缓存替换策略具体是通过改变Re值的更新方式实现的。实施步骤如下：

1.当访问发生命中时，通过命中频率比较模块更新被命中数据块的Re值。

2.当访问发生缺失时，通过命中频率比较模块更新被替换进缓存的数据块的Re值，然后通过加窗选择算法确定被替换的数据块。

本发明所提出的命中频率比较模块和缺失频率比较模块由频率统计模块和Re更新算法组成。其中，频率统计模块采用计数器和寄存器实现，如图5，当命中时，根据Tag信号将相应数据块的命中频率加1，并将更新后的命中频率存储至寄存器(每个数据块对应个寄存器)中，以统计命中频率。Re更新算法如下表所示：

当本次访问命中时，Re值的更新按照以下步骤进行：

比较当前访问数据块的命中频率与阈值：

当命中频率小于阈值时，将当前访问数据块的Re值更新为2。

当本次访问缺失时，Re值的更新按照以下步骤进行：

比较当前访问数据块的命中频率与阈值；

当命中频率小于阈值时，将当前访问数据块的Re值更新为4。

阈值Threhold的选择根据公式(1.1)所示：

Threshold＝(T_hit+T_miss)/N_context (1.1)

其中T_hit当前的命中次数，T_miss为当前的缺失数，N_context为配置信息的总套数。

本发明所提出的加窗选择算法根据以下步骤进行：

判断本次访问是否发生命中：

当本次访问发生缺失时，求出本次访问数据块对应缓存组中Re值最大的两个数据块，如果Re值相同则按照缓存物理位置从小到大选取；

比较所选两个数据块所属配置信息大小，将配置信息小的数据块作为被替换块，如果配置信息大小相同则选择缓存物理位置大的数据块作为被替换块。

加窗选择算法如图6所示，缓存组0-7下一次访问地址分别是J2-J9。本次访问缓存组0-7均发生缺失，选择Re值最小的两组数据块：缓存的14路和15路，比较14路和15路这两路缓存数据块所属配置信息大小，将配置信息小的数据块作为被替换块，缓存组0-7组的被替换块分别为B2-B5、D1-D4。

本发明与现有方法的性能对比

在图2访问地址所表示的存储系统下，以多组随机或伪随机访问序列作为测试集，进行测试，比较三种缓存替换策略的命中率，如图7所示。并将LRU替换策略的性能加速比归一化为1，其他替换策略的性能以相对于LRU替换策略的性能加速比表示。

可以看出，采用本发明系统性能加速比相较于采用LRU和RRIP替换策略分别提高了33％和24％。

除此之外，还在同一组随机测试集下，测试了缓存大小(组数)对替换算法的影响，如图8所示。图中上方显示的是缓存组数为8的情况，下面显示的缓存组数为4的情况，两种情况本发明的效果都好于其他两种替换策略。但是可以发现当缓存组数为4时，本发明的效果不如缓存组数为8时明显，这是因为当组数减小时，配置信息大小对访问地址序列的影响减小，使得本发明的功能不能完全体现出来。可以推论当缓存组数继续减小时，组相联的映射方式趋近于全相联映射，相当于配置信息对缓存替换基本不影响了。由此可见当缓存越增大时，本发明越能表现出更好的性能，这符合当前处理器的发展方向。

本发明可以在任意的由高速、低速存储设备组成的二级存储体系中实现。

目前大多数处理器，包括可重构处理器中采用的是LRU替换算法，可以通过三个方面来实现本发明。首先是选取被替换对象时，LRU替换算法选取被替换优先级最高的数据块，而本发明在考虑优先级的同时，将配置信息大小也作为考量指标，选取被替换优先级较高，且配置信息大小较小的数据块作为被替换对象；对于新插入缓存的数据块，其被替换优先级的设定会参考其访问频率，将访问频率较大的数据块优先级设置较低，反之亦然，不同于LRU替换策略，它直接将新插入块的被替换优先级设为最低；对于被命中的数据块，本发明依然参考访问频率更新其被替换的优先级，将访问频率较大的数据块优先级设置较低，反之亦然，不同于LRU替换策略，它直接将命中数据块的被替换优先级设置为最低。

下面，采用以下配置信息访问序列来说明本发明相较于传统算法的优点。

参照图9，其中大写字母表示某一套配置信息，它们的大小不定，需要由数个访问地址进行访问。

当对配置信息P访问结束后，在图2所示的缓存结构下缓存的存储情况，如图6，即缓存被配置信息C，B，D，......，A，L，P填满。由于访问配置信息J结束后会紧接着再次访问配置信息C、B、D。由于之前已经出现过，所以理想情况下，希望C、B、D可以发生命中。但是在LRU算法和RRIP算法的机制下，C、B、D配置信息会被“挤”出Cache，发生16次访问缺失(第二次访问C、B、D分别发生7、5、4次缺失)，如图10所示。由于C1，C2，C3，C4，C5，C6，C7和B1被配置信息J的J2，J3，J4，J5，J6，J7，J8和J9替换出Cache，第二次访问配置信息C与B1时将会发生缺失，同时再将这八个块替换进Cache，再将B2，B3，B4，B5，D1，D2，D3，D4替换出Cache，第二次访问配置信息D与B2，B3，B4，B5时，又发生缺失，产生类似于Cache“抖动”的现象。

采用本发明时，访问配置信息J结束后的缓存存储情况如图11所示。后续再次访问配置信息C，B，D时不会都发生访问缺失。三种算法在上述配置信息序列中访问J，C，B，D时访问命中数与缺失数如下：

可以看出，采用本发明，在以上特殊的访问序列下缺失数会明显降低。

以上内容仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明权利要求书的保护范围之内。

Claims

1.一种高速可重构处理器配置信息缓存替换方法，其特征在于，

当访问发生命中时，根据命中频率更新被命中数据块的Re值，所述Re值为数据块被替换的优先级，数据块的访问频率越大，其Re值越小；

当访问发生缺失时，根据命中频率更新被替换进缓存的数据块的Re值，通过加窗选择算法确定被替换的数据块；

所述加窗选择算法根据以下步骤进行：

2.根据权利要求1所述的一种高速可重构处理器配置信息缓存替换方法，其特征在于，命中频率计算方法为：当数据块访问命中时，将数据块的命中频率加1。

3.根据权利要求1所述的一种高速可重构处理器配置信息缓存替换方法，其特征在于，当本次访问命中时，被命中数据块Re值的更新过程为，比较当前访问的数据块的命中频率与阈值的关系：

当命中频率小于阈值时，将当前访问数据块的Re值更新为2；

当命中频率小于阈值时，将当前访问数据块的Re值更新为4。

4.根据权利要求3所述的一种高速可重构处理器配置信息缓存替换方法，其特征在于，阈值Threshold由公式(1.1)确定：

Threshold=(T _hit +T _miss)/N _context (1.1)

其中，T _hit当前的命中次数，T _miss为当前的缺失数，N _context为配置信息的总套数。

5.一种可重构处理器的存储装置，其特征在于，所述存储装置用于实现权利要求1所述的方法。

6.根据权利要求5所述的一种可重构处理器的存储装置，其特征在于，包括片外存储器、片上缓存、加窗选择模块、频率比较模块、Re更新模块以及可重构阵列；所述片外存储器与片上缓存双向交互，所述片上缓存的第一输出端连接有频率比较模块，片上缓存的第二输出端与加窗选择模块的输入端连接，所述加窗选择模块的输出端与频率比较模块的输入端连接，所述频率比较模块的输出端与Re更新模块的输出端连接，所述可重构阵列与片上缓存连接，从片上缓存接受配置信息。

7.根据权利要求6所述的一种可重构处理器的存储装置，其特征在于，所述频率比较模块包括计数器和寄存器，当访问命中时，根据Tag信号将相应数据块的命中频率加1，并将更新后的命中频率存储至寄存器中，以统计命中频率。