CN111582455A

CN111582455A - 一种基于长短期记忆网络的缓存替换系统及方法

Info

Publication number: CN111582455A
Application number: CN202010390271.8A
Authority: CN
Inventors: 杨晨; 王逸洲; 王小力; 耿莉
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2020-05-08
Filing date: 2020-05-08
Publication date: 2020-08-25
Anticipated expiration: 2040-05-08
Also published as: CN111582455B

Abstract

本发明公开了一种基于长短期记忆网络的缓存替换系统及方法，该系统包括中央处理器、分类器以及缓存控制器，分类器由输入产生器和决策器组成；该方法包括步骤：1)将中央处理器的地址发送到输入产生器中，输入产生器计算当前地址的钥匙，并将钥匙发送至决策器中；2)决策器接收钥匙后，采用四种预测器对当前钥匙进行分类，并在各自的小缓存中进行实验，根据命中与否更新各自计数器的数值，选择器通过比较四种预测器的计数器数值，取最高数值所属预测器的结果，作为最后一级缓存的缓存特性，缓存控制器依据缓存特性更新缓存；3)利用缓存特性，中央处理器将缓存特性的影响加入缓存数据块的优先级更新机制中，得到性能更高的缓存替换方法。

Description

一种基于长短期记忆网络的缓存替换系统及方法

技术领域

本发明属于高速缓存管理领域，具体涉及一种基于长短期记忆网络的缓存替换系统及方法。

背景技术

通用中央处理器(CPU)是信息技术产业的根基，随着软件技术的不断发张，对硬件性能，特别是中央处理器的性能要求越来越高。在2002年以前，根据摩尔定律，芯片密度和CPU的时钟频率不断增高，带来CPU性能的大幅度提升。但是2002年之后，摩尔定律逐渐失效，这是因为晶体管的尺寸越来越小，晶体管之间的传输延迟远远大于单元延迟，并难以再大幅度减小，成为限制CPU时钟频率的主要因素。另外一个原因是，频率增高使得CPU的功耗达到了芯片承受的极限。为了能进一步提高CPU的性能，人们开始去突破CPU的内存瓶颈，即主存访问速度。缓存(Cache)被放置在CPU寄存器和主存之间来弥补CPU处理速度和主存访问速度之间的巨大差异，而缓存管理技术则可以实现用层级少、体量小的缓存结构实现更大的速度补偿，成本更低。因此缓存管理技术成为现代处理器研究的重点技术。缓存替换方法是影响缓存系统性能的一个重要因素，根据程序局部性原理可知：程序在运行中，总是频繁地使用最近被使用过的指令或数据。缓存替换方法依次为理论依据，合理地安排数据的存储，提高缓存的命中率，让CPU尽可能在缓存中访问到数据，减小访问延迟，最终达到提高处理器性能的目的。

神经网络算法具有很强的非线性映射能力，其中循环神经网络擅长于处理各类时间序列问题，而缓存替换方法的本质是研究访问序列的特征，并根据特征将其存储于缓存或者从缓存中移除，研究目标访问序列也是具有时序信息的地址集合，所以本文考虑将循环神经网络中的长短期记忆网络(LSTM)与缓存替换方法相结合，这是一次较为崭新的尝试，因为相关的工作非常少，有个别研究只停留在软件仿真上，说明了神经网络和缓存替换方法交叉研究的可能性。利用长短期记忆网络提取缓存访问序列特征，并以此对访问地址实时分类，准确地将CPU“想”访问的数据存储在缓存中，以这样一种新的思路设计缓存替换方法，突破内存访问瓶颈将会非常具有应用价值。

受硬件资源的限制，传统缓存替换方法的研究热点在于捕获访问地址的复用距离，或者短期历史内的访问频率，并依次为标准，更新缓存中不同数据的被替换的优先级，更新机制较为简单以便于用简单的硬件逻辑实现。它们着眼于可以观察到的常见访问序列，利用频率计数器，复用距离预测器等模块启发性地管理缓存替换，所以缓存命中率不会很高。这些年，随着晶体管技术的发展，缓存管理设计时的资源限制缓解，可以将一些简单的机器学习方法应用到缓存替换方法中。新兴的缓存替换方法将缓存替换转换为一个二分类问题。预测访问地址的缓存特性“是否应该被缓存”，并具有识别程序类型，并不断调整替换策略的能力。

发明内容

本发明的目的在于提供一种基于长短期记忆网络的缓存替换系统及方法，使得通用处理器缓存访问缺失率显著降低，减小片外存储器带宽要求。本发明的重点在于，使得缓存替换方法具有识别访问序列类型的能力，以及具有预测访问序列缓存特性的能力。

本发明采用如下技术方案来实现的：

一种基于长短期记忆网络的缓存替换系统，包括中央处理器、分类器以及缓存控制器，分类器由输入产生器和决策器组成；其中，输入产生器用于接受中央处理器发送的地址，计算当前地址的钥匙，并将钥匙发送至决策器中，决策器接收钥匙后，采用四种预测器对当前钥匙进行分类，并在各自的小缓存中进行实验，根据命中与否更新各自计数器的数值，选择器通过比较四种预测器的计数器数值，取最高数值所属预测器的结果，作为最后一级缓存的缓存特性，缓存控制器依据缓存特性更新缓存；利用缓存特性，中央处理器将缓存特性的影响加入缓存数据块的优先级更新机制中。

本发明进一步的改进在于，输入产生器包括地址列表、遍历器、计数器、阈值产生器、比较器、钥匙生成器、加法器和钥匙列表；其中，

地址列表存储中央处理器发出的地址，遍历器获取地址并在地址列表中遍历统计当前地址的二级制个数，并通过计数器将二级制转化为十进制，再传送至阈值产生器中计算阈值；钥匙列表存储历史钥匙，并通过加法器获计算钥匙列表中值为“1”的钥匙个数，在比较器中比较钥匙个数与阈值，输出结果传送至钥匙生成器中，结合遍历器产生的“Flag”信号，得到当前地址的钥匙；当清除信号有效时，将钥匙列表中的元素置“0”。

本发明进一步的改进在于，决策器包括周期计数器、四个预测器、四个采样缓存、四个计数器、选择器和MUX4；周期计数器每个周期增加1，当数值等于阈值时，发出清零信号传送至四个预测器和选择器；四个预测器接收钥匙后各自输出缓存特性至MUX4，并传送至各自的采样缓存中，采样缓存根据缓存特性更新内容并判断是否命中，各自的计数器统计采样缓存的命中数，并传送至选择器；选择器比较四个计数器值，将最大值计数器的索引传送至MUX4，MUX4根据索引将对应预测的缓存特性输出。

本发明进一步的改进在于，预测器包括依次连接的长短期记忆层、全连接层和分类层，长短期记忆层接收钥匙进行计算，将输出传送至全连接层，全连接层将计算结果传送至分类层，分类层输出缓存特性。

本发明进一步的改进在于，长短期记忆层包括门模块、网络模块和存储模块；存储模块由B，W_b，W_x，H，C组成；门模块由乘法阵列、加法阵列A、加法阵列B、加法阵列C和MUX2组成；其中，乘法阵列与存储模块的W_b和H相连，乘法阵列的输出连接至加法阵列A，加法阵列B接收MUX2的输出和加法阵列A的输出，将计算结果传送至加法阵列C，加法阵列C根据加法阵列B的输出和存储模块的B计算结果，并传送至网络模块；MUX2接收存储模块的W_x和输入数据X；网络模块由选择器A、Sigmoid、Tanh、选择器B、乘法器和累加器组成；门模块的输出与选择器A和Sigmoid连接，选择器输出与Tanh连接，Sigmoid输出与乘法器连接，Tanh输出与选择器B连接，选择器B接收存储模块的C并将计算结果与乘法器连接，乘法器输出与累加器连接，并传送至存储模块的H，累加器的输出与存储模块的C连接。

本发明进一步的改进在于，全连接层由乘法阵列和加法阵列组成；乘法阵列输出多个数据，传送至加法阵列；加法阵列由多层加法器树组成。

本发明进一步的改进在于，分类层由一个比较器组成。

一种基于长短期记忆网络的缓存替换方法，该方法基于上述一种基于长短期记忆网络的缓存替换系统，该方法包括以下步骤：

1)将中央处理器的地址发送到输入产生器中，输入产生器计算当前地址的钥匙，并将钥匙发送至决策器中；

2)决策器接收钥匙后，采用四种预测器对当前钥匙进行分类，并在各自的小缓存中进行实验，根据命中与否更新各自计数器的数值，选择器通过比较四种预测器的计数器数值，取最高数值所属预测器的结果，作为最后一级缓存的缓存特性，缓存控制器依据缓存特性更新缓存；

3)利用缓存特性，中央处理器将缓存特性的影响加入缓存数据块的优先级更新机制中，得到性能更高的缓存替换方法。

本发明至少具有如下有益的技术效果：

本发明有以下特点：

1.在输入产生器的硬件设计中。输入产生器接收短期内的历史访问地址和钥匙，采用遍历的方式，在地址列表和钥匙列表搜索当前地址和钥匙，可以保证较高的准确度。

2.在决策器的硬件设计中，将长短期记忆网络的硬件系统拆解为三部分，存储模块存储网络参数。门模块用于计算输入门、输出门、遗忘门和记忆单元的向量，采用了乘法器阵列和多级加法器设计，并插入多级流水线。网络模块用计算网络状态和输出，主要由激活函数模块和乘、加法器组成，并使用选择器合理地安排网络状态和输出数据的计算，根据门模块统筹网络模块的并行度。

本发明有以下优点：

1、本发明利用长短期记忆网络能更准确地识别访问序列类型，并且预测访问序列的缓存特性。

2、本发明设置四类长短期记忆网络，同时判断当前访问序列的缓存特性，并在附带的小缓存中实施替换方法，实时监控附带小缓存的性能，并将最后一级缓存切换至性能最高的长短期记忆网络，实现适应不同程序的能力。

3、本发明实现的长短期记忆网络硬件结构，具有低功耗、低资源消耗和低延迟的特点。

附图说明

图1为本发明基于长短期记忆网络的缓存替换系统的架构图。

图2为输入产生器的硬件结构图。

图3为决策器的硬件结构图。

图4为预测器的通用硬件结构图。

图5为长短期记忆层的硬件结构图。

图6为门模块的计算过程示意图。

图7为全连接层的计算过程示意图。

图8为分类层的计算过程示意图。

具体实施方式

以下结合附图对本发明做出进一步的说明。

本发明所提出的一种基于长短期记忆网络的缓存替换系统中，系统架构如图1，分类器即为缓存替换方法的硬件表达形式，分类器从中央处理器接受地址，并输出地址的缓存特性，缓存控制器依据缓存特性更新缓存。本发明所提出的缓存替换方法，即分类器由输入产生器和决策器组成。

本发明所提出的输入产生器的硬件结构如图2所示。地址进入输入产生器后，首先作为被搜索对象，在地址列表中搜索当前地址的个数。然后再被存储在地址列表中，最早被存储的地址则被抛弃。地址列表由多个多位寄存器组成。地址的遍历通过比较器实现。当前地址与地址列表中的历史地址逐一对比，会产生一个信号，信号的第i位为“1”时表示之前第i个地址与当前地址相同，同时将信号位与操作后作为Flag。计数器实现统计功能，获得计数器值后，结合缓存组数和路数得到阈值。另外一个列表存储历史钥匙，运作机制与地址列表相同。每当输入产生器获取新地址时，统计钥匙列表中元素“1”的个数，即将所有元素“1”累加起来，传送至比较器与阈值进行比较。当Flag信号为“0”时，当前地址的钥匙为“2”；当Flag信号为“1”，计数器值小于阈值时，当前地址的钥匙为“1”；当Flag信号为“0”，计数器值大于阈值时，当前地址的钥匙为“0”。

本发明所提出的决策器结构以及其输入输出如图3所示。决策器中包含4个训练完成的长短期记忆网络预测器(预测器F，预测器T，预测器S，预测器M)，分别对应缓存友好序列、阻塞序列、流序列和混合序列。每个预测器都附带一个小缓存和一个计数器。四个预测器收到来自输入产生器输出的同一个钥匙，并独立进行判断，得到当前地址的四个缓存特性，每个预测器附带的小缓存根据其预测器产生的缓存特性进行更新，同时计数器统计小缓存的命中数。选择器收到四个计数器的值并进行判断，找到计数器值最大的预测器，然后发送该信息给选择器。选择器采用被选择预测器的输出作为当前地址真实的缓存特性。缓存控制器使用缓存特性，更新最后一级缓存的状态。周期计数器根据设定阈值循环计数，每当达到阈值时，发送清除指令清除每个预测器中计数器值、长短期记忆网络的状态和钥匙列表。

本发明所提出的决策器中最重要的模块是四种预测器，它们的通用结构如图4所示。预测器由长短期记忆层、全连接层和分类层组成。

本发明所提出的长短期记忆层的硬件结构如图5所示，由门模块、网络模块和存储模块三部分。

本文所提出的门模块的计算单元包含一个乘法阵列和三个加法阵列。乘法阵列处理矩阵运算W_h×H。乘法阵列的大小(S_m)取决门模块的延迟(D_m)和长短期记忆层中隐含层的单元数目(N_h)。三个变量之间的关系如公式(1)所示

当N_h＝16，S_m＝16时，门模块的计算过程如图6所示，W_h的第一行W_h[1]-W_h[N_h]与向量H点乘，点乘的结果为16×1的向量，然后加法阵列2将此向量的每个元素相加，加法树一共4层，15个加法器，加法阵列2的结果为W_hH[1]，其在加法阵列2中与W_xX[1]相加，在加法阵列3中与B[1]相加。这样的过程一共迭代16次，直到W_hH[N_h]+W_xX[N_h]+B[N_h]计算完成，其为16×1的向量。

本发明所提出的网络模块的主要部件是两种激活函数，乘法器和累加器。网络模块每个周期接收门模块输出向量的一个或者多个元素，取决于门模块的参数S_m和D_m。门模块输出数据经过Sigmoid激活函数得到遗忘门向量，输入门向量和输出门向量，经过Tanh激活函数得到记忆单元向量。乘法器处理遗忘门向量和上个周期网络状态向量的点积，输入门向量和遗忘门向量的点乘，以及隐含层状态向量的计算。累加器计算当前周期网络状态向量。

本发明所提出的存储模块包含五部分，分别存储循环权重W_h，输入权重W_x，偏置权重B，隐含层状态H和网络状态参数C。用只读存储器存储循环权重W_h，输入权重W_x和偏置权重B，它们的内容不需要更新。用随机存取存储器存储网络状态参数C，输入输出各设置一条地址线和一条数据线。网络模块在第t-1个周期从存储器取得C_t-1供乘法器2运算，在第t个周期存储加法器输出的C_t。存储隐含层状态H的是乒乓缓存。门模块的计算需要得到完整的向量H，而网络模块每个周期只能输出向量H的一个或者几个元素，那么就可以设置两个存储器进行乒乓操作，当门模块使用存储器1的数据H_t-1时，存储器2存储网络模块的数据H_t，当网络模块计算完成时，门模块即可使用存储器2的数据H_t，不再访问存储器1，那么存储器1就可以存储下一个乒乓操作周期内，网络模块产生的数据H_t+1，以此类推。

本发明所提出的全连接层的硬件计算过程如图7所示，计算矩阵F与向量H的乘法运算。矩阵F是全连接层的参数，为2×N_h的矩阵。模块每周期计算矩阵F的一行与向量H的点乘和加法运算，所以需要两个这样的硬件模块，输出结果为向量F_c，为2×1的向量。

本发明所提出的分类层硬件计算过程如图8所示，比较向量F_c两个元素的大小，得到最终输出信号out，高电平表示缓存特性为“友好地址”，低电平表示“非友好地址”。

本发明的性能测试

在测试中，缓存算法的主要参数设置为：最后一级缓存的大小为16×1024；决策器中小缓存的大小为16×8；缓存友好序列和阻塞序列的长短期记忆网络隐含层单元数目(N_h)为16，门模块乘法阵列大小(S_m)为64；流序列和混合序列的长短期记忆网络隐含层单元数目(N_h)为32，门模块乘法阵列大小为256；缓存替换算法的延迟(D_m)为4个周期。

将设计完成的硬件分类器(即缓存替换方法)集成在时钟精准的缓存测试平台上，缓存控制器与文献Hawkeye相同。创建四种缓存类型访问序列(缓存友好序列，阻塞序列，流序列和混合序列)，以及多个随机访问序列的测试集。通过Modelism软件进行仿真，并统计缓存命中率，并与LRU，RRIP和Hawkeye算法进行对比，结果如表1所示。基于长短期记忆网络的缓存替换算法相比于其他三种算法，缓存命中率有显著提升。

表1.本发明与其他缓存替换方法的性能对比

本发明可以在任意的由高速、低速存储设备组成的二级存储体系中实现。

目前大多数处理器，可以通过三个步骤来实现本发明。首先，是将中央处理器的地址发送到输入产生器中，输入产生器计算当前地址的钥匙，并将钥匙发送至决策器中。其次，决策器接收钥匙后，采用四种预测器对当前钥匙进行分类，并在各自的小缓存中进行实验，根据命中与否更新各自计数器的数值，选择器通过比较四种预测器的计数器数值，取最高数值所属预测器的结果，作为最后一级缓存的缓存特性。最后，利用缓存特性，处理器需要将缓存特性的影响加入缓存数据块的优先级更新机制中，就可以得到性能更高的缓存替换算法。

Claims

1.一种基于长短期记忆网络的缓存替换系统，其特征在于，包括中央处理器、分类器以及缓存控制器，分类器由输入产生器和决策器组成；其中，

输入产生器用于接受中央处理器发送的地址，计算当前地址的钥匙，并将钥匙发送至决策器中，决策器接收钥匙后，采用四种预测器对当前钥匙进行分类，并在各自的小缓存中进行实验，根据命中与否更新各自计数器的数值，选择器通过比较四种预测器的计数器数值，取最高数值所属预测器的结果，作为最后一级缓存的缓存特性，缓存控制器依据缓存特性更新缓存；利用缓存特性，中央处理器将缓存特性的影响加入缓存数据块的优先级更新机制中。

2.根据权利要求1所述的一种基于长短期记忆网络的缓存替换系统，其特征在于，输入产生器包括地址列表、遍历器、计数器、阈值产生器、比较器、钥匙生成器、加法器和钥匙列表；其中，

3.根据权利要求1所述的一种基于长短期记忆网络的缓存替换系统，其特征在于，决策器包括周期计数器、四个预测器、四个采样缓存、四个计数器、选择器和MUX4；周期计数器每个周期增加1，当数值等于阈值时，发出清零信号传送至四个预测器和选择器；四个预测器接收钥匙后各自输出缓存特性至MUX4，并传送至各自的采样缓存中，采样缓存根据缓存特性更新内容并判断是否命中，各自的计数器统计采样缓存的命中数，并传送至选择器；选择器比较四个计数器值，将最大值计数器的索引传送至MUX4，MUX4根据索引将对应预测的缓存特性输出。

4.根据权利要求1所述的一种基于长短期记忆网络的缓存替换系统，其特征在于，预测器包括依次连接的长短期记忆层、全连接层和分类层，长短期记忆层接收钥匙进行计算，将输出传送至全连接层，全连接层将计算结果传送至分类层，分类层输出缓存特性。

5.根据权利要求4所述的一种基于长短期记忆网络的缓存替换系统，其特征在于，长短期记忆层包括门模块、网络模块和存储模块；存储模块由B，W_b，W_x，H，C组成；门模块由乘法阵列、加法阵列A、加法阵列B、加法阵列C和MUX2组成；其中，乘法阵列与存储模块的W_b和H相连，乘法阵列的输出连接至加法阵列A，加法阵列B接收MUX2的输出和加法阵列A的输出，将计算结果传送至加法阵列C，加法阵列C根据加法阵列B的输出和存储模块的B计算结果，并传送至网络模块；MUX2接收存储模块的W_x和输入数据X；网络模块由选择器A、Sigmoid、Tanh、选择器B、乘法器和累加器组成；门模块的输出与选择器A和Sigmoid连接，选择器输出与Tanh连接，Sigmoid输出与乘法器连接，Tanh输出与选择器B连接，选择器B接收存储模块的C并将计算结果与乘法器连接，乘法器输出与累加器连接，并传送至存储模块的H，累加器的输出与存储模块的C连接。

6.根据权利要求4所述的一种基于长短期记忆网络的缓存替换系统，其特征在于，全连接层由乘法阵列和加法阵列组成；乘法阵列输出多个数据，传送至加法阵列；加法阵列由多层加法器树组成。

7.根据权利要求4所述的一种基于长短期记忆网络的缓存替换系统，其特征在于，分类层由一个比较器组成。

8.一种基于长短期记忆网络的缓存替换方法，其特征在于，该方法基于权利要求1至7中任一项所述的一种基于长短期记忆网络的缓存替换系统，该方法包括以下步骤：