CN111399913A

CN111399913A - 一种基于预取的处理器加速取指方法

Info

Publication number: CN111399913A
Application number: CN202010505312.3A
Authority: CN
Inventors: 黄凯; 金琳莉; 蒋小文; 王轲
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2020-06-05
Filing date: 2020-06-05
Publication date: 2020-07-10
Anticipated expiration: 2040-06-05
Also published as: CN111399913B

Abstract

本发明涉及存储器领域，公开了一种基于预取的处理器加速取指方法，首先确定Buffer的位宽和数量，再通过Buffer实现预取，以使存储器在未被访问，即空闲时，Buffer能自动改变地址，发起对存储器的读请求，进而将新的未来可能用到的数据读入Buffer，减少未来处理器取指的等待时间。本发明简单高效，与一般利用Buffer的做法相比，本发明的Buffer还能实现位宽协调的作用。

Description

一种基于预取的处理器加速取指方法

技术领域

本发明涉及存储器领域，尤其涉及一种基于预取的处理器加速取指方法。

背景技术

处理器和存储器作为集成电路的重要组成部分，对系统的性能有着重要影响。而随着工艺和技术的进步，处理器和存储器之间的频率差异日渐增大，导致处理器对存储器的访问存在延迟，如CPU从Flash中取指时，往往需等待一段时间。这一现象在高频条件下尤为严重，成为提升芯片整体性能的重要阻碍。

为了缓解处理器高频取指和存储器慢速访问之间的矛盾，即达到处理器访问存储器时加速的目的，Cache（高速缓冲存储器/缓存）和Buffer（缓冲）因其可被快速访问的特点得到了广泛应用。

Cache和Buffer都由SRAM（Static Random-Access Memory，静态随机存取存储器）构成。虽然SRAM不能在掉电时保存数据，但访问速度很快。同时需要注意，SRAM成本较高，这也是它不能成为大容量主存的原因之一。

对于Cache，一般容量越大，性能越好，仅当容量超过一定值，才会有容量越大、性能越低的情况；对于Buffer，并非如此，一般只需根据实际情况取合适大小即可，增大容量对性能提升影响不明显，还会增大硬件开销。一般而言，Buffer中的数据会在短时间内被访问，而Cache则作为一个数据的长期容器，其中的数据不一定非要被立刻访问。相较而言，Cache的使用更加复杂，除了大小的设定，包括块容量和整体容量，还需要进行映射结构、替换策略的选择。对于Cache，若数据第一次读入后再也用不到了，则效果较差；对于Buffer，只要数据被用到一次，就是成功的。

虽然Cache和Buffer从物理上看都为SRAM，但通常二者并不通用，分别用于不同的加速策略。前者一般用于为预取，主要针对处理器的顺序取指；后者多用于分支缓存，主要针对指令跳转的情况。

目前针对不同的应用场景，存在的预取方法较多。在部分利用Cache进行实现的方法中，由于Cache的特性，至少需要确定大小、映射结构及替换算法等要素，此过程会比较复杂，或是通过多次改变配置进行测试结果的比较，或是利用一些附加模块实现自适应的配置，这自然会增加算法的复杂性及系统开销。在利用Buffer实现的方法中，部分利用代码控制预取的开关，则当未运行到开启预取的代码之前，处理器取指仍可能需要较长的等待时间，部分结合了一些其他领域的知识，如机器学习，也有的方法提供多模式、自适应选择算法的预取，这些方法虽然取得了较好的效果，但都增加了许多模块，大大增加系统的复杂性与开销。

发明内容

为了解决现有技术中存在的上述技术问题，本发明提出一种基于预取的处理器加速取指方法，其具体技术方案如下。

一种基于预取的处理器加速取指方法，包括如下步骤：步骤一，通过比较总线和存储器的位宽，取二者相比较大的位宽来作为Buffer的位宽，根据处理器的取指存在跳转情况，取2个Buffer，即Buffer0和Buffer1；步骤二，协调总线和存储器的位宽，将存储器中取出的数据存放在Buffer中，所述Buffer再根据偏移地址确定返回的数据，进行选择性预取，当预取使能位prefetch_en为高，拼接总线和存储器的位宽并预取，反之只进行预取操作。

进一步的，在预取操作的过程中对所述Buffer进行内容有效性判断，具体为：为Buffer设置有效位，当Buffer为空或发生缺失时，有效位为低；当对存储器发起新的读取数据请求，将数据写入Buffer，有效位为高；当连续两次访问同一个Buffer且两次地址不匹配，根据顺序取指的假设得到第二次对Buffer的访问为缺失，同时另一个Buffer中的数据失效。

进一步的，在预取操作的过程中对所述Buffer进行请求命中的判断，具体为：当Buffer内容有效且Buffer地址与请求地址匹配，则对Buffer的访问为命中；反之发生Buffer的缺失。

进一步的，当对Buffer的访问未命中，则以当前请求地址向存储器发起访问，处理完该次请求后，若无新的缺失请求，且预取功能未被关闭、相邻Buffer内容有效位为低，则请求地址以设定的步长递增，读出存储器中的下一数据存入Buffer。

进一步的，所述预取通过状态机实现，具体为：

在任意状态，都优先检查是否有新的请求到来且未命中，此时下一状态为Buffer缺失的读，然后根据预取功能的开启及Buffer的有效位确定是否递增地址，向存储器发起新的请求，并将数据读入Buffer；

当预取步长为奇数，2个Buffer分别存奇数与偶数地址的数据，对于地址确定的请求，访问的Buffer是确定的，地址比较时只需根据最后一位地址是0或1进行Buffer的地址比较；

当预取步长为偶数，请求的地址同时与2个Buffer的地址进行比较，若缺失，则2个Buffer的内容都更新，此时总是将目标数据从存储器读出后存入Buffer0，并在没有新的缺失请求的条件下更新Buffer1。

进一步的，所述预取步长由使能位step_adapt控制的自适应改变，所述使能位step_adapt协同参数N、X一起配置；若使能位step_adapt为高，记录N次访问内未命中Buffer的次数，并记录N次访问的第一和最后一次的请求地址，若未命中次数大于X次，计算两个地址的差值，并除以N，向下取整作为新的预取步长，这亦即取N次访问中（N-1）个地址的差值并求平均；若使能位step_adapt为低，不进行设定，预取步长不变为定值。

有益效果：

本发明简单高效，与一般利用Buffer的做法相比，本发明的Buffer还能实现位宽协调的作用。

附图说明

图1为本发明的确定Buffer的大小的方法框图；

图2为本发明的Buffer的作用示意图；

图3为本发明的判断Buffer内容有效性的示意图；

图4为本发明的预取状态机示意图；

图5为本发明的预取流程图；

图6为本发明的确定预取步长示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例对本发明进行进一步详细说明。

如图1所示，一种基于预取的处理器加速取指方法，首先确定Buffer的大小和数量，具体为：考虑到性能与开销，比较存储器和总线的位宽，取二者相比较大的位宽为一个Buffer的大小；因Buffer数量过少则替换频率高，效果不明显，数量增多也并不必定导致性能的提升，但一定增加开销，同时考虑到处理器的取指会存在跳转情况，进而造成预取内容的浪费，故取2个，即Buffer0和Buffer1。

如图2所示，Buffer可在实现位宽协调的基础上，选择性实现预取；因总线和存储器位宽不一致，使用时需协调二者的位宽，如总线位宽为32比特，存储器位宽为128比特，二者位宽不一致，从存储器中取出的数据不能直接返回给总线，应先存放在Buffer中，再根据偏移地址确定返回的数据，当预取使能位prefetch_en为高，Buffer可进一步发挥预取的作用。

如图3所示，在预取过程中，为Buffer设置有效位，当Buffer为空或发生缺失时，有效位为低，当对存储器发起新的读取请求，将数据写入Buffer，有效位为高；当连续两次访问同一个Buffer且两次地址不同，由顺序取指的假设可知，第二次对Buffer的访问必为缺失，同时另一个Buffer中的数据也会失效；当Buffer内容有效且Buffer地址与请求地址匹配，则为Buffer的命中，否则发生Buffer的缺失；当请求未命中Buffer，需以当前的请求地址向存储器发起访问，处理完此次请求后，若无新的缺失请求，且预取功能未被关闭、相邻Buffer内容无效，则地址以设定的步长递增，读出存储器中的下一数据存入Buffer。

如图4所示，所述预取通过状态机实现，具体为：

在任意状态，都优先检查是否有新的请求到来且未命中，此时下一状态为Buffer缺失的读，之后根据预取功能的开启及Buffer的有效位确定是否递增地址，向存储器发起新的请求，并将数据读入Buffer。

若预取步长为奇数，如1，显然两个Buffer分别存奇数与偶数地址的数据，对于一个地址确定的请求，访问的Buffer是确定的，故地址比较时，无需同时与两个Buffer的地址进行比较，只需根据最后一位地址是0或1进行某一Buffer的地址比较。

如图5所示，当预取步长为偶数，请求的地址需同时与两个Buffer的地址进行比较，若缺失，则两个Buffer的内容都需要更新，此时总是将目标数据从存储器读出后存入Buffer0，并在没有新的缺失请求的条件下更新Buffer1。

如图6所示，一种由使能位step_adapt控制的自适应改变预取步长的方法，所述使能位step_adapt需协同两位参数N、X一起配置；若使能位step_adapt为高，需记录N次访问内未命中Buffer的次数，并记录N次访问的第一和最后一次的请求地址，若未命中次数大于X次，计算两个地址的差值，并除以N，向下取整作为新的预取步长，这亦相当于取N次访问中（N-1）个地址的差值并求平均；若使能位step_adapt为低，不进行设定，预取步长不变为定值。

Claims

1.一种基于预取的处理器加速取指方法，其特征在于，包括如下步骤：步骤一，通过比较总线和存储器的位宽，取二者相比较大的位宽来作为Buffer的位宽，根据处理器的取指存在跳转情况，取2个Buffer，即Buffer0和Buffer1；步骤二，协调总线和存储器的位宽，将存储器中取出的数据存放在Buffer中，所述Buffer再根据偏移地址确定返回的数据，进行选择性预取，当预取使能位prefetch_en为高，拼接总线和存储器的位宽并预取，反之只进行预取操作。

2.如权利要求1所述的一种基于预取的处理器加速取指方法，其特征在于，在预取操作的过程中对所述Buffer进行内容有效性判断，具体为：为Buffer设置有效位，当Buffer为空或发生缺失时，有效位为低；当对存储器发起新的读取数据请求，将数据写入Buffer，有效位为高；当连续两次访问同一个Buffer且两次地址不匹配，根据顺序取指的假设得到第二次对Buffer的访问为缺失，同时另一个Buffer中的数据失效。

3.如权利要求2所述的一种基于预取的处理器加速取指方法，其特征在于，在预取操作的过程中对所述Buffer进行请求命中的判断，具体为：当Buffer内容有效且Buffer地址与请求地址匹配，则对Buffer的访问为命中；反之发生Buffer的缺失。

4.如权利要求3所述的一种基于预取的处理器加速取指方法，其特征在于，当对Buffer的访问未命中，则以当前请求地址向存储器发起访问，处理完该次请求后，若无新的缺失请求，且预取功能未被关闭、相邻Buffer内容有效位为低，则请求地址以设定的步长递增，读出存储器中的下一数据存入Buffer。

5.如权利要求4所述的一种基于预取的处理器加速取指方法，其特征在于，所述预取通过状态机实现，具体为：

6.如权利要求5所述的一种基于预取的处理器加速取指方法，其特征在于，所述预取步长由使能位step_adapt控制的自适应改变，所述使能位step_adapt协同参数N、X一起配置；若使能位step_adapt为高，记录N次访问内未命中Buffer的次数，并记录N次访问的第一和最后一次的请求地址，若未命中次数大于X次，计算两个地址的差值，并除以N，向下取整作为新的预取步长，这亦即取N次访问中（N-1）个地址的差值并求平均；若使能位step_adapt为低，不进行设定，预取步长不变为定值。