CN109783399A

CN109783399A - 一种动态可重构处理器的数据缓存预取方法

Info

Publication number: CN109783399A
Application number: CN201811377387.7A
Authority: CN
Inventors: 杨晨; 侯佳; 王逸洲; 周奇; 耿莉
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2018-11-19
Filing date: 2018-11-19
Publication date: 2019-05-21
Anticipated expiration: 2038-11-19
Also published as: CN109783399B

Abstract

本发明公开了一种动态可重构处理器的数据缓存预取方法，包括以下步骤：1)可重构处理器缓存预取时，偏移量处理单元获得最佳偏移量，发送给预取地址生成模块；2)预取度调节模块通过预取精度与迭代总数据量这两个参量动态调节预取度，并发送给预取地址生成模块；3)预取地址生成模块根据基地址、最佳偏移量和动态预取度生成预取地址及数量。本发明提供的一种动态可重构处理器的数据缓存预取方法，该方法提前将数据从主存储器加载到缓存存储器上，降低了处理器访问数据时间，提升了预取准确度。

Description

一种动态可重构处理器的数据缓存预取方法

技术领域

本发明属于高速缓存管理领域，具体涉及一种动态可重构处理器的数据缓存预取方法。

背景技术

受指令流驱动，基于冯.诺依曼体系结构的处理器在性能和功耗两方面不能满足日益膨胀的应用需求；受数据流驱动的专用计算(如ASIC)，电路结构是根据功能定制或者半定制的，功耗低且运算速度非常快，但是缺乏灵活性和扩展性，应用的发展超前于硬件的设计。可重构处理器是在运行时通过配置流来动态改变运算单元阵列的功能(功能的改变往往只消耗几个或者十几个时钟周期)，然后通过数据流来驱动运算单元阵列进行计算。所以可重构处理器既有指令驱动处理器的灵活性，又具有接近数据驱动芯片的性能和功耗。可重构处理器主要由控制单元、数据通路、存储器和输入/输出接口四部分组成。与指令流处理器的主要区别在于，控制单元通过发送配置信息而不是指令的方式控制数据通路的行为,存储器中所存储的是配置信息而不是指令。其中配置信息是重点，是与传统处理器的主要区别之处，它用来组织数据通路实现特定的功能，其自身特点能够弥补传统处理器不足。

缓存技术的出现是为了弥补处理器与存储器之间的速度差异。硬件预取是现代高性能处理器的一个重要特性。准确的硬件数据预取可以减少主存延迟的带来负面影响，并显著提高处理器的性能。Sandbox prefetching、Feedback directed prefetching、Globalhistory buffer包括其他多核处理器(CMP)的预取方法面向的都是基于冯.诺依曼体系结构的处理器。算法也可以使用在可重构处理器上，但是没有考虑可重构处理器本身的特点。基于可重构处理器缓存配置信息的特点，并根据配置信息的特点，可实现缓存预取方法。

方法

发明内容

本发明目的是提供一种动态可重构处理器的数据缓存预取方法，该方法提前将数据从主存储器加载到缓存存储器上，降低了处理器访问数据时间，提升了预取准确度。

本发明采用如下技术方案来实现的：

一种动态可重构处理器的数据缓存预取方法，包括以下步骤：

1)可重构处理器缓存预取时，偏移量处理单元获得最佳偏移量，发送给预取地址生成模块；

2)预取度调节模块通过预取精度与迭代总数据量这两个参量动态调节预取度，并发送给预取地址生成模块；

3)预取地址生成模块根据基地址、最佳偏移量和动态预取度生成预取地址及数量。

本发明进一步的改进在于，步骤1)的具体实现方法如下：

101)当访问来自L2cache的基地址时，来自偏移列表中52个偏移量，将基地址与偏移量之和添加到bloom滤波器中，下面给出了该偏移列表：

102)当L2cache再次访问时，如果在bloom滤波器中找到地址，即缓存命中(Cache-hit),那此地址对应的偏移量分数加1；

103)经过256次访问之后，找到最高分对应的偏移量即为最佳偏移量。

本发明进一步的改进在于，步骤2)的具体硬件实现方法如下：

201)由配置信息直接获取迭代次数，由程序计数器获得执行一次过程中的访存数据量，迭代次数与访存数据量乘积即为迭代总数据量；

202)利用bloom滤波器的特性，并使用两个硬件计数器来跟踪预取的准确度，得到预取精度；

203)在获得了预取精度和配置信息的迭代总数据量后，分别与各自阈值作比较，进行动态调节。

本发明进一步的改进在于，步骤3)的具体实现方法如下：

301)预取地址生成模块对来自L2缓存的基地址与最佳偏移量生成预取缓存行地址，预取度决定产生的预取数量，公式如下：

预取地址_预取度＝基地址+最佳偏移量*预取度。

本发明具有如下有益的技术效果：

本发明提出了一种面向可重构处理器的缓存预取方法，设计其数据缓存预取架构以及相应的算法，避免了预取上浪费实际高速缓存空间和内存带宽，改善缓存缺失率，从而提升了性能。

现代高性能计算器采用硬件预取技术来减轻长时间内存延迟的影响。本发明从可重构处理器的配置信息特点出发，提出其缓存预取方法，利用预取精度与配置信息的迭代总数据量两个参数来生成预取地址及其数量。

预取精度可利用bloom滤波器的特性，并使用两个硬件计数器来跟踪预取器的准确度。预取精度低时，如果将预取地址取到缓存中，不仅不会提高性能，还会增加硬件开销，将是无用的预取，故预取度不增加；预取精度高时，可适当增加预取度，因为此时配置信息可能被重用。迭代总数据量是迭代次数与访存数据量的乘积，迭代次数可由配置信息直接获取，访存数据量可由程序计数器获取。通过以上操作，可通过硬件获得预取精度与迭代总数据量，然后根据不同的情况，动态调节预取度，从而提升了预取精度，避免了内存带宽和缓存空间的浪费。

附图说明

图1面向可重构处理器的数据缓存预取方法硬件设计图

图2偏移量处理单元硬件结构

图3 Bloom滤波器工作原理图

图4随机序列命中率情况，其中，图4(a)为第1至5组随机序列命中率结果比较，图4(b)为第6至10组随机序列命中率结果比较，图4(c)为第11至15组随机序列命中率结果比较。

具体实施方式

以下结合附图和实施例对本发明做出进一步的说明。

主要特点：

1.基于可重构处理器缓存配置信息的特点，采用预取精度和配置信息的迭代总数据量作为参数，通过其与阈值作比较后的大小作为参考，来动态地调节预取度(degree)，即发出预取的个数。

2.采用偏移量处理单元，面向基地址找到来自偏移量列表中52个偏移量中的最佳偏移量。

3.预取度调节模块能够根据预取精度与配置信息的迭代总数据量这两个参数与阈值比较所得大小情况来动态地调节预取度。

4.设计预取地址生成模块，对来自偏移量处理单元的最佳偏移量、Feedback中得到的degree以及基地址进行处理，进而生成预取缓存行地址与数量。

主要优点：

1.由于采用计算最佳偏移量时，所发出的预取均是在处理单元中进行，并不会向Cache发出预取地址，只会发出对应最佳偏移量的预取地址，故其节省了硬件开销。

2.可重构处理器预取方法能够根据配置信息特点动态调节预取度，避免了硬件的无用开销，提高了预取效率。

3.可重构处理器预取算法预取精度较高，从而提高缓存命中率，提高可重构处理器的性能。

本发明所提出的面向可重构处理器的缓存预取方法硬件部分由三部分构成：偏移量处理单元、预取度调节模块、预取地址生成模块，如图1。

本发明中偏移量处理单元采用来自偏移量列表中52个偏移量，对来自L2高速缓存的基地址通过将基地址加偏移量添加到bloom滤波器中选出最佳偏移量，并将其发送给预取地址生成器；预取度调节模块通过预取精度与迭代总数据量这两个参量来动态调节预取degree；预取地址生成模块根据基地址、最佳偏移量以及预取degree生成预取地址以及其数量，并将其发送给主存。具体方法如下：

1)偏移量处理单元

偏移量处理单元由四部分组成：偏移量列表、Bloom滤波器、分数表、检测块(分数比较器)，硬件结构如图2。

偏移量处理单元主要是面向基地址找到来自偏移量列表中52个偏移量中的最佳偏移量。当访问到来自L2高速缓存的基地址时，来自偏移量列表中52个偏移量，将基地址与偏移量之和添加到布隆(Bloom)滤波器中。当高速缓存再次访问时，如果在bloom滤波器中找到地址，即缓存命中(Cache-hit),那此地址对应的偏移量分数加1，分数表记录该偏移量所得分数情况。经过256次访问之后，分数比较器对来自分数表中的分数进行比较，最终选出52个偏移量中得分最高的，从而得到最佳偏移量。偏移列表如下：

2)预取度调节模块

预取度调节模块根据预取精度与配置信息的迭代总数据量这两个参数与阈值比较所得大小情况来动态地调节预取度。预取度即当预取器发出预取时所预取的缓存行行数。每两个预取缓存行间的地址增量大小即为最佳偏移量。其中：

a.预取精度

预取精度是指预取器发出的准确预取与总预取数量的比值。当预取器对基地址发出预取时，并不是每次的预取地址都是准确的。准确的预取可以缓解内存延迟，大大提高处理器的性能，而不准确的预取则会浪费内存带宽，严重降低处理器的性能。本发明中，利用bloom滤波器的特性，并使用两个硬件计数器来跟踪预取器的准确度，如图3。第一个计数器pref-total(总预取)跟踪发送到内存的预取地址数量。第二个计数器used-total(准确预取)跟踪有用预取的数量。bloom滤波器使用一个4096条目的位向量，每个条目为1比特。当所来一个预取地址时，pref-total数量加一，并会根据预取地址的低12位与高12位的异或来对位向量置位(该条目置为1)。当来到的地址为内核发出的需求地址时，通过需求地址的低12位与高12位的异或来对位向量的目标条目(该条目地址为需求地址的低12位与高12位的异或)进行检查，如果该条目已被置位为1，则used-total数量加一。预取器的准确度是通过计算used-total与pref-total的比率来获得的。

b.配置信息的迭代总数据量

配置信息的迭代总数据量是指一套配置信息在在阵列上被重复执行时访存的总数据量。其值等于迭代次数乘以访存数据量。迭代次数：一套配置信息在阵列上被重复执行的次数。可由配置信息直接获取。访存数据量：配置信息被执行一次过程中访存的数据量。可由程序计数器获得。在仿真时，迭代次数与访存数据量可作为输入端口，直接输入数据获得。

通过以上操作获得了预取地址的预取精度、配置信息的迭代总数据量之后，通过其分别与各自的阈值作比较，得到范围大小，然后进行动态调节。本发明所做的调整策略、阈值是通过在modelsim仿真平台上仿真，对预取结果进行比较所得到的较为合理的数据。其预取度动态调整策略如表1。

表1预取度动态调整策略(Feedback Table)

3)预取地址生成模块

预取地址生成模块对来自偏移量处理单元的最佳偏移量、Feedback中得到的degree以及基地址进行处理，进而生成预取缓存行地址与数量。

来自L2缓存的基地址与最佳偏移量生成预取缓存行地址，并由Feedback表得到预取度。预取度决定产生预取的数量。

Prefetch addressdegree＝Base address+Degree*Best offset(1)

如公式(1)，Base address是来自L2缓存的基地址，Best offset是偏移量处理单元产生的最佳偏移量，Degree则由反馈表动态调整后得出的预取度。预取地址一共产生degree个，第一个预取地址等于基地址与最佳偏移量之和，而第degree个预取地址由基地址与Degree与最佳偏移量乘积之和得出。

【本发明的性能测试】

评价一个预取方法的核心指标就是预取准确度，即命中率(hit rate)或者缺失率(miss rate)。本发明主要是通过对15组随机序列的访问，对比不预取的LRU算法与新预取算法的demand命中率，来观察新预取算法是否在可重构处理器的运行环境下表现更好的性能。不加预取的LRU命中率由count_hit与count_total的比值得到，而demand_hit_total则是统计采用预取算法之后demand命中数，故采用预取后的命中率由demand_hit_total与count_total的比值得到。每组测试数据均是由MATLAB中的rand函数随机生成2000个数据，一共产生15组，通过在仿真平台上运行，进行结果记录并分析。采用预取方法得到15组命中率数据与不采用预取方法所得数据进行对比柱状图如图4所示，其中图4(a)为第1至5组随机序列命中率结果比较，图4(b)为第6至10组随机序列命中率结果比较，图4(c)为第11至15组随机序列命中率结果比较。

通过采用预取方法和不预取LRU方法所得15组数据对比，可以清晰表明采用新预取方法后相对命中率大约提升了19％。之所以采用此预取之后命中率会提升，则要从demand如何命中说起。当内核发出demand时，Cache会在其tag中寻找该demand地址是否在其中，如果tag中找到demand地址，那么此次缓存命中。此预取算法与其他预取算法一样，会作用于在Cache查找tag之前作用于tag，使得原本未命中的demand地址变为Cache hit，并且添加到Cache中的预取都是精度较高的，从而提高缓存命中率，提高可重构处理器的性能。

实施例

在已经具备的研究基础中包括用于测试预取方法的仿真平台(modelsim仿真平台)，通过RTL级Verilog代码实现。阅读了代码，明确仿真平台的硬件结构，针对预取算法在Verilog中实现，并在仿真平台上验证算法正确性。

当所来数据为基地址为4176，内核发出的需求地址为4280时，当使能端pref_en为1有效时，通过偏移量处理单元的代码实现得到最佳偏移量为4b，同时得到预取degree为1，故发出一个预取地址41c1，这与计算所得实际预取地址相符。当下一个使能信号有效时，基地址为726f，需求地址为7440，迭代次数与访存数据量更新，使得迭代总数据量与阈值相比由中(2)变成了大(3)，而精度仍然为中(2)，故根据反馈表预取degree加1，变为2，仿真中也的确更新为2，此时最佳偏移量为4b，故发出2个预取地址72ba、7305，符合计算结果。因为使能信号pref_en一直有效，故其一直发送预取72ba、7305，直到使能信号pref_en变为0。

当进入一个demand地址时，将其赋值给Cache的req_addr，然后Cache对该demand地址进行响应(hit or miss)，当Cache命中时，则进入下一个demand地址，并将其赋值给Cache的req_addr，重复执行。若Cache未命中，则将该地址发送给Base_addr，通过预取模块对该未命中地址产生degree个预取地址，然后一个一个地发送给req_addr(每个预取地址在Cache中响应完后才能发送下一个)。当degree个预取地址全部发送并响应完后，则进入下一个demand地址，并重复执行以上操作。内核发出的demand地址为7fc0，当req_en有效时，将其发送给req_addr，一个时钟周期后，Cache响应结果为miss，则pref_en变为1并产生预取地址8000。下一个req_en有效时，预取地址8000发送给req_addr，Cache响应后进入下一个demand地址8000并pref_en变为0。下一个req_en有效时，demand地址8000送给req_addr，一个时钟周期后，Cache响应结果为miss，pref_en又变为1并产生预取地址8040和8080。下一个req_en有效时，预取地址8040发送给req_addr，Cache响应后发送第二个预取地址8080，再次响应完后进入下一个demand地址8040。通过波形图对比，证明已经将预取产生的地址发送给Cache并在Cache中响应，并未遗漏demand地址，预取方法已正确实现。

Claims

1.一种动态可重构处理器的数据缓存预取方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种动态可重构处理器的数据缓存预取方法，其特征在于，步骤1)的具体实现方法如下：

3.根据权利要求1所述的一种动态可重构处理器的数据缓存预取方法，其特征在于，步骤2)的具体硬件实现方法如下：

4.根据权利要求1所述的一种动态可重构处理器的数据缓存预取方法，其特征在于，步骤3)的具体实现方法如下：

预取地址_预取度＝基地址+最佳偏移量*预取度。