CN108537719A

CN108537719A - 一种提高通用图形处理器性能的系统及方法

Info

Publication number: CN108537719A
Application number: CN201810253799.3A
Authority: CN
Inventors: 景乃锋; 王建飞; 王琴; 蒋剑飞; 贺光辉; 梁晓峣; 毛志刚
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2018-03-26
Filing date: 2018-03-26
Publication date: 2018-09-14
Anticipated expiration: 2038-03-26
Also published as: CN108537719B

Abstract

本发明公开一种提高通用图形处理器性能的系统及方法，所述系统包括：缓存组压力监测表，设置于主流多处理器的片上存储内，用于对每个缓存组的读写次数分别进行记录，根据记录的读写次数周期性地更新每个缓存组的压力状态；访问目标块仲裁单元，用于根据缓存组的压力状态及重映射表对访问请求进行仲裁，于压力大的缓存组请求寻找支援组时，搜索支援组，根据所述缓存组压力监测表得到搜索结果，进而于重映射表中建立该压力大缓存组与支援组的映射关系；重映射表，设置于主流多处理器的片上存储内，用于记录每一个高频访问缓存组与支援组的映射关系，并通过改变有效状态位来解除该映射，通过本发明，可提高改善GPU的片上资源效率。

Description

一种提高通用图形处理器性能的系统及方法

技术领域

本发明涉及通用图形处理器芯片设计领域，特别是涉及一种提高通用图形处理器性能的系统及方法。

背景技术

近年来，图形处理器作为通用和高吞吐量设备经历了巨大的增长。依赖大量并行的线程和巨大内存带宽，通用图形处理器获得了优越的性能。作为并行线程和内存桥梁的片上存储，使用了非常复杂的多层级的结构实现，包括寄存器，共享内存，以及数据缓存等。Jing et al.根据图形处理器中每个流多处理器内部寄存器利用率低和数据缓存不够用的现象，提出融合片上寄存器和缓存，将二者合为一体，以此来达到提高资源利用率和提高性能的目的。

然而，基于融合寄存器堆和数据缓存的片上存储本身独特的特点：组相联结构的片上融合存储容量足够大，按照缓存的方式来进行管理，寄存器数据需要被优先保护，加重了缓存组之间访问不平衡。

发明内容

为克服上述现有技术存在的不足，本发明之目的在于提供一种提高通用图形处理器性能的系统及方法，以在缓存化的融合片上存储基础上，平衡缓存组的访问压力来进一步提高改善的GPU(图形处理单元)的片上资源效率。

为达上述及其它目的，本发明提出一种提高通用图形处理器性能的系统，包括：

缓存组压力监测表，设置于主流多处理器的片上存储内，用于对每个缓存组的读写次数分别进行记录，根据记录的读写次数周期性地更新每个缓存组的压力状态；

访问目标块仲裁单元，用于根据缓存组的压力状态及重映射表对访问请求进行仲裁，于压力大的缓存组请求寻找支援组时，搜索支援组，根据所述缓存组压力监测表得到搜索结果，进而于重映射表中建立该压力大缓存组与支援组的映射关系；

重映射表，设置于主流多处理器的片上存储内，用于记录每一个高频访问缓存组与支援组的映射关系，并通过改变有效状态位来解除该映射。

进一步地，所述缓存组压力监测表包括：

计数器模块，包括多个饱和计数器，用于对每个缓存组进行读写次数计数；

压力状态记录模块，用于记录每个缓存组的访问压力状态；

比较模块，包括多个比较器，于采样周期结束后，将每个缓存组的饱和计数器的统计数据与预设阈值进行比较，根据比较结果更新每个缓存组的压力状态。

进一步地，各比较器首先将计数的写次数与第一写阈值比较，然后将写次数与第二写阈值比较，最后将读次数与读取阈值比较，消耗三个时钟周期。

进一步地，各比较器于写入次数大于第一写阈值时，更新所述压力状态记录模块将对应的缓存组状态设为压力大，于写入次数小于第二写阈值的同时读次数也小于读取阈值时，更新所述压力状态记录模块将对应的缓存组状态设为压力小，其他情况则将对应的缓存组设为压力均衡。

进一步地，所述缓存组压力监测表还包括调节单元，用于调节第一写阈值、第二写阈值以及读取阈值以调节缓存组中压力大和压力小的缓存组数目。

进一步地，于压力大的缓存组请求寻找支援组时，所述访问目标块仲裁单元通过所述缓存组压力监测表从该压力大缓存组的下个位置开始搜索，搜索到的第一个压力小的缓存组即作为结果传输给所述重映射表。

进一步地，当新的写入请求到达一个缓存组时，所述访问目标块仲裁单元检测其是否存在支援组，并采用轮流的方式将新数据写入目标组。

进一步地，当写入请求到达一个支援组时，所述访问目标块仲裁单元检测所述支援组当前的压力状态，如果它的压力状态为压力大，则不再适合作为支援组，则通过重置有效状态位，解除该缓存组作为支援的状态，并替原压力大的缓存组重新寻找支援组。

进一步地，所述重映射表的行数设计与缓存组的组数相同，每行记录支援组与当前组所在位置的差值，同时由每行的有效状态位来反应当前组是否建立了重映射。

为达到上述目的，本发明还提供一种提高通用图形处理器性能的方法，包括如下步骤：

步骤一，利用设置于主流多处理器的片上存储内的缓存组压力监测表，对每个缓存组的读写次数分别进行记录，根据记录的读写次数周期性地更新每个缓存组的压力状态；

步骤二，根据缓存组的压力状态以及重映射表对访问请求进行仲裁，于压力大的缓存组请求寻找支援组时，搜索支援组，根据所述缓存组压力监测表得到搜索结果，进而于重映射表中建立该压力大缓存组与支援组的映射关系。

与现有技术相比，本发明一种提高通用图形处理器性能的系统及方法通过在缓存化的融合片上存储中，平衡缓存组的访问压力来提高GPGPU(通用图形处理单元)的性能表现，将访问频率低的缓存组与访问频率高的缓存组动态的建立映射，以用来分摊后者大量的访问，进而减少缓存抖动，提高片上存储利用率，本发明通过动态的检测每个缓存组的访问压力，智能的将访问压力大的缓存组的部分访问转移到访问压力小的缓存组，进而达到提高资源利用率，提高性能的目的。

附图说明

图1为本发明一种提高通用图形处理器性能的系统的系统架构图；

图2为本发明具体实施例中采样周期内的步骤流程图；

图3为本发明嵌入融合片上存储后的系统架构图。

具体实施方式

以下通过特定的具体实例并结合附图说明本发明的实施方式，本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其它优点与功效。本发明亦可通过其它不同的具体实例加以施行或应用，本说明书中的各项细节亦可基于不同观点与应用，在不背离本发明的精神下进行各种修饰与变更。

图1为本发明一种提高通用图形处理器性能的系统的系统架构图。如图1所示，本发明一种提高通用图形处理器性能的系统，包括：

缓存组压力监测表10，设置于主流多处理器的片上存储内，用于对每个缓存组的读写次数分别进行记录，根据记录的读写次数周期性地更新每个缓存组的压力状态。具体地，缓存组压力监测表10实时记录每个缓存组的读写次数，以写满整个片上融合存储所需要的写次数为采样周期，即以寄存器数据和数据缓存数据写入次数进行采样，当写入数据足够写满整个片上融合存储时，将该写入总次数作为采样周期，如图2所示，并对每个缓存组的访问压力状态进行更新。在一个采样周期内，缓存组压力监测表10记录每个缓存组的写入次数，并将写入次数与高低阈值分别比较，判断压力状态，例如：高于高阈值为压力大，低于低阈值为压力小；在一个采样周期内，记录每个缓存组的读取次数，并将读取次数与读阈值分别比较，判断该缓存组是否需要被保护，如果是，则设置成不可为压力大的缓存组提供支援。

访问目标块仲裁单元20，用于根据缓存组的压力状态对访问请求进行仲裁，于压力大的缓存组(即高频访问缓存组)请求寻找支援组时，搜索支援组，根据缓存组压力监测表10得到搜索结果，进而于重映射表30中建立该压力大缓存组与支援组的映射关系。具体地说，当新的写入请求到达压力大的缓存组时，访问目标块仲裁单元20则会启动寻找支援组，从缓存组压力监测表10得到搜索结果，并根据搜索结果写入重映射表。优选地，当新的写入请求到达一个缓存组时，访问目标块仲裁单元20会检测其是否存在支援组，并采用轮流的方式将新数据写入目标组。优选地，当写入请求到达一个支援组时，访问目标块仲裁单元20会检测支援组当前的压力状态，如果它的压力状态为压力大，则不再适合作为支援组，则会通过重置有效状态位，解除该缓存组作为支援的状态，并替原压力大的缓存组重新寻找支援组。

重映射表30，记录每一个高频访问缓存组(压力大的缓存组)的支援组索引，从而建立映射，并通过改变有效状态位来解除该映射。

具体地，缓存组压力监测表10进一步包括：

计数器模块101，包括多个饱和计数器，用于对每个缓存组进行读写次数计数，具体地，每个缓存组对应一个读计数的饱和计数器和一个写计数的饱和计数器，在本发明具体实施例中，写计数的饱和计数器与读计数的饱和计数器均为3-bits的饱和计数器，在本发明具体实施例，以写入次数1024次为采样周期，记录每个缓存组的写入次数和读取次数；

压力状态记录模块102，用于记录每个缓存组的访问压力状态。具体地，每个缓存组对应一个状态位记录单元，以记录相应缓存组的访问压力状态，在本发明具体实施例中，每个缓存组的访问压力状态可分为压力大(需要支援)，压力小(可以当做支援)，压力均衡三种，这样每个缓存组需要2-bit来表示这三种状态；

比较模块103，包括多个比较器，于采样周期结束后，将每个缓存组的饱和计数器的统计数据与预设阈值进行比较，根据比较结果更新每个缓存组的压力状态。也就是说，每个缓存组对应一个比较器，该比较器分别将写计数的饱和计数器和读计数的饱和计数器的计数结果与预设阈值进行比较，在本发明具体实施例中，各比较器进行阈值比较时分三次进行，首先将计数的写次数与第一写阈值比较，然后将写次数与第二写阈值比较，最后将读次数与读取阈值比较，消耗三个时钟周期，这里第一写阈值大于第二写阈值，即第一写阈值为高阈值，第二写阈值为低阈值，当写入次数大于第一写阈值时，表示该缓存组压力大，则更新压力状态记录模块102将该缓存组状态设为压力大，当写入次数小于第二写阈值的同时读次数也小于读取阈值时，表示该缓存组压力小，则更新压力状态记录模块102将该缓存组状态设为压力小，其他情况则将该缓存组设为压力均衡。较佳地，在搜索支援组的时候，比较模块103还通过比较器对状态位进行判断(低，高，平衡)以获取支援组。

当压力大缓存组请求寻找支援组时，访问目标块仲裁单元20会通过该缓存组压力监测表10从前者(即压力大缓存组)下个位置开始搜索，搜索到的第一个压力小的缓存组即作为结果传输给重映射表。具体地说，当新的写入请求到达压力大的缓存组时，该压力大缓存组则会请求寻找支援组，访问目标块仲裁单元20则于压力状态记录模块102该压力大缓存组的下一个位置开始搜索，搜索到的第一个压力小的缓存组作为结果传输给重映射表20。

优选地，缓存组压力监测表10还包括调节单元，用于调节第一写阈值、第二写阈值以及读取阈值以调节缓存组中压力大和压力小的缓存组数目。例如，当缓存组中压力大的缓存组过多时，通过增大第一写阈值(高阈值)和第二写阈值(低阈值)，来减少其数目并提高压力小的缓存组的数目，反之亦然。

在本发明具体实施例中，对于片上存储增加的重映射表20，其行数设计与融合缓存组的组数相同，以图1为例，缓存组为组0-组255，则重映射表为256行，每行记录支援组与当前缓存组所在位置的差值，同时由每行的有效状态位来反应当前组是否建立了重映射。

根据统计结果，每个压力大的缓存组只需一个压力小的缓存组作支持，所以重映射表的每一行存储一个支援组的位置。

根据统计结果，每个压力大的缓存组可以在临近的三十二个缓存组内搜索到支持组，所以重映射表的每一行仅需要5-bits存储支援组的相对位置。

如图1所示，各序号表示如下：①表示读写计数，②表示更新阈值，③表示更新组状态，④表示访存缺失时寻找重映射地址，⑤表示在支援组中搜索，⑥表示更新重映射表。

本发明中，高频访问缓存组与低频访问缓存组只构建简单的一一映射，并且后者只在前者附近有限距离内寻找，达到节约记录该映射所需要的额外存储空间。

图2为本发明一种提高通用图形处理器性能的方法的采样周期内的步骤流程图。如图2所示，本发明一种提高通用图形处理器性能的方法，包括如下步骤：

步骤201，利用设置于主流多处理器的片上存储内的缓存组压力监测表，对每个缓存组的读写次数分别进行记录，根据记录的读写次数周期性地更新每个缓存组的压力状态。具体地，缓存组压力监测表实时记录每个缓存组的读写次数，以写满整个片上融合存储所需要的写次数为采样周期，即以寄存器数据和数据缓存数据写入次数进行采样，当写入数据足够写满整个片上融合存储时，将该写入总次数作为采样周期，并对每个缓存组的访问压力状态进行更新。在一个采样周期内，缓存组压力监测表记录每个缓存组的写入次数，并将写入次数与高低阈值分别比较，判断压力状态，例如：高于高阈值为压力大，低于低阈值为压力小；在一个采样周期内，记录每个缓存组的读取次数，并将读取次数与读阈值分别比较，判断该缓存组是否需要被保护，设置成不可为压力大的缓存组提供支援。

步骤202，根据缓存组的压力状态对访问请求进行仲裁。具体地说，当写入请求到达一缓存组时，若该缓存组为压力大的缓存组，则搜索支援组，根据缓存组压力监测表得到搜索结果，进而于重映射表中建立该压力大缓存组与支援组的映射关系，具体地，当压力大缓存组请求寻找支援组时，从前者下个位置开始搜索，搜索到的第一个压力小的缓存组即作为结果传输给重映射表；若该缓存组不是压力大的缓存组，则检测其是否存在支援组，并采用轮流的方式将新数据写入目标组；若该缓存组为支援组，则检测该支援组当前的压力状态，如果它的压力状态为压力大，则不再适合作为支援组，通过重置有效状态位，解除该缓存组作为支援的状态，并替原压力大的缓存组重新寻找支援组。优选地，当一个缓存组发生数据缺失时，则检测重映射表，如果它有支援组，则在支援组中继续搜索目标数据。

图3为将本发明所提出的访问均衡机制(重映射表，访问目标块仲裁，组压力监测)嵌入背景技术所介绍的融合片上存储架构。可以看到，针对来自加载(LOAD)和存储(STORE)单元的访存请求，会查询重映射表，带着支援组地址的信息，经过访问目标块仲裁，仲裁单元查看目的组是否存在支援组，如有，仲裁是否将数据写入支援组，如无，仲裁是否需要搜寻支援组。针对来自寄存器地址转换形成的访存请求，不支持重映射。和原始访存地址一样，作为统一的访问地址，会被组压力监测单元根据该请求的读写特性进行记录。最后，通过统一的访问地址在融合存储中完成读写。

可见，本发明通过从高频访问缓存组转移部分访问请求到低频访问缓存组，提高高频访问缓存组的组相联关联度，达到各个缓存组访问均衡的目的。本发明所使用的方法可以适合任何大容量的组相联缓存。

以下根据本发明的仿真结果进一步说明本发明：

本发明使用GPGPU-Sim3.2.1作为仿真平台，采用的是NVIDIA Fermi架构的设置，并基于此架构整合。该图形处理器参数如下表1。

表1

默认的贪婪然后最老(GTO)调度单元被用作线程束调度。运行时的统计包括每个基准程序的性能和功耗数据。每个组件的功耗是从集成在GPGPU-Sim中的GPUWattch和CACTI获得的。

在仿真平台上运行以下基准测试程序：

表2

本发明选择的多样性的应用程序，从三个基准程序测试集中按照缓存敏感度(高，低)选择了22个程序对本发明进行佐证和解释。

下面为在仿真平台上的评估结果：

1、片上存储利用率

本发明提出的访问均衡的片上存储架构相比原费米架构，片上存储利用率平均提升56％。对于一些特别的应用程序，利用率几乎可以达到100％。从片上缓存访问缺失率的角度考虑，访问均衡机制可以带来30％的命中率提升。同时，每个缓存组的访问次数也更加均衡。

2、能耗节约比

访问均衡机制新增加了包括状态监测，压力状态比较，支援组搜索等能耗。因为本发明大幅减少了程序运行的时间，通过CACTI，本发明估算出相比原费米架构，本发明提出的新架构均是节约能耗的。尤其对于缓存敏感的应用程序，可以节约50％的能耗。

3、性能表现

在本发明提出的访问均衡机制下，对所选的基准程序进行了测试。对比原始费米结构，在微小的硬件代价下，该机制可以带来三倍的性能提升。对比片上融合存储架构，该机制也带来了54.1％的性能提升。在大多数情况下，本发明的性能可以类比于原始的128KB寄存器和128KB的一级缓存的配置，但本发明只用了128KB的整合存储和一些微小的硬件代价。

综上所述，本发明一种提高通用图形处理器性能的系统及方法通过在缓存化的融合片上存储中，平衡缓存组的访问压力来提高GPGPU(通用图形处理单元)的性能表现，将访问频率低的缓存组与访问频率高的缓存组动态的建立映射，以用来分摊后者大量的访问，进而减少缓存抖动，提高片上存储利用率，本发明通过动态的检测每个缓存组的访问压力，智能的将访问压力大的缓存组的部分访问转移到访问压力小的缓存组，进而达到提高资源利用率，提高性能的目的。实验表明，本发明压力均衡的存储结构对于缓存敏感型和访存不敏感型应用程序均有效，需要特别指出的是，对于缓存敏感性程序，该访问均衡的存储架构可以获得平均三倍的性能提升。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何本领域技术人员均可在不违背本发明的精神及范畴下，对上述实施例进行修饰与改变。因此，本发明的权利保护范围，应如权利要求书所列。

Claims

1.一种提高通用图形处理器性能的系统，包括：

2.如权利要求1所述的一种提高通用图形处理器性能的系统，其特征在于，所述缓存组压力监测表包括：

压力状态记录模块，用于记录每个缓存组的访问压力状态；

3.如权利要求2所述的一种提高通用图形处理器性能的系统，其特征在于：各比较器首先将计数的写次数与第一写阈值比较，然后将写次数与第二写阈值比较，最后将读次数与读取阈值比较，消耗三个时钟周期。

4.如权利要求3所述的一种提高通用图形处理器性能的系统，其特征在于：各比较器于写入次数大于第一写阈值时，更新所述压力状态记录模块将对应的缓存组状态设为压力大，于写入次数小于第二写阈值的同时读次数也小于读取阈值时，更新所述压力状态记录模块将对应的缓存组状态设为压力小，其他情况则将对应的缓存组设为压力均衡。

5.如权利要求4所述的一种提高通用图形处理器性能的系统，其特征在于：所述缓存组压力监测表还包括调节单元，用于调节第一写阈值、第二写阈值以及读取阈值以调节缓存组中压力大和压力小的缓存组数目。

6.如权利要求1所述的一种提高通用图形处理器性能的系统，其特征在于：于压力大的缓存组请求寻找支援组时，所述访问目标块仲裁单元通过所述缓存组压力监测表从该压力大缓存组的下个位置开始搜索，搜索到的第一个压力小的缓存组即作为结果传输给所述重映射表。

7.如权利要求1所述的一种提高通用图形处理器性能的系统，其特征在于：当新的写入请求到达一个缓存组时，所述访问目标块仲裁单元检测其是否存在支援组，并采用轮流的方式将新数据写入目标组。

8.如权利要求1所述的一种提高通用图形处理器性能的系统，其特征在于：当写入请求到达一个支援组时，所述访问目标块仲裁单元检测所述支援组当前的压力状态，如果它的压力状态为压力大，则不再适合作为支援组，则通过重置有效状态位，解除该缓存组作为支援的状态，并替原压力大的缓存组重新寻找支援组。

9.如权利要求1所述的一种提高通用图形处理器性能的系统，其特征在于：所述重映射表的行数设计与缓存组的组数相同，每行记录支援组与当前组所在位置的差值，同时由每行的有效状态位来反应当前组是否建立了重映射。

10.一种提高通用图形处理器性能的方法，包括如下步骤：