CN105550978B

CN105550978B - 一种面向统一染色架构的gpu 3d引擎片上存储层次结构

Info

Publication number: CN105550978B
Application number: CN201510927032.0A
Authority: CN
Inventors: 张骏; 田泽; 韩立敏; 郑新建; 任向隆; 吴晓成
Original assignee: Xian Aeronautics Computing Technique Research Institute of AVIC
Current assignee: Xian Aeronautics Computing Technique Research Institute of AVIC
Priority date: 2015-12-11
Filing date: 2015-12-11
Publication date: 2018-12-25
Anticipated expiration: 2035-12-11
Also published as: CN105550978A

Abstract

本发明涉及一种面向统一染色架构的GPU 3D引擎片上存储层次结构，该结构从上到下包括四层存储结构，依次为寄存器层、片上SRAM&L1Cache层、L2Cache层及显示存储器层；寄存器层与片上SRAM&L1Cache层相连，片上SRAM&L1Cache层与L2Cache层或显示存储器层相连，L2Cache层与显示存储器层相连。本发明能够降低图形处理过程中的数据访问延迟，提升显示存储器的数据带宽利用率。

Description

一种面向统一染色架构的GPU 3D引擎片上存储层次结构

技术领域

本发明涉及计算机硬件技术领域，尤其涉及一种面向统一染色架构的GPU 3D引擎片上存储层次结构。

背景技术

随着图形化应用的不断增加，早期单靠CPU进行图形绘制的解决方案已经难以满足成绩和技术增长的图形处理需求，图形处理器(Graphic Processing Unit，GPU)应运而生。从1999年Nvidia发布第一款GPU产品至今，GPU技术的发展主要经历了固定功能流水线阶段、分离染色处理器架构阶段、统一染色处理器架构阶段，其图形处理能力不断提升，应用领域也从最初的图形绘制逐步扩展到通用计算领域。GPU流水线高速、并行的特征和灵活的可编程能力，为图形处理和通用并行计算提供了良好的运行平台。

图形处理器的存储层次结构设计是GPU设计过程中的关键技术，也是GPU设计的难点之一，其设计的优劣直接影响图形处理性能。统一染色架构的GPU中，统一染色阵列资源利用率高，顶点和像素染色任务吞吐量大，对存储带宽和数据量的需求相对于分离染色架构GPU来说大幅提升，面向统一染色架构GPU 3D引擎的高性能片上存储层次结构设计更为重要、也更加复杂。因此，如何通过合理的片上存储层次结构来捕捉数据访问局部性，从而隐藏数据访问延迟，以及如何对所读写的存储器数据进行缓冲，从而提升显示存储器数据带宽利用率是统一染色架构GPU设计的核心内容之一。

发明内容

本发明为解决背景技术中存在的上述技术问题，而提供一种面向统一染色架构的GPU 3D引擎片上存储层次结构，从而能够降低图形处理过程中的数据访问延迟，提升显示存储器的数据带宽利用率。

本发明的技术解决方案是：本发明为一种面向统一染色架构的GPU 3D引擎片上存储层次结构，其特殊之处在于：该结构从上到下包括四层存储结构，依次为寄存器层、片上SRAM&L1Cache层、L2Cache层及显示存储器层；

所述寄存器层与片上SRAM&L1Cache层相连，所述片上SRAM&L1Cache层与L2Cache层或显示存储器层相连，所述L2Cache层与显示存储器层相连。

上述寄存器层包括多个图形功能单元中的寄存器，如片段处理单元中的像素属性寄存器、统一染色阵列中的定点/浮点寄存器组和纹理贴图阵列中的纹素寄存器。

上述片上SRAM&L1Cache层包括多个高速缓冲器和至少一个图像数据缓冲器，如片段处理单元中的像素Cache和Z-buffer Cache、统一染色阵列中的Local SRAM/共享存储器/指令L1 Cache/常量L1 Cache、纹理贴图阵列中的纹理L1Cache。

上述L2Cache层包含统一染色阵列中的常量SRAM、纹理贴图阵列中的纹理L2Cache。

上述显示存储器层包括两个存储仲裁管理单元、第一存储器和第二存储器，所述存储管理单元包括两路独立的第一AXI访存仲裁管理单元和第二AXI访存仲裁管理单元、两路独立的第一存储控制器和第二存储控制器；

所述两路独立的存储控制器实现外部存储器芯片的数据访问和时序控制；

所述第一AXI访存仲裁管理单元1根据来自片上SRAM&L1Cache层或L2Cache层的访问请求，控制第一存储控制器1从相应的第一存储器1中读写数据；

所述第二AXI访存仲裁管理单元2根据来自片上SRAM&L1Cache层或L2Cache层的访问请求，控制第二存储控制器2从相应的第二存储器2中读写数据。

上述层次结构包含5种不同功能的存储层次结构，分别是：像素数据层次化存储结构、染色器阵列数据的层次化存储结构、纹理数据的层次化存储结构、主机接口数据的层次化存储结构、视频显示数据的层次化存储结构；

所述像素数据层次化存储结构由寄存器层、片上SRAM&L1Cache层和显示存储器层构成；寄存器层中的ROP单元数据处理寄存器与片上SRAM&L1Cache层的Z-buffer Cache和像素Cache分别相连，片上SRAM&L1Cache层的Z-buffer Cache和像素Cache均与显示存储器层直接相连；

所述染色器阵列数据层次化存储结构由寄存器层、片上SRAM&L1Cache层、L2Cache层和显示存储器层构成；寄存器层中染色器单元的定点/浮点寄存器分别与片上SRAM&L1Cache层染色器单元的LocalSRAM、共享存储器、指令L1 Cache、常量L1 Cache相连，片上SRAM&L1Cache层的指令L1 Cache与显示存储器层相连，片上SRAM&L1Cache层的常量L1Cache与L2Cache层的常量SRAM相连；

所述纹理数据的层次化存储结构由寄存器层、片上SRAM&L1Cache层、L2Cache层和显示存储器层构成；寄存器层中纹理单元0和纹理单元1的纹素寄存器分别与片上SRAM&L1Cache层的纹理L1 Cache0和纹理L1 Cache1相连，片上SRAM&L1Cache层的纹理L1 Cache0和纹理L1 Cache1相连均与L2Cache层的纹理L2 Cache相连，L2Cache层的纹理L2 Cache与显示存储器层相连；

所述主机接口数据的层次化存储结构由寄存器层和显示存储器层构成；寄存器层中命令处理器寄存器、DMA控制器寄存器、DDR3调试通路寄存器、H.264寄存器与显示存储器层相连；

所述视频显示数据的层次化存储结构由寄存器层、片上SRAM&L1Cache层和显示存储器层构成；寄存器层中的显示控制模块处理寄存器与片上SRAM&L1Cache层的视频写行缓冲器和视频读行缓冲器相连，片上SRAM&L1Cache层的视频写行缓冲器和视频读行缓冲器与显示存储器层相连。

本发明具有以下优点：

1、本发明提供的GPU 3D引擎四层存储结构不但能够降低图形绘制和图形功能执行过程中的数据访问延迟，充分捕捉图形处理数据访问的局部性，还能够在图形处理器进行存储器数据访问时实现高效的数据缓冲，从而提升存储器数据带宽利用率。

2、寄存器层可以直接对片上SRAM&L1Cache层进行数据读写访问，也可以通过片上SRAM&L1Cache层对L2Cache层进行访问，L2Cache层对显示存储器层进行访问；片上SRAM&L1Cache层可以直接对显示存储器层进行读写访问，大幅提升显示存储器层的存储器数据带宽利用率，降低数据访问延迟。

3、当寄存器层数据访问存在局部性时，片上SRAM&L1Cache层能够捕捉到这种局部性，能够大幅减少对L2Cache层和显示存储器层的访问请求数量，提高数据返回速度，从而提高访问速度。

4、当片上SRAM&L1Cache层数据访问发生缺失时，L2Cache层仍能够捕剩余的局部性，能够大幅减少对显示存储器层的访问请求数量，提高数据返回速度，从而提高访问速度。

附图说明

图1是本发明的层次结构框图；

图2是本发明的显示存储器层中存储访问控制和管理模块结构框图。

具体实施方式

下面结合附图和具体实施例，对本发明的技术方案进行清楚、完整地表述。显然，所表述的实施例仅是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提所获得的所有其他实施例，都属于本发明的保护范围。

参见图1，本发明的结构包括四层存储结构，分别是：寄存器层、片上SRAM&L1Cache层，L2Cache层，以及显示存储器层。寄存器层与片上SRAM层相连，片上SRAM层&L1Cache层与L2Cache层或显示存储器层相连，L2Cache与显示存储器层相连。所述寄存器层可以直接对片上SRAM&L1Cache层进行数据读写访问，也可以通过片上SRAM&L1Cache层对L2Cache层进行访问，L2Cache层对显示存储器层进行访问；片上SRAM&L1Cache层可以直接对显示存储器层进行读写访问。

寄存器层包括：3D引擎在图形绘制过程中使用到的和处理完成后用来存储像素数据的寄存器；3D引擎统一染色阵列中的定点/浮点寄存器组；纹理贴图阵列中的纹素寄存器。

片上SRAM&L1Cache层包括多个高速缓冲器和至少一个图像数据缓冲器，包括片段处理单元中的像素Cache和Z-buffer Cache、统一染色阵列中的Local SRAM/共享存储器/指令L1 Cache/常量L1 Cache、纹理贴图阵列中的纹理L1Cache。

L2Cache层包含统一染色阵列中的常量SRAM、纹理贴图阵列中的纹理L2Cache。

显示存储器层包括两个存储仲裁管理单元、第一存储器1和第二存储器2，存储管理单元包括两路独立的第一AXI访存仲裁管理单元1和第二AXI访存仲裁管理单元2、两路独立的第一存储控制器1和第二存储控制器2。其中一路用来存储主机接口中命令处理器模块(CMD)和DMA模块，以及3D引擎在进行图形处理过程中所产生的和所用到的图形数据、纹理数据，以及3D引擎图形绘制产生的图像数据；另一路用来存储从外部数字视频接口所输入的两路视频数据。

下面分别详细介绍各层的具体结构及功能：

寄存器层。寄存器层主要包括以下几个模块内的寄存器：

3D引擎模块中的像素颜色寄存器：3D引擎的一个重要功能就是能够对所绘制像素的颜色等属性进行各种处理，包括各种测试、逻辑操作等。而这些处理的前提是需要获取显示存储器颜色缓冲区中对应像素点的颜色属性数据，并存储在像素颜色寄存器中，然后再与当前绘制的像素颜色一起进行操作。片段处理单元首先访问片上SRAM&L1Cache层中的像素Cache，在缺失的情况下再访问显示存储器层颜色缓冲区，最终将得到的颜色数据存入像素颜色寄存器中。

3D引擎模块中的像素深度寄存器：3D引擎的一个重要功能就是能够对所绘制像素的深度进行测试，从而剔除掉最终不会写入颜色帧缓冲区中的像素。而深度测试的前提是需要获取显示存储器深度缓冲区中对应像素点的深度数据，并存储在像素深度寄存器中，然后再与当前绘制的像素深度进行比较。片段处理单元首先访问片上SRAM&L1Cache层中的Z-buffer Cache，在缺失的情况下再访问显示存储器层深度缓冲区，最终将得到的深度数据存入像素深度寄存器中。

3D引擎统一染色阵列中的通用寄存器：统一染色阵列是有多个RISC处理内核以SIMT方式组成的顶点和像素染色处理阵列，每个顶点或像素染色任务在运行染色程序时均对应一组32个定点通用寄存器和一组32个浮点通用寄存器。当需要从显示存储器中获取指令和数据时，染色处理器内核首先使用LOAD指令访问片上SRAM&L1Cache层中的指令和数据Cache，在缺失的情况下再访问显示存储器层中的指令和数据区域，最终将得到的数据同时存入指令和数据Cache和定点/浮点通用寄存器组中。

纹理贴图阵列中的纹素寄存器：纹理贴图阵列根据统一染色阵列发送的纹理映射请求地址计算出最终对应的纹素地址，然后首先使用该纹素地址访问片上SRAM&L1Cache层中的纹理L1 Cache层，在缺失的情况下再访问L2Cache层的纹理L2 Cache，如果仍然发生缺失，则再访问显示存储器层中的纹理数据存取区域，最终将得到的纹素数据同时存入纹理L1 Cache和纹素寄存器中。

片上SRAM&L1Cache层。主要包括以下几个片上SRAM和L1Cache：

片段处理单元中的像素Cache：该模块实现缓存像素数据的功能。像素cache里面存放了经常访问的数据，当需要频繁读相同数据的时候能够提高读速度；如果是写像素数据，只有接收到绘图完成信号或者接收到大块像素数据传送信号时，像素cache才会把所有改写过的数据写回到帧缓冲区中，不需要每次读写数据时启动帧缓冲区，减少了显示存储器的访问次数，提升了显示存储器的有效带宽。

片段处理单元中的Z-buffer Cache：该模块实现缓存像素深度数据的功能。Z-buffer Cache模块中缓存了3D引擎模块在进行片段处理时需要访问的像素深度数据，当需要频繁读地址相同或者地址相连数据的时候能够提高读速度。Z-buffer Cache模块中还集成了深度数据预取模块，能够将片段处理模块需要访问的深度数据提前存入Z-bufferCache中。如果是写像素深度数据，只有接收到绘图完成信号或者发生Z-buffer Cache缺失时，Z-buffer Cache才会把所有改写过的深度数据写回到深度帧缓冲区中，不需要每次读写深度数据时都访问帧缓冲区，减少了显示存储器的访问次数，提升了显示存储器的有效带宽。

统一染色阵列中的Local SRAM/共享存储器/指令L1 Cache/常量L1 Cache：3D引擎中统一染色阵列为可编程结构，内部集成了至少一组RISC处理器内核，能够采用软硬件协同的方式实现顶点和像素的染色功能。为每一组RISC处理内核配置一个指令L1 Cache，用来缓存该组染色处理器内核需要的指令；在统一染色阵列进行顶点和像素染色处理的过程中，需要根据图形应用程序配置的图形状态参数常量进行染色处理，为每一组RISC处理内核配置一个常量L1 Cache，用来缓存该组染色处理器内核需要经常访问的图形状态参数常量；统一染色阵列在染色过程中，一组RISC处理内核可能需要共享某个计算的中间结果，一组RISC处理内核之间也可能需要交换数据，为一组RISC处理内核配置一个共享存储器来完成上述功能；统一染色阵列在开始执行顶点和像素的染色任务前，首先要将顶点和像素的属性数据搬移到统一染色阵列内部的存储器中的指定位置，然后用染色器程序对这些属性数据进行处理。染色处理完成后，同样还要将加工完成的顶点和像素属性数据放在内部存储器的指定位置中，按照顶点和像素任务进入统一染色阵列的顺序将处理完成的顶点和像素属性数据输出。由于每个RISC处理内核可以分时执行至少1个顶点或像素染色任务，因此为每个RISC处理内核配置至少1组Local SRAM作为统一染色阵列的内部存储器。

纹理贴图阵列中的纹理L1 Cache：该模块实现缓存纹素数据的功能。纹理L1Cache里面存放了在时间和空间上经常访问的纹素数据，当纹理贴图阵列需要频繁读写某个相近地址区域中的纹素数据的时候很大概率能够直接从纹理L1Cache得到满足，提高纹素的访问速度，不需要每次读写纹素数据时启动帧缓冲区，减少了显示存储器的访问次数，提升了显示存储器的有效带宽。如果纹理L1 Cache发生缺失，则接着访问片上SRAM&L2Cache层中的纹理L2 Cache。

片上SRAM&L2Cache层，主要包括以下几个片上SRAM和L2 Cache：

统一染色阵列片上常量SRAM：在统一染色阵列进行顶点和像素染色处理的过程中，需要根据图形应用程序配置的图形状态参数常量进行染色处理，为每一组RISC处理内核配置一个常量L1 Cache，用来缓存该组染色处理器内核需要经常访问的图形状态参数常量。如果该常量L1 Cache发生缺失，则接着访问片上常量SRAM。片上常量SRAM中存储着所有统一染色阵列需要访问的图形状态参数，而常量L1 Cache只缓冲在时间和空间上经常访问的小部分状态参数。

纹理贴图阵列中的纹理L2 Cache：该模块同样实现缓存纹素数据的功能。纹理L2Cache里面也缓冲了在时间和空间上经常访问的纹素数据，但其被纹理贴图阵列使用的频率不如纹理L1 Cache中的纹素数据高。当纹理贴图阵列需要频繁读写某个相近地址区域中的纹素数据时，且在纹理L1 Cache发生缺失时，很大概率能够直接从纹理L2 Cache得到满足，提高纹素的访问速度，不需要每次读写纹素数据时启动帧缓冲区，减少了显示存储器的访问次数，提升了显示存储器的有效带宽。如果纹理L2 Cache发生缺失，则接着访问显示存储器层中的纹理数据存储区。

显示存储器层，该层主要由以下子模块构成：

2路独立的访存仲裁与存储保护模块：其中一路负责图形绘制和图形功能执行过程中需要存取的各种图形数据和图像数据；另外一路负责完成数字视频分量输入模块、显示控制模块对帧缓存访问的管理。实现图形处理和显示控制对存储器访问的分离。

本发明的层次结构包含5中不同功能的存储层次结构，分别是：像素数据层次化存储结构、染色器阵列数据的层次化存储结构、纹理数据的层次化存储结构、主机接口数据的层次化存储结构、视频显示数据的层次化存储结构；

像素数据层次化存储结构由寄存器层、片上SRAM&L1Cache层和显示存储器层构成；寄存器层中的ROP单元数据处理寄存器与片上SRAM&L1Cache层的Z-buffer Cache和像素Cache分别相连，片上SRAM&L1Cache层的Z-buffer Cache和像素Cache均与显示存储器层直接相连；

染色器阵列数据层次化存储结构由寄存器层、片上SRAM&L1Cache层、L2Cache层和显示存储器层构成；寄存器层中染色器单元的定点/浮点寄存器分别与片上SRAM&L1Cache层染色器单元的LocalSRAM、共享存储器、指令L1 Cache、常量L1 Cache相连，片上SRAM&L1Cache层的指令L1 Cache与显示存储器层相连，片上SRAM&L1Cache层的常量L1 Cache与L2Cache层的常量SRAM相连；

纹理数据的层次化存储结构由寄存器层、片上SRAM&L1Cache层、L2Cache层和显示存储器层构成；寄存器层中纹理单元0和纹理单元1的纹素寄存器分别与片上SRAM&L1Cache层的纹理L1 Cache0和纹理L1 Cache1相连，片上SRAM&L1Cache层的纹理L1 Cache0和纹理L1 Cache1相连均与L2Cache层的纹理L2 Cache相连，L2Cache层的纹理L2 Cache与显示存储器层相连；

主机接口数据的层次化存储结构由寄存器层和显示存储器层构成；寄存器层中命令处理器寄存器、DMA控制器寄存器、DDR3调试通路寄存器、H.264寄存器与显示存储器层相连；

视频显示数据的层次化存储结构由寄存器层、片上SRAM&L1Cache层和显示存储器层构成；寄存器层中的显示控制模块处理寄存器与片上SRAM&L1Cache层的视频写行缓冲器和视频读行缓冲器相连，片上SRAM&L1Cache层的视频写行缓冲器和视频读行缓冲器与显示存储器层相连。

最后应说明的是，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解；其依然可以对前述各实施例记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种面向统一染色架构的GPU 3D引擎片上存储层次结构，其特征在于：该结构从上到下包括四层存储结构，依次为寄存器层、片上SRAM&L1Cache层、L2Cache层及显示存储器层；

所述寄存器层与片上SRAM&L1Cache层相连，所述片上SRAM&L1Cache层与L2Cache层或显示存储器层相连，所述L2Cache层与显示存储器层相连；

所述寄存器层包括片段处理单元中的像素属性寄存器、统一染色阵列中的定点/浮点寄存器组和纹理贴图阵列中的纹素寄存器；

所述片上SRAM&L1Cache层包括片段处理单元中的像素Cache和Z-buffer Cache、统一染色阵列中的Local SRAM/共享存储器/指令L1 Cache/常量L1 Cache、纹理贴图阵列中的纹理L1 Cache。

2.根据权利要求1所述的面向统一染色架构的GPU 3D引擎片上存储层次结构，其特征在于：所述L2Cache层包含统一染色阵列中的常量SRAM、纹理贴图阵列中的纹理L2 Cache。

3.根据权利要求2所述的面向统一染色架构的GPU 3D引擎片上存储层次结构，其特征在于：所述显示存储器层包括两个存储仲裁管理单元、第一存储器和第二存储器，所述存储管理单元包括两路独立的第一AXI访存仲裁管理单元和第二AXI访存仲裁管理单元、两路独立的第一存储控制器和第二存储控制器；

4.根据权利要求3所述的面向统一染色架构的GPU 3D引擎片上存储层次结构，其特征在于：所述层次结构包含5种不同功能的存储层次结构，分别是：像素数据层次化存储结构、染色器阵列数据的层次化存储结构、纹理数据的层次化存储结构、主机接口数据的层次化存储结构、视频显示数据的层次化存储结构；

所述染色器阵列数据层次化存储结构由寄存器层、片上SRAM&L1Cache层、L2Cache层和显示存储器层构成；寄存器层中染色器单元的定点/浮点寄存器分别与片上SRAM&L1Cache层染色器单元的LocalSRAM、共享存储器、指令L1Cache、常量L1Cache相连，片上SRAM&L1Cache层的指令L1Cache与显示存储器层相连，片上SRAM&L1Cache层的常量L1Cache与L2Cache层的常量SRAM相连；

所述纹理数据的层次化存储结构由寄存器层、片上SRAM&L1Cache层、L2Cache层和显示存储器层构成；寄存器层中纹理单元0和纹理单元1的纹素寄存器分别与片上SRAM&L1Cache层的纹理L1Cache0和纹理L1Cache1相连，片上SRAM&L1Cache层的纹理L1Cache0和纹理L1Cache1相连均与L2Cache层的纹理L2Cache相连，L2Cache层的纹理L2Cache与显示存储器层相连；