CN106683162A

CN106683162A - 一种面向嵌入式GPU多着色器结构的后置顶点Cache设计方法

Info

Publication number: CN106683162A
Application number: CN201710035714.XA
Authority: CN
Inventors: 魏继增
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2017-01-18
Filing date: 2017-01-18
Publication date: 2017-05-17

Abstract

本发明公开了一种面向嵌入式GPU多着色器结构的后置顶点Cache设计方法，设计了一种缓存Tag与SRAM分离的后置顶点Cache结构，使得Cache的Tag和SRAM能够在不同的处理阶段按相同的替换机制分别对顶点索引和顶点处理结果的内容进行替换，从而实现在多着色器环境下对重复顶点数据处理结果的缓存机制。与现有技术相比，本发明的后置顶点Cache对最近处理和加载的顶点数据进行缓存判断，从而有效了重复处理顶点的数目，并在一定程度上减少了对片外顶点存储资源的访问频度，使得总体顶点数据带宽不断降低。

Description

一种面向嵌入式GPU多着色器结构的后置顶点Cache设计方法

技术领域

本发明涉及计算机体系结构、图形处理器设计、大规模集成电路设计等技术领域，特别是涉及一种面向嵌入式GPU多着色器结构的后置顶点Cache设计。

背景技术

随着集成电路技术的不断发展及集成度的提高，多统一着色器(简称多着色器)架构已成为嵌入式GPU的主流架构，其计算能力得到了显著增强。由于片上资源的限制，当前嵌入式GPU仍主要面向3D图形绘制，而巨大片外带宽压力，特别是顶点带宽已成为制约嵌入式GPU性能的主要瓶颈。为了能够缓解顶点带宽对嵌入式GPU性能的束缚，需要面向嵌入式GPU的多着色器结构对顶点Cache做进一步的优化。

多着色器(多核)结构是嵌入式GPU未来发展的重要趋势和主流架构。多着色器可以实现对嵌入式图形应用中顶点和像素计算任务的并行处理，充分发掘图形应用中的任务级并行性(Task Level Parallelism，TLP)。但顶点输入流的数据量往往较大，无法保存在嵌入式GPU片上的存储空间内，而是存储在SoC片外的系统存储器中，在需要进行绘制时才从片外存储器搬运到嵌入式GPU的片上存储资源中。特别是随着图形绘制规模的不断扩展，输入顶点数据的数据量也越来越大。频繁访问顶点数据而造成的较高总线存储带宽逐渐成为影响嵌入式GPU性能和功耗的重要问题。多着色器结构下，同一时刻可能存在多个着色器需要提交顶点处理结果的情况，同时并发的Cache替换会带来Cache一致性的问题，导致原有后置顶点Cache的SRAM结构不能适应多着色器顶点处理的需要。

顶点Cache是解决顶点数据访问带宽较大问题的重要方法，通过充分挖掘顶点数据访问的时空局部性，可以有效降低顶点数据的访问带宽。顶点Cache在微结构设计中分为两个重要组成部分，前置顶点Cache(Pre-Tnl vertex cache)和后置顶点Cache(Post-Tnlvertex cache)。其中前置顶点Cache通过在嵌入式GPU片上缓存已获取的片外顶点数据副本，有效降低了对片外顶点数据的访问频度。后置顶点Cache由韩国高级科学技术研究院的Kim等人于2007年首次提出，主要是对最近处理过的顶点数据计算结果进行缓存，从而减少了对顶点数据的重复处理，减少了对片外顶点数据的访问次数以有效提高顶点处理的性能。但原有的顶点Cache结构主要针对单顶点着色器进行设计，其结构上的某些特性无法满足多着色器环境下应用的需要。其中，由于多个着色器单元共享一个唯一的顶点拾取单元，因此，无论是单着色器结构还是多着色器结构通过系统总线访问片外顶点数据的数据传输通道通常是唯一的，所以多着色器结构下仍然可以沿用已有的前置顶点Cache结构。原有的后置顶点Cache结构中，顶点数据任务的拾取、处理、提交和图元装配是严格串行执行的，使得在当前任务对后置顶点Cache进行替换前，Cache的内容不会发生变化，确保从中读取顶点处理结果的正确性。而在多着色器结构下，顶点数据拾取、着色器处理、顶点结果提交和图元装配都是并行执行的，在运行过程中都会对Cache的内容产生影响，从而造成错误的缓存结果。因此如何重新设计后置顶点Cache微结构，使其能够高效、正确地缓存并行拾取、处理和提交的顶点结果数据将是缓解多核结构嵌入式GPU带宽压力，提升计算性能的关键。

为了在多核并行环境下利用后置顶点Cache对顶点处理结果进行缓存，需要解决如下几个问题：

(1)在多着色器环境下，如何实现各着色器单元与后置顶点Cache的互连，并确定在何时进行Cache内容的替换；

(2)在顶点拾取阶段，如何准确获知当前顶点任务组(Vertex Batch)经过着色器处理后传送到图元装配单元时，后置顶点Cache内部已缓存了哪些顶点数据处理结果；

(3)针对多着色器环境下顶点数据任务组具有并行处理、乱序提交的特点，如何设计相应的顶点任务提交策略，以保证后置顶点Cache可以正确完成索引部分和顶点数据部分的内容替换。

发明内容

针对多着色器结构下后置顶点Cache设计中存在的问题，本发明提出一种面向嵌入式GPU多着色器结构的后置顶点Cache设计方法，设计了一种缓存Tag与SRAM分离的后置顶点Cache结构，使得Cache的Tag和SRAM能够在不同的处理阶段按相同的替换机制分别对顶点索引和顶点处理结果的内容进行替换，从而实现在多着色器环境下对重复顶点数据处理结果的缓存机制。

本发明的一种面向嵌入式GPU多着色器结构的后置顶点Cache设计方法该方法包括以下步骤：

(a)、将后置顶点Cache的数据SRAM部分作为图元装配单元的数据缓冲区，允许后置顶点Cache对最近提交到图元装配单元的顶点结果进行缓存，并在顶点数据任务组完成图元装配后对SRAM内容以其组成中的slot的对象进行替换；

(b)、将后置顶点Cache的Tag索引部分以顶点拾取历史查找表与顶点拾取单元进行组合，保证在顶点数据任务组进行拾取时，按照索引值预先判断该输入顶点数据是否会在提交阶段被缓存在Cache中；与数据SRAM部分一样，索引Tag以其组成中的slot的对象进行替换；

(c)、最后在嵌入式GPU任务调度器中加入顶点任务提交控制逻辑，使得乱序处理的顶点数据任务组能够按照拾取顺序进行提交，从而确保分离的后置顶点Cache结构能够缓存正确的顶点数据。

与现有技术相比，本发明的后置顶点Cache对最近处理和加载的顶点数据进行缓存判断，从而有效了重复处理顶点的数目，并在一定程度上减少了对片外顶点存储资源的访问频度，使得总体顶点数据带宽不断降低。

附图说明

图1为本发明的后置顶点Cache数据SRAM部分的结构示意图；

图2为本发明的后置顶点Cache数据Tag部分的结构示意图；

图3为本发明的任务调度器中顶点数据任务按序提交控制逻辑；

图4为不同图元列表大小对Post-TnL后置顶点Cache失效率的影响对比图；

图5为不同容量的后置顶点Cache失效率对比图。

具体实施方式

下面结合附图对本发明技术方案作进一步详细描述：

一、后置顶点Cache的数据SRAM设计

在单着色器中，后置顶点Cache的数据SRAM作为顶点着色器输出缓冲区的一部分，被设计在着色器与图元装配单元之间，完成对最近处理完成的顶点结果数据的缓存，并在硬件结构上支持着色器在完成顶点处理时就完成对Cache的替换。为了解决这一问题，本发明将后置顶点Cache的SRAM数据部分与各个着色器单元解耦合，并将SRAM数据部分设计为图元装配单元的数据缓冲区；而各个着色器内部则具有独立的输出缓冲寄存器，暂存着色程序的处理结果，并在嵌入式GPU任务调度器的控制下，完成顶点处理结果的提交。

如图1所示，为后置顶点Cache数据SRAM部分结构。后置顶点Cache的数据SRAM部分由4个slot组成(Block0～Block3)。由于着色器可同时对4个顶点数据线程进行处理，Cache数据SRAM的每个slot中也包含4个存储单元(V0～V15)，以缓存着色器最近提交的顶点处理结果，这样就允许后置顶点Cache可以对16个最近提交到图元装配单元的顶点结果进行缓存。

当一个经过着色后的顶点数据任务组提交到图元装配单元后，便按照顶点数据任务组中的图元列表对顶点结果数据进行读取，从而完成三角形图元的组装。顶点数据处理结果可从当前顶点数据任务组的顶点数据列表或后置顶点Cache的数据SRAM中获取。对这两个数据缓冲区进行访问的地址在顶点数据任务组进行拾取时，已在图元列表中进行了设置。在完成了所有三角形图元的装配后，将利用当前顶点数据任务组中的顶点数据列表对后置顶点Cache的数据SRAM进行更新，替换一个完整的Cache slot。由于3D图形处理通常具有流式特点，因此替换的策略将采用FIFO方式进行。

二、后置顶点Cache的索引Tag设计

多着色器结构中，顶点拾取单元需要在着色器进行处理的同时，并行地对后续顶点处理任务进行加载。这就增加了在顶点拾取阶段准确预测顶点数据任务提交时后置顶点Cache中缓存顶点数据索引情况的难度，并可能导致Cache缓存错误的顶点处理结果。因此，本发明将后置顶点Cache中的索引Tag部分以顶点拾取查找表的形式作为顶点拾取单元的一部分，从而对已完成拾取的顶点数据任务组中的顶点索引值进行准确记录，以便在后续顶点拾取阶段通过索引比较来避免对相同顶点数据的重复处理。

如图2所示，为后置顶点Cache索引Tag部分结构。与数据SRAM部分的配置一样，Post-TnL顶点Cache的索引存储部分也被划分为4个slot，每个slot中包含4个索引项(idx0～idx15)，与顶点数据任务组结构中的顶点数据列表的大小相对应。通过记录最近拾取的16个顶点索引值，使得顶点拾取单元获取了顶点拾取历史，有效辅助对当前输入顶点索引进行后置顶点Cache命中的判断。另外，将当前顶点数据任务组中的顶点数据列表也作为本地索引Tag，避免重复顶点数据被加载到同一个顶点数据任务组中。

当顶点拾取单元产生相应的顶点索引请求后，首先将该顶点索引值发送到后置顶点Cache索引Tag部分进行命中检测。若索引指向的Tag部分命中，则说明该顶点已经包含在最近完成拾取的某个顶点数据任务组中，无需对该索引对应的顶点数据进行处理，可直接将其加入图元列表中；否则需要进一步判断索引指向的该顶点数据是否已经包含在当前正在进行拾取的顶点任务组中。如果该顶点已加入到当前顶点数据列表中，则仍然将其直接添加到图元列表中；否则，需要将该顶点索引发送到前置顶点Cache，从Cache或片外存储空间中读取顶点数据并将其加入当前顶点任务组的顶点数据列表中。另外，为了在图元装配阶段根据命中索引地址对后置顶点Cache的数据SRAM进行访问，本发明将顶点数据任务组中的图元信息列表进行了改进，使图元列表的每一个单元存放Cache部分命中的存储单元地址；同样当确定该顶点索引已被加入当前顶点数据任务组时，也需要将其在列表中的地址加入图元信息列表中。地址部分使用5-Bit进行描述，低4-Bit地址可以保证可以访问到后置顶点Cache的16个存储单元；对顶点数据任务组内部的顶点访问占用地址位的低2-Bit。最后，使用最高比特位对两类不同的地址空间进行区分，确保获取正确的顶点结果数据。

与数据SRAM部分一样，索引Tag也需要进行slot的替换。在当前顶点数据任务组完成顶点拾取和组装时，需要将顶点任务组中的顶点索引列表更新到后置顶点Cache索引Tag的某一个slot中，使得索引Tag能够对最近拾取的顶点数据索引进行记录。替换的策略也采用先入先出FIFO的替换策略。

三、顶点数据任务按序提交逻辑

为了实现完整的后置顶点Cache功能，必须保证在不同着色器单元中进行乱序处理的顶点数据任务组能够按序提交到图元装配单元，从而确保索引Tag部分和数据SRAM部分可以按照相同的顶点数据任务组顺序分别对各自内容进行缓存和记录。顶点任务的发射和提交都是由嵌入式GPU任务调度器完成的。调度器和嵌入式GPU内的各个着色器单元相连接，从而掌握了各着色器当前的任务状态信息，为控制顶点数据任务组的按序提交提供了可能。

为了便于对不同顶点数据任务组进行区分，本发明在顶点任务组内部加入一个16-Bit的id值，用于记录当前顶点任务组的顺序编号。并在各个着色器单元内部设定一个硬件寄存器batch_id_r，该寄存器的值会在某一顶点任务组发射到着色器单元时，按照该任务组的id值编号进行更新。为了使嵌入式GPU任务调度器充分了解各着色器单元对顶点任务的执行顺序，将各个着色器中的batch_id_r寄存器进行输出，将其连接到任务调度单元。

如图3所示，在每个执行周期之后各个着色器单元都对自身的运行状态进行更新，并输出到任务调度器中。任务调度器根据所有着色器的状态，构建一个着色器状态表(Shader Status Table，SST)，表项个数与着色器单元的数量相同。SST中主要包括以下类型的状态信息：着色器运行标志(R)、着色器处理类型(T)，着色器运行状态(S)以及顶点数据任务组编号值batch_id_r。在任务调度器中同样设置一个任务提交编号寄存器next_batch_r，用于跟踪当前需要提交的顶点数据任务组编号值。该寄存器的值需要在每一次完成任务提交后顺序加1，从而实现对顶点顺序任务提交顺序的控制。根据各个着色器的运行状态，筛选出满足以下条件的着色器单元作为顶点数据任务组进行提交。着色器单元筛选逻辑电路的工作描述如下：

a)该着色器处于运行状态，即R位为1，且着色器处理类型标志(T)为顶点处理类型；

b)着色器已完成顶点数据的处理，且正在等待顶点处理结果进行提交；

c)着色器的顶点数据任务组编号batch_id_r与当前调度器内的任务提交编号寄存器next_batch_r的值相等。

经过筛选硬件电路的控制逻辑运算，该逻辑运算需要同时满足如下条件：该着色器处于运行状态，且着色器处理类型标志为顶点处理类型；着色器已完成顶点数据里，等待提交；着色器内顶点数据任务组编号和调度器中任务提交编号寄存器中的值相等，就能够获得当前可以进行提交的着色器编号值。调度器便可以立即设置该着色器的运行状态为数据传输状态，触发其将处理完成的顶点数据任务组传递到顶点处理结果FIFO缓冲区中，等待后续图元装配单元进行读取。基于上述方法，就可以实现对乱序执行的顶点数据任务组进行按顺序提交，满足了后置顶点Cache工作的需要。

如表1所示，在仅有前置顶点Cache结构时，对4组不同的嵌入式3D图形描述文件顶点带宽进行测试的结果。结果表明，使用前置顶点Cache结构，可以在绘制过程中降低约31.4％的总线数据带宽需求。

表1、利用前置顶点Cache后顶点数据带宽

如表2所示，加入后置顶点Cache后，不同图元列表大小和Cache容量下，顶点数据带宽的测试结果。

表2、后置顶点Cache大小对顶点数据带宽的影响

可以看出，与单纯使用Pre-TnL顶点Cache相比，结合后置顶点Cache后，顶点数据带宽都得到了进一步的降低。当图元列表大小为4时，随着后置顶点Cache容量增大，4个常见嵌入式3D图形绘制场景的平均带宽节省为33.5％～38.3％。当当图元列表大小为8时，随着后置顶点Cache容量增大，4个常见嵌入式3D图形绘制场景的平均带宽节省为34.6％～40.0％。由此可见，后置顶点Cache对最近处理和加载的顶点数据进行缓存判断，从而有效了重复处理顶点的数目，并在一定程度上减少了对片外顶点存储资源的访问频度，使得总体顶点数据带宽不断降低。

最佳实施方式

由于图元信息列表的大小直接影响顶点任务组中顶点数据列表的大小，必须充分分析其对后置顶点Cache命中率及顶点数据访问总体带宽的影响。

如图4所示，对不同图元列表大小情况下后置顶点Cache失效率的情况进行了分析。与顶点任务组数目及顶点处理规模的变化趋势一致。图元列表可以容纳更多的已缓存顶点数据，减少了对后置顶点Cache的数据替换，因此当图元列表大小不断增长时，Cache的命中率也会不断提高。以8项的图元列表为例，后置顶点Cache的平均失效率仅为29.1％，与具有2个表项的图元列表相比，Cache失效率降低了近25.0％。

如表3所示，对不同图元列表大小对顶点数据总体带宽的影响进行了分析。

表3、不同图元列表下节省的顶点数据带宽

当图元列表大小增长时，总体顶点数据带宽不断降低。当顶点数据列表具有8个表项时，平均顶点数据访问带宽可降低34.6％。通过上述分析，我们选择将顶点数据任务组中的图元列表大小设置为8，从而在最大程度上在顶点任务组的规模、顶点数据计算规模、顶点Cache命中率和顶点数据总体带宽等几方面取得较大的平衡，并有效避免较高硬件开销。

接下来，重点说明不同后置顶点Cache大小对命中率和顶点数据带宽的影响。由于各个着色器单元都采用4路线程并行处理的方式，着色器的输出缓冲区最多可容纳4个顶点处理结果。因此后置顶点Cache的entry数也应该尽量设计为4的倍数。基于这样的考虑，分别讨论后置顶点Cache的存储单元访问条目(entry)分别为16、32和64时，后置顶点Cache命中率和顶点带宽的变化情况。

如图5所示，分别表示对图元列表大小为4和8时，不同后置顶点Cache大小情况下失效率情况的变化趋势。可以看出，随着存储容量的增加，后置顶点Cache的命中率也会不断提高，但提升的幅度并不明显。以具有8个表项的图元列表为例，当Cache的容量从16个entry变化到64时，后置顶点Cache的平均失效率仅从29.1％降低到26.5％。同样的，如图5所示，随着后置顶点Cache容量的增长，顶点数据平均总体带宽也将在一定程度上得到了进一步降低，但提升幅度仍然不明显。例如在具有8个图元列表项和64个entry的后置顶点Cache条件下，针对4个嵌入式3D图形描述文件，顶点数据的总体带宽平均可降低近40.0％。另外考虑到后置顶点Cache的容量需要扩大4倍，带来了较大的硬件开销；另一方面，较大的Post-TnL顶点Cache容量会进一步增加缓存最近已处理的顶点数目，这就会影响图元列表大小的选择，并可能造成顶点数据任务组中无法包含足够的未处理顶点数目。综合考虑，增大Post-TnL顶点Cache的容量对Cache缺失率和顶点数据带宽优化等方面的优化并不具有较大的优势。

Claims

1.一种面向嵌入式GPU多着色器结构的后置顶点Cache设计方法，其特征在于，该方法包括以下步骤：

2.如权利要求1所述的一种面向嵌入式GPU多着色器结构的后置顶点Cache设计方法，其特征在于，所述步骤(b)、(c)中的替换，均采用FIFO替换策略。

3.如权利要求1所述的一种面向嵌入式GPU多着色器结构的后置顶点Cache设计方法，其特征在于，步骤(c)中的所述顶点任务提交控制逻辑具体包括以下处理：

嵌入式GPU任务调度器根据所有着色器的状态，构建着色器状态表，至少包括以下类型的状态信息：着色器运行标志R、着色器处理类型T，着色器运行状态S以及顶点数据任务组编号值batch_id_r；在嵌入式GPU任务调度器中同样设置一个任务提交编号寄存器next_batch_r；该寄存器的值在每一次完成任务提交后顺序加1，从而实现对顶点顺序任务提交顺序的控制；根据各个着色器的运行状态，筛选出满足以下条件的着色器单元作为顶点数据任务组进行提交：

条件(1)、该着色器处于运行状态，即R位为1，且着色器处理类型标志(T)为顶点处理类型；

条件(2)、着色器已完成顶点数据的处理，且正在等待顶点处理结果进行提交；

条件(3)、着色器的顶点数据任务组编号batch_id_r与当前调度器内的任务提交编号寄存器next_batch_r的值相等；

经过筛选硬件电路的控制逻辑运算,该逻辑运算需要同时满足如下条件：该着色器处于运行状态，且着色器处理类型标志为顶点处理类型；着色器已完成顶点数据里，等待提交；着色器内顶点数据任务组编号和调度器中任务提交编号寄存器中的值相等，获得当前可进行提交的着色器编号值；嵌入式GPU任务调度器将着色器的运行状态设置为数据传输状态，触发着色器将处理完成的顶点数据任务组传递到顶点处理结果FIFO缓冲区中，等待后续图元装配单元进行读取。