CN110097625B

CN110097625B - 片段着色器执行顶点着色器计算

Info

Publication number: CN110097625B
Application number: CN201910461555.9A
Authority: CN
Inventors: M.E.塞尔尼; D.辛普森; J.斯坎林
Original assignee: Sony Computer Entertainment Inc
Current assignee: Sony Interactive Entertainment Inc
Priority date: 2013-06-10
Filing date: 2014-06-06
Publication date: 2023-03-21
Anticipated expiration: 2034-06-06
Also published as: CN110097625A; US20190035050A1; WO2014200866A1; US20140362101A1; CN105556565A; JP2016524241A; EP3008700A1; US10096079B2; CN105556565B; US10733691B2; EP3008700B1; JP6230702B2; EP3008700A4

Abstract

图形处理可包括利用GPU来实现顶点着色器和像素着色器。可以将从顶点着色器输出的顶点索引写入到高速缓存。可以利用像素着色器访问写入到高速缓存的顶点索引并且可以利用像素着色器从存储器单元访问与所述顶点索引相关联的顶点参数值。需要强调的是，本摘要是遵照要求将会允许检索人或其他读者快速确定本技术公开的主题的摘要的规则而提供的。应理解摘要的提交不是用来解释或限制权利要求书的范围或含义。

Description

片段着色器执行顶点着色器计算

本申请是申请日为2014年6月6日，申请号为201480033281.9，发明名称“片段着色器执行顶点着色器计算”的发明专利申请的分案申请。

技术领域

本公开的各个方面涉及计算机图形学。具体地，本公开涉及顶点着色器和像素着色器在图形处理单元中的使用。

背景技术

图形处理通常涉及两个处理器、即中央处理单元(CPU)和图形处理单元(GPU)的协调。GPU是被设计来加速在帧缓冲区中创建旨在用于输出至显示器的图像的专用电子电路。GPU用于嵌入式系统、平板计算机、便携式游戏装置、移动电话、个人计算机、工作站以及游戏控制台中。GPU通常被设计来有效地操纵计算机图形学。GPU常常具有高度并行处理架构，这使得GPU对于以并行方式完成大型数据块处理的算法比通用CPU更有效。

CPU可向GPU发送实现特定图形处理任务的命令，例如渲染相对于图像中的前一帧已改变的特定纹理。CPU可利用图形应用程序接口(API)来协调这些绘制命令，以便发出对应于特定应用程序的虚拟环境的状态的图形渲染命令。

为了渲染特定程序的纹理，GPU可执行“图形流水线”中的一系列处理任务，以便将虚拟环境中的可视元素转化成可呈现到显示器上的图像。典型的图形流水线可包括：对虚拟空间中的虚拟对象执行某些渲染或着色操作，对所述场景中的虚拟对象执行转化和光栅化以产生呈适于输出到显示器的形式的像素数据，以及在将渲染过的图像输出在显示器上之前对像素(或片段)执行另外的渲染任务。

在虚拟空间中常常根据已知为原型的形状来描述图像的虚拟对象，所述形状和原型一起构成虚拟场景中的对象的形状。例如，可将三维虚拟世界中待渲染的对象减小到具有根据它们在三维空间中的坐标定义的顶点的一系列不同三角形原型，由此这些多边形构成对象的表面。每个多边形可具有相关联的索引，所述索引可由图形处理系统用来将给定的多边形与其他多边形区分开。同样，每个顶点可具有相关联的索引，所述索引可用来将给定的顶点与其他顶点区分开。图形流水线可对这些原型执行某些运算，以便产生虚拟场景的可视元素并且将这种数据转化成适于由显示器的像素再现的二维格式。如本文所用，术语图形原型信息(或简单地“原型信息”)用于指代表示图形原型的数据。这种数据包括但不限于顶点信息(例如，代表顶点位置或顶点标记的数据)和多边形信息，例如，将特定顶点与特定多边形相关联的多边形标记和信息。

GPU可通过实现通常被称为着色器的程序来执行图形流水线的渲染任务。典型的图形流水线可包括：顶点着色器，所述顶点着色器可以每个顶点为基础操纵原型的某些特性；以及像素着色器(也被称为“片段着色器”)，所述像素着色器在图形流水线中的顶点着色器的下游进行操作并且可在将像素数据传输到显示器之间以每个像素为基础操纵某些值。流水线还可包括在流水线中各个阶段处的其他着色器，如使用顶点着色器的输出来产生一组新的原型(或对应的原型信息)的几何着色器、以及可由GPU实现来执行某些其他通用计算任务的计算着色器(CS)。

在流水线中与处理图形相关的一个难题是，在数据被输入或输出至流水线中的各个着色器时可能出现某些瓶颈并且降低性能。此外，希望向运行可视元素的特定应用程序的开发人员提供对着色器如何利用各种视觉参数和底层数据的大量的控制，以便允许他们优化渲染过程。

本发明的各个方面正是在此背景下产生。

发明内容

根据本公开的方面，一种计算机图形处理方法可包括：将从顶点着色器输出的顶点索引写入到高速缓存；利用像素着色器访问写入到高速缓存的顶点索引；以及利用像素着色器从存储器单元访问与顶点索引相关联的原始顶点参数值，其中原始顶点参数值尚未被顶点着色器处理；以及利用像素着色器在每像素的基础上对原始顶点参数值执行顶点着色器计算，其中针对包含像素的原型的每个顶点对像素执行顶点着色器计算。

根据本公开的方面，一种图形处理系统可以包括：图形处理单元(GPU)；存储器单元；以及高速缓存；其中系统被配置来实现一种图形处理方法，该方法包括：利用GPU实现顶点着色器和像素着色器；将从顶点着色器输出的顶点索引写入到高速缓存；利用像素着色器访问写入到高速缓存的顶点索引；以及利用像素着色器从存储器单元访问与顶点索引相关联的原始顶点参数值，其中原始顶点参数值尚未被顶点着色器处理；以及利用像素着色器在每像素的基础上对原始顶点参数值执行顶点着色器计算，其中针对包含像素的原型的每个顶点对像素执行顶点着色器计算。

根据本公开的方面，一种具有包含在其中的计算机可读指令的非暂时性计算机可读介质，计算机可读指令被配置来在执行时实现一种图形处理方法，该图形处理方法包括：将从顶点着色器输出的顶点索引写入到高速缓存；利用像素着色器访问写入到高速缓存的顶点索引；以及利用像素着色器从存储器单元访问与顶点索引相关联的原始顶点参数值，其中原始顶点参数值尚未被顶点着色器处理；以及利用像素着色器在每像素的基础上对原始顶点参数值执行顶点着色器计算，其中针对包含像素的原型的每个顶点对像素执行顶点着色器计算。

根据本公开的各个方面，一种计算机图形处理方法可包括：将从顶点着色器输出的顶点索引写入到高速缓存；利用像素着色器访问写入到高速缓存的顶点索引；以及利用像素着色器从存储器单元访问与顶点索引相关联的顶点参数值。

在本公开的一些实现方式中，计算机图形处理方法可包括利用像素着色器对顶点参数值执行顶点着色器计算。

在一些实现方式中，计算机图形处理方法可包括利用像素着色器内插顶点参数值。

在一些实现方式中，访问顶点索引可包括：将顶点索引从高速缓存复制到GPU的本地存储器单元；以及利用像素着色器从本地存储器单元访问索引。

在一些实现方式中，顶点着色器计算可包括在三维虚拟空间中操纵原型的顶点的视觉效果。

在一些实现方式中，访问顶点参数值可包括访问三角形原型的所有三个顶点的参数值。

在一些实现方式中，方法还可包括在访问顶点参数值之后：利用像素着色器对顶点参数值执行顶点着色器计算；利用像素着色器内插参数值；利用像素着色器对内插的参数值执行像素着色器计算。

在一些实现方式中，顶点着色器输出被限制为顶点位置和顶点索引，并且像素着色器可以在访问顶点索引之后执行任何其余的顶点着色器计算。

在一些实现方式中，存储器单元是系统的主存储器。

在一些实现方式中，参数值可以存储在主存储器的顶点缓冲区中。

根据本公开的各个方面，一种图形处理系统可包括：图形处理单元(GPU)；存储器单元；以及高速缓存；并且系统可被配置来实现一种图形处理方法，该图形处理方法可包括：利用GPU实现顶点着色器和像素着色器；将从顶点着色器输出的顶点索引写入到高速缓存；利用像素着色器访问写入到高速缓存的顶点索引；以及利用像素着色器从存储器单元访问与顶点索引相关联的顶点参数值。

在一些实现方式中，存储器单元可以是系统的主存储器单元。

在一些实现方式中，GPU可包括多个计算单元和多个本地存储器单元，其中本地存储器单元中的每一个与计算单元中的相应一个相关联。

在一些实现方式中，访问顶点索引可包括：将顶点索引从高速缓存复制到本地存储器单元；以及利用像素着色器从本地存储器单元访问索引。

在一些实现方式中，高速缓存可以与GPU集成在一起。

根据本公开的各个方面，一种非暂时性计算机可读介质可具有包含在其中的计算机可读指令，计算机可读指令被配置来在执行时实现一种图形处理方法，该图形处理方法包括：将从顶点着色器输出的顶点索引写入到高速缓存；利用像素着色器访问写入到高速缓存的顶点索引；以及利用像素着色器从存储器单元访问与顶点索引相关联的顶点参数值。

附图说明

通过结合附图考虑以下详细描述，可容易地理解本公开的教示，在附图中：

图1A-1C是示出各种图形处理技术的三角形原型的示意图。

图1D-1E是传统图形处理技术的流程图。

图2A是与图1E的实现方式具有相似性的传统图形处理技术的示意图。

图2B是根据本公开的各个方面的图形处理技术的示意图。

图3是根据本公开的各个方面的图形处理技术的流程图。

图4是用于实现根据本公开的各个方面的图形处理技术的系统的示意图。

具体实施方式

虽然出于说明目的，以下详细描述包含许多具体细节，但是本领域的普通技术人员将会了解，以下细节的许多变化和更改在本发明的范围内。因此，以下描述的本发明的各个示例性实施方案是在不损害本发明的一般性也不对本发明施加任何限制的情况下陈述的。

引言

根据本公开的各个方面，顶点着色器输出可减少为仅输出位置和顶点索引，并且像素着色器可执行其余的顶点着色器计算以及通常的像素着色器计算，从而可导致对象的加速渲染。

根据本公开的各个方面，像素着色器可直接从系统存储器访问参数值以便对顶点的原始参数值执行顶点着色器计算。像素着色器随后可内插参数值并且在将渲染的像素从像素着色器输出到帧缓冲区之前执行像素着色器计算。可通过以下方式减少与参数值的吞吐量和复制相关联的瓶颈：从顶点着色器输出顶点索引和不完整的输出参数，并且通过像素着色器使用这些索引来标识存储器中的参数值。

图1A-1C示出图形处理技术的各个方面以及可以如何使用顶点参数的内插来处理图形并渲染图像中的虚拟对象。图形处理技术可利用重心内插过程，以便定义在待显示的虚拟对象的各个位置处的参数值。通过举例而非限制的方式，参数值可以是位于虚拟空间中的原型的每一个顶点处的位置、颜色、纹理坐标、照明等等，并且这些顶点参数的重心内插可用于确定原型内任意位置处的参数值。例如，当用于在显示器的像素上渲染虚拟平面时，任意数量的像素可位于原型内，并且可以使用顶点参数值的这种内插来确定原型内的像素位置处的对应参数值。

图1A中描绘使用重心坐标系统的内插过程的各个例示性方面。图1A描绘可用作用于利用GPU处理图形的原型的多边形(例如，三角形)102。应注意，在图形处理中通常使用三角形作为原型，因为它们是具有最小数量的顶点(三个)的二维形状，并且每个三角形保证是平面的。待渲染图像中的虚拟对象(如三维对象)的表面可由定向在虚拟空间中的大量三角形原型102组成。三角形102可包括各自分别具有特定参数值P0、P1、P2的顶点104a、104b、104c。

通过内插顶点参数值P0、P1、P2，可以使用三角形102的各角部处的参数之间的线性关系来定义所述形状中任意点处的参数值P_i,j。当具有虚拟对象的图像在显示器上的屏幕空间中被渲染时，坐标i,j可对应于像素(或像素中心)的位置。因此，可以使用这种内插过程来确定位于原型102中的像素中的任一个的参数值。在虚拟对象的任意给定三角形102中，可存在任何数量的位于所述三角形内的像素中心。例如，可存在零个、一个、十个或更多个位于原型内的像素。

为了内插位置i,j处的顶点参数，将顶点参数值中的一个从其他顶点的参数值中减去，并且将这些减去的值乘以对应于期望参数值位置的三角形102内的每一个重心坐标位置。这可以数学方式表达如下，其中将顶点参数P0从其他两个顶点参数P1、P2中减去，并且将这些减去的值乘以对应的坐标值i,j：

Pi,j＝P0+(P1-P0)i+(P2-P0)j

图1B描绘类似于图1A的三角形102的多个三角形102a-d，它们可用于为图形处理应用程序渲染虚拟对象。图1B和以下描述是简化的示意性描述，以便说明在实现图形处理技术时如何利用并存储顶点参数数据的各个方面。

三角形102a-d中的每一个具有三个顶点，所述顶点可各自具有对应的参数值。此外，三角形102a-d共用许多共同的顶点，并且因此，对于不同的三角形来说许多参数值是共同的。可为每个顶点分配一个标识索引，而不是多次存储参数值以使得它们与每一个三角形相关联。通过简化的实例，为图1B中所示的顶点各自分配标识索引0、1、3、9、10、4。这些索引和它们所关联的参数值可存储在通常所知的“顶点缓冲器”中。此外，三角形102a-d中的每一个可通过它们的对应顶点索引来标识，例如三角形102a可通过(0,1,3)来标识、三角形102b可由(1,3,9)来标识等，并且这种信息可存储在通常所知的“索引缓冲器”中。因此，共同的顶点参数值可通过在缓冲器中标识的相应索引而与每个不同的三角形102a-d相关联。

图1B还描绘重叠在原型102a-d上的一系列像素位置a-f。可以使用例如如以上参考图1A所讨论的参数值的内插基于每个顶点参数值和标识每个原型的索引来确定每个原型内的像素位置a-f中的每一个处的参数值。通过举例而非限制的方式，三角形102a-d可定向在三维虚拟环境中，并且像素位置a-f可对应于用于显示渲染过的虚拟环境的图像的二维屏幕的像素。

图1C描绘图1B的三角形102a和102b，以便示出可以如何将参数值分配给位于三角形内的像素a、b、c的各个方面。如图1C中所示，可为每个不同的三角形102a、102b唯一地分配顶点参数值P0、P1、P2，并且基于存储在索引缓冲器中的索引0、1、3、9来标识所述顶点参数值P0、P1、P2。可通过从顶点中访问对应的参数值并且将参数值P0从其余缓冲器顶点参数P1、P2中减去(例如，如以上参考图1A所述的)来执行内插。

作为内插每个原型的参数值的替代方案，可使用被称作“平面着色”的技术。通过平面着色，可为每个三角形定义“诱发顶点(provokingvertex)”，例如P0，并且与其余顶点的差例如P1-P0和P2-P0随后被简单地归零。利用诱发顶点的参数值从顶点着色器输出位于三角形内的任意像素。这可节省与内插计算相关联的显著开销；然而，这可能导致虚拟对象的小平面化外观，所述小平面化外观在许多应用中可能是不合乎期望的。

在图1D中，描绘了根据一种传统方法100a执行顶点参数的内插的各个例示性方面的流程图，通过所述方法100a可以在像素着色器接收顶点参数之前执行整个内插。图1D的方法100a利用如图1B和图1C中所示的三角形102a-d来示出如何与顶点着色器110和像素着色器112相协调地内插顶点参数以便确定像素a-f的参数值(应注意，a-f可更准确地被称作片段或预像素，因为可在将它们输出到帧缓冲器之前通过像素着色器来执行进一步的修改，但出于说明目的，本文将它们简单地称作像素)。

方法100a可包括利用顶点着色器110执行某些顶点着色计算114，其可包括根据从图形API接收到的协调渲染过的图形与应用程序的虚拟环境的绘制命令、以每个顶点为基础的虚拟对象的顶点参数的某些操作。如图1D中所示，顶点着色器110可为三角形102a-d中的每一个输出对应的顶点参数值P0、P1、P2。

在116处针对每个三角形内插这些顶点参数值P0、P1、P2，以便确定位于对应三角形102a-d内的像素位置a-f处的参数值P_a-P_f。在116处的内插包括：从其他两个顶点参数P1、P2中减去顶点参数P0；将这些减去的值乘以它们的对应重心坐标；以及加上相乘后的值以便内插如由(例如，如参考图1A所述的)坐标定义的像素位置处的参数。在图1D所描绘的技术中，内插116完全由与GPU相关联的参数内插硬件组件在像素着色器程序112接收参数值作为输入之前执行。像素着色器112可通过在118处对像素a-f中的每一个(即，以每个像素为基础)执行某些像素着色计算来操纵每个像素a-f，从而产生输出像素120，所述输出像素120随后可存储在帧缓冲器中并且可作为渲染图像输出在显示器上。

在图1E中，描绘了根据另一种传统方法100b执行顶点参数的内插的各个例示性方面的替代流程图。图1E中描绘的传统方法100b类似于图1D的传统方法100a，不同的是仅在参数到达像素着色器112之前执行内插116的减法部分122。在这项技术100b中，内插116的这个减法部分122是由与GPU相关联的参数内插硬件组件在像素着色器程序112接收减去的参数值作为输入并且执行内插116的其余部分之前执行的。因此，顶点参数的内插116的其余部分可减少到在124处绝对顶点参数P0、减去的参数值P10、相对于参数P0减去的P20以及相对于绝对顶点参数P0的所期望的参数P的坐标的简单相乘和相加操作，由此针对对应三角形102a-d中的每一个，P10＝P1-P0并且P20＝P1-P0。这依旧产生所期望的参数值P_a-P_f，随后可在118处利用像素着色器进一步操作所述参数值P_a-P_f以产生输出像素120。

图2A描绘利用被配置来根据传统方法处理图形的各种硬件和软件组件实现的方法200a的示意图。图2A中所描绘的方法200a类似于图1E中所描绘的方法100b。

顶点着色器210可执行各种顶点着色器计算214，其包括确定在屏幕空间中原型的顶点的位置230，每个原型的顶点上的各种其他渲染效果234(如操纵顶点的照明、阴影、颜色等等)。可将从顶点着色器计算214中产生的各种参数P0、P1、P2写入到参数高速缓存236以便暂时存储，并且系统的参数内插硬件组件222可通过在将相应组的参数从参数高速缓存236写入到GPU的每个计算单元的每个小型本地存储器单元237之前减去参数值来执行部分内插。每个本地存储器单元237可以是小型但快速的本地存储器单元，有时被称为与GPU的每个计算单元相关联的本地数据共享(LDS)，并且可存在并行地运行着色器程序的多个这种存储器单元和计算单元。

顶点着色器输出位置230可由产生相对于每个原型的像素的重心坐标i,j的硬件组件238使用，以使得它们可用于例如如本文所述的内插参数值。像素着色器212可从本地数据共享237中访问绝对参数值P0和相对参数值P10、P20，以便通过使用每个期望参数i,j的坐标来执行相乘和相加操作224来完成内插。像素着色器212随后可执行某些其他像素着色器计算218，以便在输出像素，例如输出到帧缓冲器之前进一步操纵它们。

上述技术200a的一个缺点是：可能出现与到像素着色器的参数的吞吐量相关联的某些瓶颈，这可降低渲染虚拟对象的速度。首先，已认识到的是，到参数高速缓存的参数写入吞吐量导致瓶颈。例如，每个参数可以是大的属性变量，例如像32位浮点数，并且顶点着色器可将这些属性变量作为一系列波阵面(例如，一次4个)写入到参数高速缓存236。此外，参数高速缓存的使用可进一步限制可存储的顶点着色器波阵面的数量，从而产生另外的瓶颈。随后将参数复制到本地数据共享237并且在由像素着色器访问之间将其暂时存储，并且受限的吞吐量和总本地数据共享使用量可由于限制像素着色器波阵面的数量而再次形成瓶颈。

上述技术200a的另一个缺点是：因为减去的参数值P10、P20是在到达像素着色器212之前计算的，所以像素着色器不能够直接访问原始参数值P1、P2，从而限制了可利用像素着色器执行的渲染效果的类型。

实现方式

图2B示出本公开的一个方面的实现方式。图2B描绘根据本公开的各个方面的利用被配置来处理图形的各种硬件和软件组件实现的技术200b的示意图。在图2B的实现方式中，与参数值的吞吐量相关联的瓶颈例如如上所述可通过为像素着色器提供对顶点参数值的直接访问权来解决。像素着色器随后可对传统上与顶点着色器相关联的这些原始顶点参数值执行许多计算，并且在执行通常的像素着色器计算之前执行顶点参数的内插。

如图2B中所示，顶点着色器210执行如214a处所指示的顶点着色器计算。在一些情况下，这些计算可被限制为确定顶点位置230和输出索引，以使得可从顶点着色器输出中省略其他参数值。代替将顶点着色器输出参数写入到参数高速缓存236，顶点着色器210可被配置来仅将标识每个原型(例如，三角形或其他多边形)的顶点索引I0、I1、I0写入到参数高速缓存236。随后，可将这些索引发送到本地数据共享237以便像素着色器可在本地访问它们。在能够访问这些索引I0、I1、I2的情况下，像素着色器212随后可直接从系统的主存储器、例如从顶点缓冲区来访问与所述索引相关联的原始参数值P0、P1、P2。在能够访问这些参数值的情况下，像素着色器212随后可执行其余的顶点着色器计算214b，所述顶点着色器计算214b可包括三角形的顶点上的其他视觉效果234。像素着色器随后可使用坐标i,j来执行由于其余的顶点着色器计算214b而导致的参数值的内插216，以便确定每个像素位置处的参数值。像素着色器212随后可对内插的值进一步执行像素着色器计算218以便产生输出像素，所述像素着色器计算218可包括像素上的其他视觉效果。

在这个说明性实现方式中，因为传输直到像素着色器的索引I0、I1、I2与用于参数值的属性变量相比是更少量的数据，例如索引实质上仅是一个数字，所以可以减少与参数值的吞吐量相关联的瓶颈。

然而，应注意的是，使像素着色器212以图2B中所描绘的方式执行顶点着色器计算214b和内插216可能增加像素着色器以及整体着色器上的计算负荷。例如，应注意的是，图像中存在的像素通常远远多于图像中存在的可见顶点。因为在所示的方法中，顶点着色器计算214b是由像素着色器212而不是由顶点着色器210执行，所以代替每个顶点执行一次所述顶点着色器计算214b(如顶点着色器将进行的那样)，每个像素执行三次所述顶点着色器计算214b。因此，以这种方式增加计算负荷可能与常规知识相反，常规知识规定增加计算负荷将降低性能并且是不合乎期望的。然而，因为与参数吞吐量相关联的瓶颈可以是比渲染速度更大的限制因素，所以尽管像素着色器可能必须执行更多的计算，但实际上可提高整体性能并且可加速对象的渲染。

还应注意的是，在例如如上所述的传统平面着色技术的情况下，像素着色器将不能够直接访问针对每个三角形的所有索引和所有顶点参数。至多，像素着色器将仅能够访问诱发顶点，从而限制能够执行的渲染和能够产生的视觉效果的类型，例如像，阻止像素着色器执行如图2B中所示的顶点着色器计算214b。

图3描绘根据本公开的各个方面的用于利用顶点着色器和像素着色器处理图形的方法300的流程图。方法300与图2B中所描绘的图形处理技术200b具有相似性。

所示的方法300包括利用顶点着色器310执行顶点着色器计算314a。许多通常的顶点着色器计算可省略，并且由顶点着色器310执行的计算314a替代地可由像素着色器312在每个像素的基础上执行。顶点着色器310的输出可被限制为针对每个原型302a-d的顶点输出位置和顶点索引。原型可以是三角形，所述三角形各自具有由索引I0、I1、I2标识的三个顶点并且可类似于图1B中描绘的三角形102a-d。

可将索引发送至像素着色器312，所述像素着色器312随后可使用索引I0、I1、I2来直接访问针对每个不同原型302a-d的顶点参数值P0、P1、P2中的每一个。像素着色器312可直接访问原始参数值，例如通过直接访问具有存储在与顶点索引相关联的顶点缓冲区中的参数值的系统存储器。像素着色器可以使用参数值来执行其余的顶点着色器计算314b，所述顶点着色器计算314b可包括渲染每个原型的每个顶点上的某些视觉效果。像素着色器312随后可在执行顶点着色器计算314b之后内插所得的参数值，以便在原型内的每个像素位置处提取参数P_a-P_f。像素着色器312随后可通过利用内插的参数值对像素执行像素着色器计算318而在像素上产生另外的视觉效果，并且可将渲染的像素320输出到例如系统存储器中的帧缓冲器。

本公开的各方面包括被配置来实现上述特征的图形处理系统。通过举例而非限制的方式，图4示出计算机系统400的框图，所述计算机系统400可用于实现根据本公开的各个方面的图形处理。根据本公开的各个方面，系统400可以是嵌入式系统、移动电话、个人计算机、平板计算机、便携式游戏装置、工作站、游戏控制台等。

系统400通常可包括中央处理器单元(CPU)470、图形处理器单元(GPU)471以及CPU和GPU两者可访问的主存储器472。CPU 470和GPU 471各自可包括一个或多个处理器核心，例如，单个核心、两个核心、四个核心、八个核心或更多。主存储器472可呈提供可寻址存储器的集成电路的形式，例如RAM、DRAM等。

通过举例而非限制的方式，CPU 470和GPU 471可使用数据总线476来访问主存储器472。在一些情况下，系统400包括两个或更多个不同的总线可为有用的。主存储器472可包含可由CPU 470和GPU 472访问的数据。主存储器可暂时存储数据缓冲区，所述数据缓冲区可包括顶点缓冲区463、索引缓冲区466以及帧缓冲区464。

CPU可被配置来执行CPU代码，所述CPU代码可包括利用渲染图形的应用程序460、驱动程序/编译器461以及用于向GPU实现的程序发出绘制命令的图形API 462。CPU代码还可实现物理模拟和其他功能。GPU可被配置来如以上关于本公开的示例性实现方式所讨论的那样操作。具体地，GPU可执行GPU代码，所述GPU代码可实现如以上所讨论的顶点着色器410和像素着色器412。着色器可与主存储器472中的数据进行交互并且像素着色器可在将渲染的像素输出到显示器之前，将其输出到帧缓冲区464中以便暂时存储。GPU可包括被配置来并行地执行图形处理任务的多个计算单元(CU)465。每个计算单元可包括其自己的专用本地存储器，如以上所述的本地数据共享(LDS)437。系统400还可包括用于暂时存储顶点索引数据468的高速缓存436，并且可以将数据从高速缓存436复制到每个LDS 437，所述LDS437随后可利用所述数据并行地实现着色器程序。参数高速缓存436可与GPU集成在一起，或可与GPU不同并且可由GPU例如通过总线476访问。GPU还可执行其他程序，例如像几何着色器和计算着色器。

系统400还可包括熟知的支持功能477，所述支持功能477可例如通过总线476与系统的其他组件通信。此类支持功能可包括但不限于输入/输出(I/O)元件479、电源(P/S)480和时钟(CLK)481。

设备400任选地可包括大容量存储装置484，如磁盘驱动器、CD-ROM驱动器、闪存存储器、磁带驱动器等，以便存储程序和/或数据。装置400还可包括显示器单元486和用户接口单元488以促进设备400与用户之间的交互。显示器单元486可呈平板显示器、阴极射线管(CRT)屏幕、触摸屏或可显示本文、数字、图形符号或图像的其他装置的形式。显示器486可显示根据本文所述的各种技术处理的渲染图像487。用户接口488可包括可以与图形用户界面(GUI)结合来使用的键盘、鼠标、操纵杆、光笔、游戏控制器或其它装置。系统400还可包括网络接口490以使得装置能够通过网络与其他装置通信。网络可以是例如局域网(LAN)、广域网(如因特网)、个人局域网(如蓝牙网络)或其他类型的网络。这些组件可以实施在硬件、软件或固件或这些组件中两个或更多个的一些组合中。

虽然以上为本发明的优选实施方案的完整描述，但是使用各种替代、修改和等效物是可能的。因此，本发明的范围不应参考以上描述确定，而是应替代地参考随附权利要求书以及其整个范围的等效物确定。本文所描述的任何特征(不论优选与否)可与本文所描述的任何其它特征组合(不论优选与否)。在随附权利要求书中，不定冠词“一个”或“一种”是指冠词后的一个或多个项的量，除非其中另外明确说明。随附权利要求书不应被理解为包括设备加功能限制，除非这种限制在给定权利要求中使用短语“用于…的装置”来明确陈述。

Claims

1.一种计算机图形处理方法，其包括：

将从顶点着色器输出的顶点索引写入到高速缓存；

利用像素着色器访问写入到所述高速缓存的所述顶点索引；以及

利用所述像素着色器从存储器单元访问与所述顶点索引相关联的原始顶点参数值，其中所述原始顶点参数值尚未被所述顶点着色器处理；以及

利用所述像素着色器在每像素的基础上对所述原始顶点参数值执行顶点着色器计算，其中针对包含像素的原型的每个顶点对所述像素执行所述顶点着色器计算。

2.如权利要求1所述的方法，其中所述顶点着色器计算包括在三维虚拟空间中操纵原型的顶点的视觉效果。

3.如权利要求1所述的方法，其还包括利用所述像素着色器内插所述原始顶点参数值。

4.如权利要求1所述的方法，其中所述访问所述顶点索引包括：将所述顶点索引从所述高速缓存复制到GPU的本地存储器单元；以及利用所述像素着色器从所述本地存储器单元访问所述索引。

5.如权利要求1所述的方法，其中访问所述原始顶点参数值包括访问三角形原型的所有三个顶点的参数值。

6.如权利要求1所述的方法，其还包括在所述访问所述原始顶点参数值之后：

利用所述像素着色器对所述原始顶点参数值执行顶点着色器计算；

利用所述像素着色器内插所述原始顶点参数值；

利用所述像素着色器对所述内插的参数值执行像素着色器计算。

7.如权利要求1所述的方法，其中所述顶点着色器输出被限制为顶点位置和所述顶点索引，并且其中所述像素着色器在所述访问所述顶点索引之后执行任何其余的顶点着色器计算。

8.如权利要求1所述的方法，其中所述原始顶点参数值被存储在主单元中的顶点缓冲区中。

9.一种图形处理系统，其包括：

图形处理单元(GPU)；

存储器单元；以及

高速缓存；

其中所述系统被配置来实现一种图形处理方法，所述方法包括：

利用GPU实现顶点着色器和像素着色器；

将从顶点着色器输出的顶点索引写入到所述高速缓存；

利用所述像素着色器访问写入到所述高速缓存的所述顶点索引；以及

利用所述像素着色器从所述存储器单元访问与所述顶点索引相关联的原始顶点参数值，其中所述原始顶点参数值尚未被所述顶点着色器处理；以及

10.根据权利要求9所述的系统，其中所述GPU包括多个计算单元和多个本地存储器单元，其中所述本地存储器单元中的每一个与所述计算单元中的相应一个相关联。

11.如权利要求10所述的系统，其中所述访问所述顶点索引包括：将所述顶点索引从所述高速缓存复制到所述本地存储器单元；以及利用所述像素着色器从所述本地存储器单元访问所述索引。

12.如权利要求9所述的系统，其中所述高速缓存与所述GPU集成在一起。

13.如权利要求9所述的系统，其中所述方法还包括利用像素着色器对所述原始顶点参数值执行顶点着色器计算。

14.如权利要求9所述的系统，其中所述方法还包括利用所述像素着色器内插所述原始顶点参数值。

15.如权利要求9所述的系统，其中所述系统是嵌入式系统、移动电话、个人计算机、平板计算机、便携式游戏装置、工作站或游戏控制台。

16.一种具有包含在其中的计算机可读指令的非暂时性计算机可读介质，所述计算机可读指令被配置来在执行时实现一种图形处理方法，所述图形处理方法包括：

将从顶点着色器输出的顶点索引写入到高速缓存；