CN104050706B

CN104050706B - 用于低功率图形渲染的像素着色器旁路

Info

Publication number: CN104050706B
Application number: CN201310752382.9A
Authority: CN
Inventors: 埃里克·B·卢姆; 贾斯廷·科布; 鲁伊·M·巴斯托斯; 克里斯蒂安·鲁埃
Original assignee: Nvidia Corp
Current assignee: Nvidia Corp
Priority date: 2013-03-12
Filing date: 2013-12-31
Publication date: 2017-07-07
Anticipated expiration: 2033-12-31
Also published as: CN104050706A; TW201448564A; US20140267318A1; DE102013020613A1; TWI559729B; US9286647B2

Abstract

用于低功率图形渲染的像素着色器绕过。公开了用于在图形处理管线内绘制图形对象的计算机实现的方法。方法包括确定用于第一基元的旁路模式是非旁路模式。方法进一步包括对第一基元进行光栅化以生成光栅化结果的第一集合。方法进一步包括经由像素着色器单元生成用于光栅化结果的第一集合的颜色的第一集合。方法进一步包括对第二基元进行光栅化以生成光栅化结果的第二集合。方法进一步包括生成用于光栅化结果的第二集合的颜色的第二集合，无需像素着色器单元对光栅化结果的第二集合实施任何处理操作。方法进一步包括将像素颜色的第一集合和像素颜色的第二集合传送到光栅操作（ROP）单元用于进一步处理。

Description

用于低功率图形渲染的像素着色器旁路

技术领域

本发明的实施例总地涉及三维图形处理管线，并且更具体地，涉及用于低功率图形渲染的像素着色器旁路（bypass）。

背景技术

应用有时可能发出命令以绘制在经由图形处理管线正被渲染的三维场景内的二维对象。例如，应用可能请求图形处理管线渲染恒定颜色二维或纹理二维的多边形，以显示用户接口元素或显示三维渲染场景内的简单图形元素。存在图形处理管线能显示这类二维对象的数种方式。

在一种方法中，应用发送命令到图形处理管线中以绘制具有具体期望特性的三维场景内的多边形。随后使用图形处理管线的标准设施来生成和显示所期望的二维对象。这类方法的一个缺点是绘制简单的二维对象通常不需要图形处理管线的某些设施来进行。因此，使图形处理管线生成二维对象浪费处理能力。

在另一种方法中，可以使用二维位块传送器（blitter）来直接将二维对象绘制到图形处理管线的渲染目标，并且随后将二维对象和与渲染目标相关联的剩余数据一起显示。这类方法的一个缺点是二维位块传送器通常绕过（bypass）大部分或所有的图形处理管线。因此，经由二维位块传送器所绘制的二维对象常常比经由图形处理管线所生成的二维对象质量低。使用二维位块传送器的另一个缺点是二维位块传送器和图形处理管线之间的协同操作是困难的，其可导致图形处理管线被闲置和清空（flush）以操作二维位块传送器，从而降低性能。

如前述所示，本领域所需要的是使用低功率并且无需要求清空和闲置图形处理管线的显示二维对象的方法。

发明内容

公开了用于在图形处理管线内绘制图形对象的计算机实现的方法。方法包括确定用于第一基元的旁路模式是非旁路模式。方法进一步包括对第一基元进行光栅化以生成光栅化结果的第一集合。方法进一步包括经由像素着色器单元生成用于光栅化结果的第一集合的颜色的第一集合。方法进一步包括对第二基元进行光栅化以生成光栅化结果的第二集合。方法进一步包括生成用于光栅化结果的第二集合的颜色的第二集合，无需像素着色器单元对光栅化结果的第二集合实施任何处理操作。方法进一步包括将像素颜色的第一集合和像素颜色的第二集合传送到光栅操作（ROP）单元用于进一步处理。

附图说明

因此，可以详细地理解本发明的上述特征，并且可以参考实施例得到对如上面所简要概括的本发明更具体的描述，其中一些实施例在附图中示出。然而，应当注意的是，附图仅示出了本发明的典型实施例，因此不应被认为是对其范围的限制，本发明可以具有其他等效的实施例。

图1是示出了配置为实现本发明的一个或多个方面的计算机系统的框图；

图2是根据本发明的一个实施例的、用于图1的计算机系统的并行处理子系统的框图；

图3A是根据本发明的一个实施例的、图2的PPU之一内的分区单元的框图；

图3B是根据本发明的一个实施例的、图2的通用处理集群（GPC）内的流多处理器（SM）的一部分的框图；

图4是根据本发明的一个实施例的、图2的并行处理单元中的一个或多个可经配置以实现的图形处理管线的概念图；

图5A示出了根据本发明的一个实施例的、配置为实现非旁路模式的图形处理管线；

图5B示出了根据本发明的一个实施例的、配置为实现纹理旁路模式的图形处理管线；

图5C示出了根据本发明的一个实施例的、配置为实现固定颜色旁路模式的图形处理管线；

图5D示出了根据本发明的一个实施例的、配置为实现渐变颜色旁路模式的图形处理管线；

图6描绘了能由根据本发明的一个或多个实施例所配置的图形处理管线所渲染的示范性场景；以及

图7是根据本发明的一个实施例的、用于在配置为实现旁路模式的图形处理管线中生成片段数据的方法步骤的流程图。

具体实施方式

在下面的描述中，将阐述大量的具体细节以提供对本发明更透彻的理解。然而，本领域的技术人员应该清楚，本发明可以在没有一个或多个这些具体细节的情况下得以实施。在其他实例中，未描述公知特征以避免对本发明造成混淆。

系统概述

图1为示出了配置为实现本发明的一个或多个方面的计算机系统100的框图。计算机系统100包括经由可以包括存储器桥105的互连路径通信的中央处理单元（CPU）102和系统存储器104。存储器桥105可以是例如北桥芯片，经由总线或其他通信路径106（例如超传输（HyperTransport）链路）连接到输入/输出（I/O）桥107。I/O桥107，其可以是例如南桥芯片，从一个或多个用户输入设备108（例如键盘、鼠标）接收用户输入并且经由通信路径106和存储器桥105将该输入转发到CPU102。并行处理子系统112经由总线或第二通信路径113（例如外围部件互连（PCI）Express、加速图形端口或超传输链路）耦连到存储器桥105；在一个实施例中，并行处理子系统112是将像素传递到显示设备110的图形子系统，所述显示设备110可以是任何常规的阴极射线管、液晶显示器、发光二极管显示器等等。系统盘114也连接到I/O桥107并可配置为存储内容和应用和数据用于由CPU102和并行处理子系统112使用。系统盘114提供用于应用和数据的非易失性存储并可包括固定或可移动硬盘驱动器、闪速存储器设备以及压缩光盘只读存储器（CD-ROM）、数字通用光盘ROM（DVD-ROM）、蓝光、高清晰度DVD（HD-DVD）或其他磁、光、或固态存储设备。

交换器116提供I/O桥107与诸如网络适配器118以及各种插卡120和121的其他部件之间的连接。其他部件（未明确示出），包括通用串行总线（USB）或其他端口连接、压缩光盘（CD）驱动器、数字通用光盘（DVD）驱动器、胶片录制设备及类似部件，也可以连接到I/O桥107。图1所示的各种通信路径包括具体命名的通信路径106和113可以使用任何适合的协议实现，诸如PCI-Express、AGP（加速图形端口）、超传输或者任何其他总线或点到点通信协议，并且如本领域已知的，不同设备间的连接可使用不同协议。

在一个实施例中，并行处理子系统112包含经优化用于图形和视频处理的电路，包括例如视频输出电路，并且构成图形处理单元（GPU）。在另一个实施例中，并行处理子系统112包含经优化用于通用处理的电路，同时保留底层（underlying）的计算架构，本文将更详细地进行描述。在又一个实施例中，可以将并行处理子系统112与一个或多个其他系统元件集成在单个子系统中，诸如结合存储器桥105、CPU102以及I/O桥107，以形成片上系统（SoC）。

应该理解，本文所示系统是示例性的，并且变化和修改都是可能的。连接拓扑，包括桥的数目和布置、CPU102的数目以及并行处理子系统112的数目，可根据需要修改。例如，在一些实施例中，系统存储器104直接连接到CPU102而不是通过桥，并且其他设备经由存储器桥105和CPU102与系统存储器104通信。在其他替代性拓扑中，并行处理子系统112连接到I/O桥107或直接连接到CPU102，而不是连接到存储器桥105。而在其他实施例中，I/O桥107和存储器桥105可能被集成到单个芯片上而不是作为一个或多个分立设备存在。大型实施例可以包括两个或更多个CPU102以及两个或更多个并行处理子系统112。本文所示的特定部件是可选的；例如，任何数目的插卡或外围设备都可能得到支持。在一些实施例中，交换器116被去掉，网络适配器118和插卡120、121直接连接到I/O桥107。

图2示出了根据本发明的一个实施例的并行处理子系统112。如所示的，并行处理子系统112包括一个或多个并行处理单元（PPU）202，每个并行处理单元202都耦连到本地并行处理（PP）存储器204。通常，并行处理子系统包括U个PPU，其中U≥1。（本文中，类似对象的多个实例需要时以标识对象的参考数字和标识实例的括号中的数字来表示。）PPU202和并行处理存储器204可使用一个或多个集成电路设备来实现，诸如可编程处理器、专用集成电路（ASIC）或存储器设备，或者以任何其他技术可行的方式来实现。

再参考图1以及图2，在一些实施例中，并行处理子系统112中的一些或所有PPU202是具有渲染管线的图形处理器，其可以配置为实施与下述相关的各种操作：经由存储器桥105和第二通信路径113从CPU102和/或系统存储器104所供应的图形数据生成像素数据，与本地并行处理存储器204（可被用作图形存储器，包括例如常规帧缓冲区（buffer））交互以存储和更新像素数据，传递像素数据到显示设备110等等。在一些实施例中，并行处理子系统112可包括一个或多个作为图形处理器而操作的PPU202以及一个或多个用于通用计算的其他PPU202。这些PPU可以是同样的或不同的，并且每个PPU可具有专用并行处理存储器设备或不具有专用并行处理存储器设备。并行处理子系统112中的一个或多个PPU202可输出数据到显示设备110，或者并行处理子系统112中的每个PPU202可输出数据到一个或多个显示设备110。

在操作中，CPU102是计算机系统100的主处理器，控制和协调其他系统部件的操作。具体地，CPU102发出控制PPU202的操作的命令。在一些实施例中，CPU102写入用于每个PPU202的命令流到数据结构中（在图1或图2中未明确示出），该数据结构可位于系统存储器104、并行处理存储器204、或CPU102和PPU202都可访问的其他存储位置中。将指向每个数据结构的指针写到入栈缓冲区（pushbuffer）以发起对数据结构中的命令流的处理。PPU202从一个或多个入栈缓冲区读取命令流，然后相对于CPU102的操作异步地执行命令。可以经由设备驱动程序103由应用程序为每个入栈缓冲区指定执行优先级以控制对不同入栈缓冲区的调度。

现在返回参考图2和图1，每个PPU202包括经由连接到存储器桥105（或者，在一个替代性实施例中，直接连接到CPU102）的通信路径113与计算机系统100的其余部分通信的I/O（输入/输出）单元205。PPU202到计算机系统100的其余部分的连接也可以变化。在一些实施例中，并行处理子系统112可实现为可插入到计算机系统100的扩展槽中的插卡。在其他实施例中，PPU202可以和诸如存储器桥105或I/O桥107的总线桥集成在单个芯片上。而在其他实施例中，PPU202的一些或所有元件可以和CPU102集成在单个芯片上。

在一个实施例中，通信路径113是PCI Express链路，如本领域所知的，其中专用通道被分配到每个PPU202。也可以使用其他通信路径。I/O单元205生成用于在通信路径113上传送的包（或其他信号），并且还从通信路径113接收所有传入的包（或其他信号），将传入的包引导到PPU202的适当部件。例如，可将与处理任务相关的命令引导到主机接口206，而将与存储器操作相关的命令（例如，对并行处理存储器204的读取或写入）引导到存储器交叉开关单元210。主机接口206读取每个入栈缓冲区，并且将存储在入栈缓冲区中的命令流输出到前端212。

有利地，每个PPU202都实现高度并行处理架构。如详细示出的，PPU202（0）包括处理集群阵列230，该阵列230包括C个通用处理集群（GPC）208，其中C≥1。每个GPC208能够并发执行大量的（例如，几百或几千）线程，其中每个线程是程序的实例（instance）。在各种应用中，可分配不同的GPC208用于处理不同类型的程序或用于实施不同类型的计算。GPC208的分配可以取决于因每种类型的程序或计算所产生的工作量而变化。

GPC208从任务/工作单元207内的工作分布单元接收所要执行的处理任务。工作分布单元接收指向编码为任务元数据（TMD）并存储在存储器中的处理任务的指针。指向TMD的指针包括在存储为入栈缓冲区并由前端单元212从主机接口206接收的命令流中。可以编码为TMD的处理任务包括所要处理的数据的索引，以及定义数据将被如何处理（例如，什么程序将被执行）的状态参数和命令。任务/工作单元207从前端212接收任务并确保在每一个TMD所指定的处理发起前，将GPC208配置为有效状态。可以为每个TMD指定用来调度处理任务的执行的优先级。还可从处理集群阵列230接收处理任务。可选地，TMD可包括控制将TMD添加到处理任务列表（或指向处理任务的指针的列表）的头部还是尾部的参数，从而提供除优先级以外的另一级别的控制。

存储器接口214包括D个分区单元215，每个分区单元215直接耦连到并行处理存储器204的一部分，其中D≥1。如所示的，分区单元215的数目一般等于动态随机存取存储器（DRAM）220的数目。在其他实施例中，分区单元215的数目也可以不等于存储器设备的数目。本领域的普通技术人员应该理解DRAM220可以用其他合适的存储设备来替代并且可以是一般常规的设计。因此省略了详细描述。诸如帧缓冲区或纹理映射图的渲染目标可以跨DRAM220加以存储，这允许分区单元215并行写入每个渲染目标的各部分以有效地使用并行处理存储器204的可用带宽。

任何一个GPC208都可以处理要被写到并行处理存储器204内的任何DRAM220的数据。交叉开关单元210配置为路由每个GPC208的输出到任何分区单元215的输入或到另一个GPC208用于进一步处理。GPC208通过交叉开关单元210与存储器接口214通信，以对各种外部存储器设备进行读取或写入。在一个实施例中，交叉开关单元210具有到存储器接口214的连接以和I/O单元205通信，以及到本地并行处理存储器204的连接，从而使得在不同GPC208内的处理内核能够与系统存储器104或对于PPU202而言非本地的其他存储器通信。在图2所示的实施例中，交叉开关单元210直接与I/O单元205连接。交叉开关单元210可使用虚拟信道来分开GPC208与分区单元215之间的业务流。

另外，GPC208可被编程以执行与种类繁多的应用相关的处理任务，包括但不限于，线性和非线性数据变换、视频和/或音频数据过滤、建模操作（例如，应用物理定律以确定对象的位置、速率和其他属性）、图像渲染操作（例如，曲面细分（tessellation）着色器、顶点着色器、几何着色器、和/或像素着色器程序）等等。PPU202可将数据从系统存储器104和/或本地并行处理存储器204转移到内部（片上）存储器中，处理该数据，并且将结果数据写回到系统存储器104和/或本地并行处理存储器204，其中这样的数据可以由其他系统部件访问，所述其他系统部件包括CPU102或另一个并行处理子系统112。

PPU202可配备有任何容量（amount）的本地并行处理存储器204，包括没有本地存储器，并且可以以任何组合方式使用本地存储器和系统存储器。例如，在统一存储器架构（UMA）实施例中，PPU202可以是图形处理器。在这样的实施例中，将不提供或几乎不提供专用的图形（并行处理）存储器，并且PPU202会以排他或几乎排他的方式使用系统存储器。在UMA实施例中，PPU202可集成到桥式芯片中或处理器芯片中，或作为具有高速链路（例如，PCI Express）的分立芯片提供，所述高速链路经由桥式芯片或其他通信手段将PPU202连接到系统存储器。

如上所示，在并行处理子系统112中可以包括任何数目的PPU202。例如，可在单个插卡上提供多个PPU202、或可将多个插卡连接到通信路径113、或可将一个或多个PPU202集成到桥式芯片中。在多PPU系统中的PPU202可以彼此同样或不同。例如，不同的PPU202可能具有不同数目的处理内核、不同容量的本地并行处理存储器等等。在存在多个PPU202的情况下，可并行操作那些PPU从而以高于单个PPU202所可能达到的吞吐量来处理数据。包含一个或多个PPU202的系统可以以各种配置和形式因素来实现，包括台式电脑、笔记本电脑或手持式个人计算机、服务器、工作站、游戏控制台、嵌入式系统等等。

图3A为根据本发明的一个实施例的、图2的PPU202之一内的分区单元215的框图。如所示的，分区单元215包括L2高速缓存350、帧缓冲区（FB）DRAM接口355以及光栅操作单元（ROP）360。L2高速缓存350是配置为实施从交叉开关单元210和ROP360所接收的加载和存储操作的读/写高速缓存。读未命中（miss）和紧急写回请求由L2高速缓存350输出至FB DRAM接口355用于处理。脏（dirty）更新也被发送到FB355用于伺机处理。

在图形应用中，ROP360是实施诸如模板、z测试、混合等等的光栅操作、并输出像素数据作为经处理的图形数据用于存储在图形存储器中的处理单元。在本发明的一些实施例中，ROP360包括在每个GPC208内而不是分区单元215内，并且通过交叉开关单元210传送像素读和写请求而不是像素片段数据。

经处理的图形数据可显示在显示设备110上或被路由用于由GPU或并行处理子系统112内的处理实体之一进行进一步处理。每个分区单元215包括ROP360以分布光栅操作的处理。在一些实施例中，ROP360可配置为压缩写入到存储器的z或颜色数据以及解压缩从存储器读取的z或颜色数据。

图3B为根据本发明的一个实施例的、在图2的通用处理集群（GPC）208内的流多处理器（SM）310的一部分的框图。每个GPC208可配置为并行执行大量线程，其中术语“线程”是指在特定输入数据集上执行的特定程序的实例。在一些实施例中，单指令、多数据（SIMD）指令发出技术用于在不提供多个独立指令单元的情况下支持大量线程的并行执行。在其他实施例中，单指令、多线程（SIMT）技术用于使用配置为向GPC208中的每一个内的处理引擎集发出指令的公共指令单元来支持大量一般来说同步的线程的并行执行。不同于所有处理引擎通常都执行同样指令的SIMD执行机制，SIMT执行通过给定线程程序允许不同线程更容易跟随分散执行路径。本领域普通技术人员应该理解SIMD处理机制代表SIMT处理机制的功能子集。

经由将处理任务分布到一个或多个流多处理器（SM）310的管线管理器（未示出）来有利地控制GPC208的操作。其中每个SM310配置为处理一个或多个线程组。每个SM310包括指令L1高速缓存370，其配置为经由GPC208内的L1.5高速缓存（未示出）从存储器接收指令和常量。线程束调度器和指令单元312从指令L1高速缓存370接收指令和常量并根据该指令和常量控制本地寄存器堆304和SM310功能单元。SM310功能单元包括N个exec（执行或处理）单元302和P个加载-存储单元（LSU）303。如本领域已知的，SM功能单元可被管线化，这允许在前一个指令完成之前发出新指令。可提供功能执行单元的任何组合。在一个实施例中，功能单元支持各种各样的操作，包括整数和浮点运算（例如加法和乘法）、比较操作、布尔操作（AND、OR、XOR）、移位和各种代数函数的计算（例如平面插值、三角函数、指数函数和对数函数等等）；以及相同功能单元硬件可均衡地用来实施不同的操作。

如本文之前所定义的，传送到特定GPC208的一系列指令构成线程，并且跨SM310内的并行处理引擎（未示出）的某一数目的并发执行线程的集合在本文中称为“线程束（warp）”或“线程组”。如本文所使用的，“线程组”是指对不同输入数据并发执行相同程序的一组线程，所述组的一个线程被指派到SM310内的不同处理引擎。线程组可以包括比SM310内的处理引擎数目少的线程，在这种情况下一些处理引擎将在该线程组正在被处理的周期期间处于闲置状态。线程组还可以包括比SM310内的处理引擎数目多的线程，在这种情况下处理将在连续的时钟周期内发生。因为每个SM310可以并发支持多达G个线程组，结果是在包括M个流多处理器310的GPC208中的、在任何给定时间在GPC208中可以执行多达G*M个线程组的系统。

此外，多个相关线程组可以在SM310内同时活动（在执行的不同阶段）。该线程组集合在本文中称为“协作线程阵列”（“CTA”）或“线程阵列”。特定CTA的大小等于m*k，其中k是线程组中并发执行线程的数目并且通常是SM310内的并行处理引擎数目的整数倍，以及m是SM310内同时活动的线程组的数目。CTA的大小一般由编程者以及可用于CTA的硬件资源诸如存储器或寄存器的容量来确定。

在本发明的实施例中，使用计算系统的PPU202或其他处理器来使用线程阵列执行通用计算是可取的。为线程阵列中的每个线程指派在线程的执行期间对于线程可访问的唯一的线程标识符（“线程ID”）。可被定义为一维或多维数值的线程ID控制线程处理行为的各方面。例如，线程ID可用于确定线程将要处理输入数据集的哪部分和/或确定线程将要产生或写输出数据集的哪部分。

每线程指令序列可包括定义线程阵列的代表性线程和一个或多个其他线程之间的协作行为的至少一个指令。例如，每线程指令序列可能包括在序列中的特定点处挂起用于代表性线程的操作执行直到诸如其他线程的一个或多个到达该特定点的时间为止的指令、用于代表性线程将数据存储在其他线程的一个或多个有权访问的共享存储器中的指令、用于代表性线程原子地读取和更新存储在其他线程的一个或多个基于它们的线程ID有权访问的共享存储器中的数据的指令等等。CTA程序还可以包括计算数据将从其读取的共享存储器中的地址的指令，该地址是线程ID的函数。通过定义合适的函数并提供同步技术，可以以可预测的方式由CTA的一个线程将数据写入共享存储器中的给定位置并由同一个CTA的不同线程从该位置读取数据。因此，数据在线程之间共享的任何期望模式可以得到支持，以及CTA中的任何线程可以与同一个CTA中的任何其他线程共享数据。如果存在数据在CTA的线程之间的共享，则其范围由CTA程序确定；因此，应该理解的是，在使用CTA的特定应用中，CTA的线程可能会或可能不会真正互相共享数据，这取决于CTA程序，术语“CTA”和“线程阵列”在本文作为同义词使用。

SM310提供具有不同级别的可访问性的片上（内部）数据存储。特殊寄存器（未示出）对于LSU303可读但不可写并且用于存储定义每个线程的“位置”的参数。在一个实施例中，特殊寄存器包括每线程（或SM310内的每exec单元302）一个的存储线程ID的寄存器；每个线程ID寄存器仅由各自的exec单元302可访问。特殊寄存器还可以包括附加寄存器，其对于执行由任务元数据（TMD）（未示出）所代表的同一个处理任务的所有线程（或由所有LSU303）可读，其存储CTA标识符、CTA维数、CTA所属网格（grid）的维数（或队列位置,如果TMD编码队列任务而不是网格任务的话）、以及CTA被指派到的TMD的标识符。

如果TMD是网格TMD，则TMD的执行会启动和执行固定数目的CTA以处理存储在队列525中的固定量的数据。将CTA的数目指定为网格宽度、高度和深度的乘积。可以将固定量的数据存储在TMD中或TMD可以存储指向将由CTA所处理的数据的指针。TMD还存储由CTA所执行的程序的开始地址。

如果TMD是队列TMD，那么使用TMD的队列特点，这意味着将要被处理的数据量不一定是固定的。队列条目存储用于由指派到TMD的CTA所处理的数据。队列条目还可以代表在线程执行期间由另一个TMD所生成的子任务，从而提供嵌套并行性。通常线程或包括线程的CTA的执行被挂起直到子任务的执行完成。可以将队列存储在TMD中或与TMD分开存储，在该情况下TMD存储指向该队列的队列指针。有利地，当代表子任务的TMD正在执行时可以将由子任务所生成的数据写到队列。队列可以实现为循环队列以使得数据的总量不限于队列的大小。

属于网格的CTA具有指示网格内各自CTA的位置的隐含网格宽度、高度和深度参数。在初始化期间响应于经由前端212从设备驱动程序103所接收的命令来写特殊寄存器并且在处理任务的执行期间特殊寄存器不改变。前端212调度每个处理任务用于执行。每个CTA与具体TMD相关联用于一个或多个任务的并发执行。此外，单个GPC208可以并发执行多个任务。

参数存储器（未示出）存储可由同一个CTA内的任何线程（或任何LSU303）读取但不可由其写入的运行时间参数（常数）。在一个实施例中，设备驱动程序103在引导SM310开始执行使用参数的任务之前将这些参数提供给参数存储器。任何CTA内的任何线程（或SM310内的任何exec单元302）可以通过存储器接口214访问全局存储器。可以将全局存储器的各部分存储在L1高速缓存320中。

每个线程将本地寄存器堆304用作暂存空间；每个寄存器被分配以专用于一个线程，并且在本地寄存器堆304的任何部分中的数据仅对于寄存器被分配到的线程可访问。本地寄存器堆304可以实现为物理上或逻辑上分为P个通道的寄存器堆，每个通道具有一定数目的条目（其中每个条目可以存储例如32位字）。将一个通道指派到N个exec单元302和P个下载-存储单元LSU303的每一个，并且利用用于执行同一个程序的不同线程的数据来填充不同通道中的相应条目以帮助SIMD执行。可以将通道的不同部分分配到G个并发线程组中的不同线程组，以使得本地寄存器堆304中的给定条目仅对于特定线程可访问。在一个实施例中，保留本地寄存器堆304内的某些条目用于存储线程标识符，实现特殊寄存器之一。此外，一致L1高速缓存375存储用于N个exec单元302和P个下载-存储单元LSU303的每个通道的一致值或常数值。

共享存储器306对于单个CTA内的线程可访问；换言之，共享存储器306中的任何位置对于同一个CTA内的任何线程（或对于SM310内的任何处理引擎）可访问。共享存储器306可以实现为具有允许任何处理引擎对共享存储器中的任何位置读取或写入的互连的共享寄存器堆或共享片上高速缓存存储器。在其他实施例中，共享状态空间可能映射到片外存储器的每CTA区上并被高速缓存在L1高速缓存320中。参数存储器可以实现为在实现共享存储器306的同一个共享寄存器堆或共享高速缓存存储器内的指定部分，或者实现为LSU303对其具有只读访问权限的分开的共享寄存器堆或片上高速缓存存储器。在一个实施例中，实现参数存储器的区域还用于存储CTA ID和任务ID，以及CTA和网格维数或队列位置，实现特殊寄存器的各部分。SM310中的每个LSU303耦连到统一地址映射单元352，统一地址映射单元352将为在统一存储器空间中所指定的加载和存储指令所提供的地址转换为每个各异存储器空间中的地址。因此，指令可以用于通过指定统一存储器空间中的地址来访问本地、共享或全局存储器空间中的任何一个。

每个SM310中的L1高速缓存320可以用于高速缓存私有的每线程本地数据还有每应用全局数据。在一些实施例中，可以将每CTA共享数据高速缓存在L1高速缓存320中。LSU303经由存储器和高速缓存互连380耦连到共享存储器306和L1高速缓存320。

应该理解本文所述的内核架构是示例性的并且变化和修改都是可能的。任何数目的处理单元例如SM310可以包括在GPC208内。进一步地，如图2所示，PPU202可以包括任何数目的GPC208，所述GPC208有利地在功能上彼此相似以使得执行行为不取决于哪个GPC208接收特定处理任务。进一步地，每个GPC208有利地使用分开且各异的处理单元、L1高速缓存来独立于其他GPC208操作以为一个或多个应用程序执行任务。

本领域普通技术人员应该理解图1-3B所描述的架构决不限制本发明的范围并且在不脱离本发明范围的情况下本文所教导的技术可以在任何经适当配置的处理单元上实现，所述处理单元包括但不限于一个或多个CPU、一个或多个多核CPU、一个或多个PPU202、一个或多个GPC208、一个或多个图形或专用处理单元等等。

图形管线架构

图4是根据本发明的一个实施例的、图2的PPU202中的一个或多个可经配置以实现的图形处理管线400的概念图。例如，SM310中的一个可配置为实施顶点处理单元415、曲面细分初始化处理单元420、曲面细分处理单元440、几何处理单元445、片段处理单元460中的一个或多个的功能。还可由GPC208内的其他处理引擎和相应的分区单元215实施基元分布器（distributor）410、任务生成单元425、任务分布器430、拓扑生成单元435、视口缩放、剔除（cull）和裁剪（clip）单元450、光栅化器455和光栅操作单元465的功能。可替代地，可使用用于一个或多个功能的专用处理单元来实现图形处理管线400。

图形处理管线400还包括本地存储器，其在图形处理管线400之中被共享。例如，图形处理管线可以使用SM310内的共享存储器306来作为这类本地存储器。如下文所进一步描述的，图形处理管线400中的各处理单元按照需要对共享存储器306内的级间缓冲区（未示出）进行分配或解除分配（deallocate）。处理单元从一个或多个级间缓冲区读取输入数据、处理输入数据以产生输出数据并将结果输出数据存储在一个或多个级间缓冲区中。后续处理单元可读取该结果输出数据作为用于后续处理单元的输入数据。后续处理单元处理数据并将输出数据存储在一个或多个级间缓冲区中，以此类推。共享存储器306和图像处理管线的各其他级（stage）经由存储器接口214与外部存储器连接。

基元分布器410处理单元收集用于高阶表面、基元等的顶点数据，并将包括顶点属性的顶点数据输出到顶点处理单元415。在一些实施例中，基元分布器410包括顶点属性获取单元（未示出），其检索顶点属性并将顶点属性存储在共享存储器306中。顶点处理单元415是可编程执行单元，其配置为执行顶点着色器程序，按顶点着色器程序所指定的来亮化和变换顶点数据。例如，顶点处理单元415可被编程以将顶点数据从基于对象的坐标表示（对象空间）变换到可替代地基于诸如世界空间或规格化设备坐标（NDC）空间的坐标系。顶点处理单元415可读取由基元分布器410所存储在共享存储器306、L1高速缓存320、并行处理存储器204、或系统存储器104中的数据用于在处理顶点数据中使用。顶点处理单元415将经处理的顶点存储在共享存储器306内的级间缓冲区中。

曲面细分初始化处理单元420是可编程执行单元，其配置为执行曲面细分初始化着色器程序。曲面细分初始化处理单元420处理由顶点处理单元415所产生的顶点并生成被称为补丁（patch）的图形基元。曲面细分初始化处理单元420随后将补丁数据和补丁属性存储在共享存储器306内的级间缓冲区中。在一些实施例中，曲面细分初始化着色器程序可被称为外壳着色器或曲面细分控制着色器。

任务生成单元425从共享存储器306的级间缓冲区检索用于顶点和补丁的数据和属性。任务生成单元425生成用于处理顶点和补丁的任务用于由图形处理管线400中的后面的级进行处理。

任务分布器430重新分布由任务生成单元425所产生的任务。由顶点着色器程序和曲面细分初始化程序的各实例所产生的任务可能在一个图形处理管线400和另一个之间显著地变化。任务分布器430重新分布这些任务，使得每个图形处理管线400在后面的管线级期间近似地具有相同的工作量。

拓扑生成单元435检索由任务分布器430所分布的任务。拓扑生成单元435将顶点编入索引，包括与补丁相关联的顶点，并且计算与顶点相对应的纹理坐标。拓扑生成单元435随后将索引顶点存储在共享存储器306内的级间缓冲区中。

曲面细分处理单元440是可编程执行单元，其配置为执行曲面细分着色器程序。曲面细分处理单元440从共享存储器306内的级间缓冲区读取输入数据并对共享存储器306内的级间缓冲区写入输出数据。级间缓冲区中的输出数据被传递到下一个着色器级几何处理单元455作为输入数据。在一些实施例中，曲面细分着色器程序可被称为域着色器或曲面细分评估着色器。

几何处理单元445是可编程执行单元，其配置为执行几何着色器程序，从而变换图形基元。顶点被分组以构建图形基元用于处理，此处图形基元包括三角形、线段、点等等。例如，几何处理单元445可被编程以将图形基元细分成一个或多个新图形基元并计算用来将新图形基元光栅化的参数，诸如平面方程系数。

在一些实施例中，几何处理单元445还可在几何流中添加或删除元素。几何处理单元445将指定新图形基元的参数和顶点输出到视口缩放、剔除（cull）和裁剪（clip）单元450。几何处理单元445可读取存储在共享存储器306、并行处理存储器204或系统存储器104中的数据用于在处理几何数据中使用。视口缩放、剔除和裁剪单元450实施裁剪、剔除和视口缩放，并将所处理的图形基元输出到光栅化器455。

光栅化器455扫描转换新图形基元并将片段和覆盖数据输出到片段处理单元460。此外，光栅化器455可配置为实施z剔除（z-culling）和其他基于z的优化。

片段处理单元460是可编程的执行单元，其配置为执行片段着色器程序，按片段着色器程序所指定的来变换从光栅化器455所接收的片段。例如，片段处理单元460可被编程以实施诸如透视校正、纹理映射、着色、混合等操作，以产生输出到光栅操作单元465的经着色的片段。片段处理单元460可读取存储在共享存储器306、并行处理存储器204或系统存储器104中的数据用于在处理片段数据中使用。可以像素、样本、或其他粒度对片段着色，这取决于所编程的采样率。

光栅操作单元465是处理单元，其实施诸如模板（stencil）、z测试、混合等的光栅操作，并输出像素数据作为经处理的图形数据用于存储在图形存储器中。经处理的图形数据可存储在图形存储器例如并行处理存储器204和/或系统存储器104中，用于在显示设备110上显示或用于由CPU102或并行处理子系统112进一步处理。在本发明的一些实施例中，光栅操作单元465配置为压缩写入到存储器的z或颜色数据以及解压缩从存储器中读取的z或颜色数据。在各实施例中，ROP465可位于存储器接口214中、GPC208中、GPC之外的处理集群阵列230中、或PPU202内的分开的单元（未示出）中。

用于低功率图形渲染的像素着色器旁路

图5A-5D示出了配置为实现四个不同的像素着色器旁路模式的图形处理管线400。像素着色器535是片段处理单元460内执行像素着色程序的执行单元。像素着色器535包括用于执行像素着色程序的可编程执行核心，并且片段处理单元460包括附加的固定功能的硬件。

为了实现四个不同的像素着色器旁路模式，图形处理管线400切换到图5A-5D中所描绘的四个配置中的一个。在图5A所描绘的旁路模式中，像素着色器535执行像素程序以处理片段并且因此不被绕过，而在图5B-5D中所描绘的配置中，像素着色器535不执行像素程序并且因此被绕过。当像素着色器535不对一个基元执行像素着色器程序时，像素着色器535是闲置的，或者像素着色器535可对另一个基元执行像素着色器程序，从而增加性能，和/或降低功耗。

图形处理管线400在逐基元（primitive-by-primitive）的基础上在图5A-5D中所描述的配置之间切换。为了进入到配置中的一个，图形处理管线400接收绘制基元的指令和相对应的像素着色器旁路模式的指示。随后，图形处理管线400进入到图5A-5D中所描述的配置中的一个，其与图形处理管线400接收到的像素着色器旁路模式相对应。下文参照图5A到5D更详细描述这些配置。

图5A示出了根据本发明的一个实施例的、配置为实现非旁路模式的图形处理管线400。如所示的，配置为实现非旁路模式的图形处理管线400包括光栅化器455、定点纹理坐标生成器单元530、片段处理单元460、像素着色器单元535、ROP单元465、纹理坐标生成器单元（STRI单元）540和纹理单元545、以及数据路径502、506、508、510、512、514和516。

当图形处理管线400配置为实现非旁路模式时，光栅化器455光栅化几何数据以生成用于基元的片段和覆盖数据。因此数据流502被光栅化器455所处理并流到片段处理单元460中的像素着色器535。可编程像素着色器535运行像素着色器程序以产生经着色的片段。当运行像素着色器程序时，如果基元具有所应用的纹理，则像素着色器535将像素坐标请求506发送到纹理坐标生成器单元540（STRI单元），并从STRI单元接收纹理坐标508。像素着色器535随后以数据流510将纹理坐标发送到纹理单元545，并接收与所发送的纹理坐标510相对应的颜色值512。像素着色器将颜色值512应用到由像素着色器535所处理的像素、实施对像素着色器525的功能相对应的其他任务、并将结果片段514发送到ROP单元465用于进一步处理，诸如颜色混合。ROP输出将被写入到帧缓冲区或用于附加的处理的值516。

图5B示出了根据本发明的一个实施例的、配置为实现纹理旁路模式的图形处理管线400。如所示的，配置为实现纹理旁路模式的图形处理管线400包括光栅化器455、定点纹理坐标生成器单元530、片段处理单元460、像素着色器单元535、ROP单元465、纹理坐标生成器单元（STRI单元）540和纹理单元545、以及数据路径518、520、522和524。

当图形处理管线400配置为实现纹理旁路模式时，光栅化器455接收关于用于在目标表面上光栅化的“平坦”二维对象以及将被应用到二维对象的纹理的信息。“平坦”二维对象与用于“平坦”二维对象的渲染目标平行。“平坦”二维对象可以是任何二维形状，诸如四边形、三角形、其他多边形或其他二维形状。在各实施例中，“平坦”二维形状可用于显示纹理图形用户接口（GUI）元素、显示用于诸如休闲游戏的应用的简单的图形或用于其他目的。

当图形处理管线400配置为实现纹理旁路模式时，为了渲染“平坦”二维对象，光栅化器455计算用于“平坦”二维对象的覆盖数据，并以数据流520输出片段和覆盖数据。因为二维对象与渲染目标平行，所以用于生成纹理坐标的计算相对简单。定点纹理坐标生成器530因此基于二维对象的形状以及被选择的纹理而生成定点纹理坐标。在一个实施例中，定点纹理坐标生成器530经由定点运算生成定点纹理坐标。

一旦定点纹理坐标生成器530计算出纹理坐标，则沿着路径520提供来自光栅化器455的数据，包括覆盖数据和纹理坐标。纹理坐标被提供给纹理单元545，其提供与纹理坐标相对应的颜色作为响应。包括由纹理单元545所提供的颜色的数据522被提供给ROP单元465，并且来自ROP单元的输出524被发射出用于进一步处理和用于最后写入到渲染目标。

数据路径520和522经过片段处理单元460，指示片段处理单元460内的某个固定功能硬件，诸如颜色转换器等等，来处理数据路径520和522中的数据。然而像素着色器535不处理数据路径520和522中的数据。在某些实施例中，数据路径520和522不经过片段处理单元460。

当图形处理管线400配置为实现纹理旁路模式时，像素着色器535不对正被渲染的基元执行像素着色器程序。进一步地，纹理坐标生成器单元（STRI）540不计算纹理坐标。因此像素着色器535不参与渲染基元。在某些实施例中，像素着色器535是闲置的，这降低功耗。在其他实施例中，像素着色器535实施用于其他基元的计算。在一些实施例中，因为平坦纹理基元与渲染目标平行，所以光栅化器455的上游单元不处理用于在纹理旁路模式中所处理的基元的数据。例如，几何处理单元445可以不处理用于在纹理旁路模式中所处理的基元的数据。

图5C示出了根据本发明的一个实施例的、配置为实现固定颜色旁路模式的图形处理管线400。如所示的，配置为实现固定颜色旁路模式的图形处理管线400包括光栅化器455、定点纹理坐标生成器单元530、片段处理单元460、像素着色器单元535、ROP单元465、纹理坐标生成器单元（STRI单元）540和纹理单元545、以及数据路径526和528。

当图形处理管线400配置为实现固定颜色旁路模式时，光栅化器455接收关于将被光栅化到目标表面的固定颜色二维对象以及将被应用到固定颜色二维对象的固定颜色的信息。固定颜色二维对象在位置和定向方面不受限制，并且因此不必要与渲染目标平行。在各实施例中，固定颜色二维对象可用于显示固定颜色图形用户接口（GUI）元素、显示用于诸如休闲游戏的应用的简单的图形或用于其他目的。

光栅化器455对基元进行光栅化，包括生成用于像素和样本的片段和覆盖数据。光栅化器455随后将固定颜色指派到由光栅化器455所输出的片段。ROP单元465处理片段并发射出数据流528。不应用纹理，并且因此定点纹理坐标生成器530、纹理坐标生成器单元（STRI）540、纹理单元545以及像素着色器535被绕过。三维场景中的二维对象从而采用单一固定颜色而被渲染。通过绕过像素着色器535，图形处理管线400无需消耗用于像素着色器535的功率而渲染对象。

图5D示出了根据本发明的一个实施例的、配置为实现渐变颜色旁路模式的图形处理管线400。如所示的，配置为实现渐变颜色旁路模式的图形处理管线400包括光栅化器455、定点纹理坐标生成器单元530、片段处理单元460、像素着色器单元535、ROP单元465、纹理坐标生成器单元（STRI单元）540和纹理单元545、以及数据路径525、527和529。

当图形处理管线400配置为实现渐变颜色旁路模式时，光栅化器455接收关于将被光栅化到目标表面的渐变颜色二维对象以及将被应用到渐变颜色二维对象的渐变颜色的信息。渐变颜色二维对象与用于渐变颜色二维对象的渲染目标平行，类似于由配置为实现纹理旁路模式的图形处理管线400所处理的平坦二维对象。渐变颜色二维对象可以是任何二维形状，诸如四边形、三角形、其他多边形或其他二维形状。在各实施例中，渐变颜色二维对象可用于显示纹理图形用户接口（GUI）元素、显示用于诸如休闲游戏的应用的简单的图形或用于其他目的。

光栅化器455计算用于渐变颜色二维对象的覆盖数据。定点纹理坐标生成器530计算用于渐变颜色二维对象的片段的渐变颜色。光栅化器455以数据流527输出片段和覆盖数据。ROP单元465处理数据并发射出数据流529。

因为二维对象与渲染目标平行，所以用于生成渐变颜色的计算相对简单。用于生成渐变颜色的计算类似于当图形处理管线400配置为实现纹理旁路模式时用于针对平坦二维对象生成纹理坐标的计算。具体地，对于由配置为实现纹理旁路模式的图形处理管线所处理的纹理坐标，定点纹理坐标生成器530在屏幕坐标之间线性地插值以确定纹理坐标。当图形处理管线配置为实现渐变颜色旁路模式时，定点纹理坐标生成器530在颜色值之间线性地插值以产生渐变颜色值。因为定点纹理坐标生成器530生成渐变颜色，所以像素着色器535被绕过，从而节约了处理功率。

在一些实施例中，因为渐变颜色基元与渲染目标平行，所以光栅化器455的上游单元不处理用于在渐变颜色旁路模式中所处理的基元的数据。例如，几何处理单元445可以不处理用于在渐变颜色旁路模式中所处理的基元的数据。

将理解本文所描述的架构仅是示例性的，并且变化和修改是可能的。在一个示例中，当图形处理管线配置为实现纹理旁路模式时，数据流520和522可能不经过片段处理单元460。在另一个示例中，图形处理管线400中的某些单元可在某种配置中被绕过。例如，当图形处理管线配置为实现纹理旁路模式和渐变颜色旁路模式时，几何处理单元445可被绕过。

图6描绘了根据本发明的一个实施例的、由图形处理管线400所渲染的示范性场景600。如所示的，场景600包括由配置为实现非旁路模式的图形处理管线400所绘制的基元602、604、由配置为实现纹理旁路模式的图形处理管线400所绘制的基元606、由配置为实现固定颜色旁路模式的图形处理管线400所绘制的基元608、以及由配置为实现渐变颜色旁路模式的图形处理管线400所绘制的基元610。

基元602和604与渲染目标（屏幕）成一个角度。基元602和604由配置为实现非旁路模式的图形处理管线400所处理，这意味着像素着色器535对基元602和604执行像素着色程序。

基元606与渲染目标（屏幕）的平面平行。配置为实现纹理旁路模式的图形处理管线400处理基元606。当图形处理管线400配置为实现纹理旁路模式时，纹理坐标生成器530生成用于基元606的纹理坐标。因此，像素着色器535被绕过。

基元608与渲染目标（屏幕）成一个角度。配置为实现固定颜色旁路模式的图形处理管线400处理基元608。因此，像素着色器535被绕过。

最后，基元610与渲染目标（屏幕）的平面平行。配置为实现渐变颜色旁路模式的图形处理管线400处理基元610。因此，像素着色器535被绕过。

图7是根据本发明的一个实施例的、用于在配置为实现旁路模式的图形处理管线中生成片段数据的方法步骤的流程图。虽然结合图1-5D的系统描述了方法步骤，但是本领域普通技术人员理解的是，配置为以任何次序实施方法步骤的任何系统均落在本发明的范围内。

如所示的，方法700开始于步骤702，此处图形处理管线400接收绘制基元的指令，该基元指示要实现的旁路模式。旁路模式可以是纹理旁路模式、固定颜色旁路模式、非旁路模式或渐变颜色旁路模式。在步骤704中，图形处理管线400确定旁路模式是否是非旁路模式。如果旁路模式是非旁路模式，则方法前进到步骤706，并且图形处理管线400处理绘制基元的指令而无需绕过像素着色器535。具体地，图形处理管线400对基元进行光栅化，并且经由像素着色器535对基元进行着色以及使基元具有纹理。

参考回步骤704，如果旁路模式不是非旁路模式，则方法前进到步骤708。在步骤708中，图形处理管线400确定旁路模式是否是纹理旁路模式。如果旁路模式是纹理旁路模式，则方法前进到步骤709。在步骤709中，光栅化器455对基元进行光栅化以确定诸如片段和覆盖数据的光栅化结果。在步骤710中，定点纹理坐标生成器530生成用于基元的纹理坐标。在步骤712中，定点纹理坐标生成器530将纹理坐标发送到纹理单元545以确定应用到基元的颜色。在步骤714中，纹理单元545将所确定的颜色发送到ROP单元465用于由ROP单元465进一步处理。

参考回步骤708，如果旁路模式不是纹理旁路模式，则方法前进到步骤715。在步骤715中，图形处理管线400确定旁路模式是否是恒定颜色旁路模式。如果旁路模式是恒定颜色旁路模式，则方法前进到步骤716。在步骤716中，光栅化器455对基元进行光栅化以确定诸如片段和覆盖数据的光栅化结果。在步骤718中，光栅化器将光栅化结果和恒定颜色发送到ROP单元465用于进一步处理。

参考回步骤715，如果旁路模式不是恒定颜色旁路模式，则旁路模式是渐变颜色旁路模式并且方法前进到步骤720。在步骤720中，光栅化器455对基元进行光栅化以确定诸如片段和覆盖数据的光栅化结果。在步骤722中，定点纹理坐标生成器530生成渐变颜色。在步骤724中，定点纹理坐标生成器530将颜色发送到ROP单元465用于进一步处理。

总而言之，为图形处理管线提供三种旁路模式，其使图形处理管线能够更高效地生成用于显示的二维对象。在纹理旁路模式中，光栅化器内的定点纹理坐标生成器计算用于将在渲染目标的平面中被渲染的纹理二维对象的纹理坐标。纹理坐标被发送到纹理单元，并且纹理颜色被获取并被发送到ROP单元用于混合。不利用像素着色器单元和纹理坐标生成器单元（STRI单元）来确定所生成的像素的颜色或纹理颜色，并且因此像素着色器单元和纹理坐标生成器单元可被闲置、切换到低功率模式、或被用于其他图形操作。在恒定颜色渲染模式中，图形处理管线渲染三维场景中的二维对象，但是无需使用纹理单元、像素着色器单元或STRI单元。光栅化器采用恒定颜色值对二维对象进行光栅化、并将光栅化操作的结果直接发送到ROP单元用于颜色混合，绕过像素着色器单元、纹理单元和STRI单元。在渐变颜色旁路模式中，光栅化器内的定点纹理坐标生成器计算用于将在渲染目标的平面中被渲染的渐变二维对象的线性变化渐变颜色。光栅化器采用渐变颜色对渐变颜色二维对象进行光栅化，并将包括渐变颜色的光栅化的结果直接发送ROP单元用于颜色混合，绕过像素着色器单元、纹理单元和STRI单元。

本文所提供的技术的优点是，图形处理管线能被配置为绘制用于显示的二维对象而无需使用像素着色器单元，从而节约了功率并增加了整体性能。本文所提供的技术的另一个优点是，绘制二维对象不需要位块传送器。因此，图形处理管线不需要在位块传送器绘制二维对象时被清空和闲置，从而增加了整体性能。本文所提供的技术的再一个优点是，图形处理管理能被配置为使用诸如颜色混合的有利的图形操作来绘制二维对象，以提高整体图像质量。

本发明的一个实施例可被实现为与计算机系统一起使用的程序产品。该程序产品的程序定义实施例的各功能（包括本文中描述的方法）并且可以被包含在各种计算机可读存储介质上。示例性计算机可读存储介质包括但不限于：（i）不可写的存储介质（例如，计算机内的只读存储器设备，诸如可由压缩光盘只读存储器（CD-ROM）驱动器读取的CD-ROM盘、闪存存储器、只读存储器（ROM）芯片或任何类型的固态非易失性半导体存储器），在其上存储永久性信息；和（ii）可写的存储介质（例如，磁盘驱动器或硬盘驱动器内的软盘或者任何类型的固态随机存取半导体存储器），在其上存储可更改的信息。

以上已参照具体实施例对本发明进行了描述。然而，本领域普通技术人员将理解的是，可对此做出各种修改和改变而不脱离如随附权利要求书中所阐述的本发明的较宽精神和范围。因此，前面的描述以及附图应被视为是例示性而非限制性的意义。

因此，本发明的实施例的范围在下面的权利要求中加以阐述。

Claims

1.一种配置为绘制图形对象的图形处理单元，包括：

光栅化器，其配置为对第一基元和第二基元进行光栅化以生成光栅化结果的第一集合和光栅化结果的第二集合；

像素着色器单元，其配置为确定用于所述第一基元的旁路模式是非旁路模式，并且生成用于所述光栅化结果的第一集合的像素颜色的第一集合；以及

光栅操作(ROP)单元，其配置为接收所述像素颜色的第一集合和像素颜色的第二集合，其中所述像素颜色的第二集合是用于所述光栅化结果的第二集合，并且无需所述像素着色器单元对所述光栅化结果的第二集合实施任何处理操作而生成。

2.根据权利要求1所述的图形处理单元，其中：

所述光栅化器配置为确定用于所述第二基元的旁路模式是纹理旁路模式；以及

纹理坐标生成器配置为计算用于所述光栅化结果的第二集合的纹理坐标。

3.根据权利要求2所述的图形处理单元，其中所述纹理坐标生成器配置为将所述纹理坐标发送到纹理单元。

4.根据权利要求3所述的图形处理单元，其中计算所述纹理坐标进一步包括经由定点运算计算所述纹理坐标。

5.根据权利要求4所述的图形处理单元，其中所述第二基元无需几何处理单元对所述第二基元实施任何处理操作而被处理。

6.根据权利要求3所述的图形处理单元，其中所述像素着色器单元配置为在所述颜色的第二集合被生成时闲置。

7.根据权利要求1所述的图形处理单元，其中：

所述光栅化器配置为确定用于所述第二基元的旁路模式是固定颜色旁路模式；以及

所述光栅化器配置为确定用于所述光栅化结果的第二集合的固定颜色。

8.根据权利要求7所述的图形处理单元，其中生成所述颜色的第二集合包括将所述颜色的第二集合中的每个颜色设置为与所述固定颜色相等。

9.根据权利要求8所述的图形处理单元，其中所述光栅化器配置为将所述颜色的第二集合发送到ROP单元，无需纹理坐标生成器单元或纹理单元之一对所述颜色的第二集合实施任何处理操作。

10.根据权利要求9所述的图形处理单元，其中所述像素着色器单元配置为在所述颜色的第二集合被生成时闲置。

11.根据权利要求1所述的图形处理单元，其中：

所述光栅化器配置为确定用于所述第二基元的旁路模式是渐变颜色旁路模式；

纹理坐标生成器配置为计算渐变颜色；以及

所述光栅化器配置为将所述颜色的第二集合设置为与所计算的渐变颜色相等。