CN102597950B

CN102597950B - 基于硬件排程gpu工作

Info

Publication number: CN102597950B
Application number: CN201080048071.9A
Authority: CN
Inventors: R·麦克拉里; F·利尔罗斯; G·J·程
Original assignee: Advanced Micro Devices Inc
Current assignee: Advanced Micro Devices Inc
Priority date: 2009-09-03
Filing date: 2010-09-02
Publication date: 2014-10-29
Anticipated expiration: 2030-09-02
Also published as: US8310492B2; CN102597950A; WO2011028896A1; EP2473914A1; JP5722327B2; EP2473914B1; JP2013504127A; US20110050713A1; IN2012DN02567A; KR101587201B1; KR20120058605A

Abstract

本发明揭露一种在第二处理器例如GPU上排程并执行由第一处理器例如CPU发出之命令的装置及方法。在一实施例中，在图形处理单元(Graphics Processing Unit；GPU)上执行处理的方法包括监控存储器中的一个或多个缓冲区，基于该GPU的工作量概况自该一个或多个缓冲区选择第一子集以执行于该GPU上，以及在该GPU上执行该第一子集。该GPU还可接收该一个或多个缓冲区的优先顺序，其中，该选择进一步基于该接收之优先顺序。通过在该GPU中执行命令的优先顺序确定及排程，系统性能得以提升。

Description

基于硬件排程GPU工作

技术领域

本发明涉及在处理器上排程命令。

背景技术

图形处理单元(Graphics Processor Unit；GPU)的处理能力正在快速增加。该处理能力的增加至少部分归因于图形处理单元中包括的多个独立处理单元(例如SIMD(单指令多数据)处理器、ALU(算术逻辑单元))。在许多图形应用中，利用该多个独立处理单元执行并行几何计算、顶点计算和/或像素操作。例如，图形应用经常以单指令多数据(single instruction，multip data；SIMD)为特征，其中，可对多个并行数据流执行同一序列指令，以大幅提升操作速度。

另一个正在发展的趋势是将GPU用于通用计算，其可能不一定是SIMD类型计算。将用于通用计算的GPU使用称为GPGPU式计算。在该GPGPU式计算中，CPU(中央处理单元)可使用GPU执行以前通常由CPU完成的计算工作项目。

传统上，由CPU排程GPU的工作以在GPU上操作，例如，顶点流及纹理信息以及处理此类信息的指令。在CPU上执行的软件可依据某些优先顺序确定不同工作项目(下面也称作“命令”)的优先顺序，并将其排队于系统存储器缓冲区中。GPU自该系统存储器缓冲区中异步检索下一个要处理的工作项目。在GPU上，该下一个要处理之工作项目的选择基于由CPU指定的优先顺序。在一些情况下，CPU可指定以每一工作项目为基础的优先顺序；在其它情况下，CPU可指定与每一存储器缓冲区相关联的优先顺序，排队于存储器缓冲区中的任何工作项目将具有与该缓冲区相关联的优先顺序。

随着GPU中处理能力的快速增加以及用于通用目的计算之GPU使用的增加，需要更有效的方法以充分利用GPU的可用计算能力。因此，需要提供能够更有效地向工作项目分配GPU资源的方法及系统。

发明内容

本发明揭露一种在第二处理器例如GPU上排程并执行由第一处理器例如CPU发出之命令的装置及方法。在一实施例中，在图形处理单元(Graphics Processing Unit；GPU)上执行处理的方法包括：基于该GPU的工作量概况自存储器中的一个或多个缓冲区选择第一子集，以在该GPU上执行该第一子集之工作项目；以及在该GPU上执行该第一子集之工作项目。该GPU还可接收该一个或多个缓冲区的优先顺序，其中，该选择进一步基于该接收之优先顺序。

本发明的另一实施例提供在GPU上执行工作项目的系统。该GPU经组构成基于该GPU的工作量概况自存储器中的一个或多个缓冲区选择第一缓冲区子集，以在该GPU上执行该第一子集之工作项目；以及在该GPU上执行该第一子集。该GPU还可经进一步组构成接收该一个或多个缓冲区的优先顺序，其中，该选择进一步基于该接收之优先顺序。

下面参照附图详细说明本发明进一步的实施例、特征和优点，以及本发明各实施例的结构及操作。

附图说明

包含于说明书中并构成其部分的附图示例本发明实施例，而且与上面的概括说明以及下面针对实施例的详细说明一起用于解释本发明的原理。

图1显示依据本发明一实施例的系统。

图2例示依据本发明一实施例的环形缓冲区分配。

图3显示依据本发明一实施例实现于CPU中以将命令传递至GPU进行处理之过程的步骤流程图。

图4显示依据本发明一实施例实现于GPU中以处理自CPU接收之命令之过程的步骤流程图。

图5显示依据本发明一实施例实现于GPU中以确定命令的优先顺序并排程该命令以便执行之过程的步骤流程图。

图6显示依据本发明一实施例实现于GPU中以执行命令之过程的步骤流程图。

具体实施方式

本发明实施例可实质提升图形处理单元(graphics processing unit；GPU)资源的利用率。尽管这里使用具有特定应用的示例实施例说明本发明，但应当了解本发明并不以此为限。籍由阅读本文提供的教导，本领域的技术人员将了解本发明范围内的其它修改、应用和实施例，以及本发明具有显着效用的其它领域。

本发明实施例可用于任何计算机系统或计算设备，其具有至少两个处理器，例如提供工作项目(例如命令或命令缓冲区)的CPU以及处理该CPU提供之工作项目的GPU。作为示例而非限制，实施例可包括计算机，其包括笔记本电脑、个人电脑、游戏平台、娱乐平台、个人数字助理以及视频平台。

在具有CPU及GPU的系统中，GPU的利用率是整体系统性能的一个重要因素。理想情况下，人们希望GPU的利用率达到最大或接近最大。CPU提供GPU中使用的指令及数据。在传统系统中，CPU以命令缓冲区向GPU提供大体上全部的指令及数据，GPU简单地将那些命令缓冲区作为输入并执行(亦即执行那些命令缓冲区之命令)。命令缓冲区为包含指令或命令以及相关数据的数据结构。在传统系统中，由CPU确定命令缓冲区的任何优先顺序，GPU则按照CPU指定的顺序简单执行由CPU确定优先顺序的排队命令。尽管该传统方法有效，但此种方法中GPU仅依靠CPU确定GPU上要执行之工作的优先顺序还有改进的余地。本发明实施例旨在使GPU能够确定CPU指定之命令的优先顺序并排程。例如，相较CPU，GPU能够以更加动态且更加有效的方式基于其本地资源的可用性确定要执行之命令的优先顺序。而且，GPU可在CPU指定的任意命令优先顺序之外确定第二级优先顺序。

在GPU上基于硬件排程命令的系统

图1示例依据本发明一实施例的系统，其中，在GPU上执行工作项目(例如命令)。系统100包括CPU 101、系统存储器102、图形驱动器103、GPU 104以及通信基本架构105。本领域的技术人员将了解，系统100可包括在图1所示实施例之组件以外或不同于该些组件的软件、硬件以及固件组件。

CPU 101可为任何市场上有贩售的CPU、数字信号处理器(DigitalSignal Processor；DSP)、专用集成处理器(Application Specific IntegratedProcessor；ASIC)、现场可编程闸阵列(Field Programmable Gate Array；FPGA)或定制处理器。CPU 101可包括利用通信基本架构，例如通信基本架构105，耦接的一个或多个处理器。CPU 101还可包括在同一芯片上具有多个处理核心的一个或多个处理器，例如多核心处理器。在图1所示实施例中，CPU 101可为具有处理核心1 101a及核心2 101b的双核心处理器。CPU 101执行操作系统(未图示)以及一个或多个应用程序，而且是系统100的控制处理器。执行于CPU 101上的操作系统控制并促进访问系统100中的设备。执行于CPU 101上的一个或多个应用程序，包括用户应用程序，使CPU 101协调系统100之不同设备的使用，包括GPU 104及系统存储器102，以实现任务。

系统存储器102包括一个或多个存储器设备。系统存储器102通常可为动态随机访问存储器(Dynamic Random access Memory；DRAM)或用于非持久性数据储存的类似存储器设备。在一些实施例中，系统存储器102可包括例如闪存设备和/或静态随机访问存储器(StaticRandom access Memory；SRAM)等存储器设备。在一实施例中，在系统100执行期间，系统存储器102内可驻留一个或多个存储器缓冲区110，CPU 101透过该一个或多个存储器缓冲区110向GPU 104传输命令。

供CPU 101向GPU 104传输命令的存储器缓冲区110可为环形缓冲区或适合对工作项目进行有效排队的其它数据结构。下面将存储器缓冲区110也称作环形缓冲区110。自CPU 101向GPU 104传输的命令可包括指令和数据。在一些实施例中，执行于CPU 101上的应用程序和/或操作系统将具有指令和数据的数据结构输入至环形缓冲区110。CPU 101(或执行于CPU 101上的应用程序和/或操作系统)可指定与一个或多个环形缓冲区110关联的优先顺序。可基于各命令的确定优先级将命令添加至环形缓冲区。例如，CPU 101可针对高优先级命令、低优先级命令以及低延迟命令分别定义环形缓冲区。

可使用一组间接缓冲区111保存实际的命令(例如指令和数据)。例如，当CPU 101向GPU 104传输命令缓冲区时，该命令缓冲区可储存于间接缓冲区111中，并在具有相应优先级的环形缓冲区中插入指向该间接缓冲区的指针。应当了解，间接缓冲区111可实施为单级间接或多级间接。

环形缓冲区工作寄存器112可实现于系统存储器102中或系统100的其它寄存器存储设施中。例如，环形缓冲区工作寄存器112就环形缓冲区110中的命令提供CPU 101与GPU 104之间的通信。例如，向环形缓冲区110写入命令的CPU 101与读取此类命令的GPU 104可协调写入指针和读取指针，其分别标示环形缓冲区110中添加的最后项目及读取的最后项目。还可透过环形缓冲区工作寄存器112向GPU 104传输例如可用环形缓冲区110的列表、CPU 101指定的优先顺序等其它信息。

图形驱动器103可包括软件、固件、硬件或其任意组合。在一实施例中，图形驱动器103全部以软件实现。在系统100执行期间，图形驱动器103软件可驻留在系统存储器102中。图形驱动器103为CPU101以及执行于CPU 101上的应用程序提供接口和/或应用程序编程接口(Application Programming Interface；API)以访问GPU 104。一般而言，当系统100启动时，操作系统初始化适合特定GPU 104的图形驱动器103。

GPU 104为系统100提供图形加速功能以及其它计算功能。GPU104可包括多个处理器，例如单指令多数据(Single Instruction MultipleData；SIMD)处理器，其包括例如算术逻辑单元(Arithmetic and LogicUnit；ALU)等处理组件。一般而言，具有多个SIMD处理器使GPU 104非常适于执行图形处理中常见的数据并行任务。例如，当在显示器上渲染(rendering)图像时，在该显示器上渲染的每个像素上执行相同或基本相同的指令。GPU 104还可用于图形操作以外的任务，例如可从数据流的并行执行中受益的各种计算密集型任务。出于简化目的，下面以图形应用程序进行说明。不过，本领域的技术人员将了解，这里的教导适用于可执行于图形处理器上的众多其它任务。另外，本领域的技术人员将了解，GPU 104可为嵌入例如CPU 101、桥芯片(例如北桥、南桥或组合设备)等另一设备中的逻辑。

GPU 104包括的组件包括GPU存储器120、三维/计算着色器复合体(3D/CS complex)130、环形列表控制器(Ring List Controller；RLC)140以及命令处理器150。GPU存储器120提供本地存储器以供GPU104计算期间使用，其可包括DRAM或此类存储器设备。在一实施例中，GPU 120包括多个上下文保存区(Context Save Area；CSA)121。每一CSA 121提供存储区以保存在完成之前被换出GPU 104执行之工作项目的上下文，如后面所述。

3D/CS复合体130是GPU 104内主要的计算组件，其包括多个SIMD处理器以方便计算，包括并行数据流上的计算。例如，3D/CS复合体可包括顶点着色器、像素着色器、几何着色器、统一着色器以及用于GPU 104中数据计算的其它必要组件。在下面所述的实施例中，3D/CS复合体被认为是包括三维计算组件、计算着色器组件以及低延迟计算组件。自CPU 101发送至GPU 104的命令利用3D/CS复合体实现。

环形列表控制器(RLC)140包括协调存储器缓冲区(例如环形缓冲区110)之访问的功能。在一实施例中，RLC 140确定将要在GPU 104中处理的环形缓冲区140的列表，接收由CPU 101(尤其执行于CPU101上的过程或操作系统)指定的环形缓冲区140的任何优先顺序，以及以最优化GPU 104中处理资源之利用率的方式确定GPU 104上环形缓冲区的排程。例如，RLC 140与命令处理器150一起能够以保持3D/CS复合体130中各SIMD处理器处于利用率最大化或接近最大化的方式排程自CPU 101接收的环形缓冲区。

命令处理器150控制GPU 104内的处理。命令处理器自CPU 101接收要执行的指令，并协调该些指令在GPU 104上的执行。在一些情况下，命令处理器可生成将在GPU 104中执行的一个或多个命令，其与从CPU 101接收的各个命令相对应。在一实施例中，命令处理器150与RLC 140一起以最大化GPU 104资源利用率的方式实现GPU 104上命令的优先顺序确定及排程。实现命令处理器150和RLC 140之功能的逻辑指令可以硬件、固件、或软件、或其组合实现。在一实施例中，命令处理器150实施为具有微代码的RISC引擎，以实现逻辑，包括排程逻辑。

通信基本架构105提供与系统100之设备及组件的耦接。通信基本架构105可包括一个或多个传输总线，例如周边组件互连(PeripheralComponent Interconnect；PCI)、高级图形端口(Advanced Graphics Port；AGP)等。

图2例示自CPU 101传输至GPU 104的环形缓冲区。如该示例所示，在系统100操作期间的一个瞬间，系统存储器102内组构一组环形缓冲区200，其包括环形缓冲区0…环形缓冲区6(亦即201、202、203、204、205、206、207)。在该组环形缓冲区200中，GPU 104访问子集210，该子集210包括环形缓冲区0 201、环形缓冲区1 202、环形缓冲区2 203以及环形缓冲区5206。可基于CPU 101指定的标准选择子集210，例如，CPU 101可识别子集210为具有准备执行于GPU 104上的命令。例如，在将一个或多个命令排队至各环形缓冲区201、202、203以及206后，CPU 101可更新一个或多个存储器位置，例如环形缓冲区工作寄存器112中的位置，其由GPU 104读取。在另一实施例中，在向一个或多个环形缓冲区写入一个或多个命令时，CPU 101可直接写入GPU 104内的寄存器，以通知GPU 104命令缓冲区可供处理。

GPU 104定期监控系统存储器102中的环形缓冲区、系统存储器中的环形缓冲区工作寄存器和/或由CPU 101更新的其它寄存器位置，以确定环形缓冲区是否具有准备由GPU 104处理的命令缓冲区。当侦测到一个或多个环形缓冲区具有准备执行的命令缓冲区时，GPU 104可接收该命令缓冲区以便执行(亦即，执行该命令缓冲区中的命令)。在一实施例中，GPU 104可使用直接存储器访问(Direct MemoryAccess；DMA)等接收由CPU 101指定的环形缓冲区至GPU本地存储器中或一组通用寄存器(General Purpose Register；GPR)中。RLC 140可执行环形缓冲区的监控并控制环形缓冲区向GPU存储器和/或GPR的传输。确定要执行于GPU 104上的环形缓冲区组后，RLC 140确定该些环形缓冲区在GPU的分配、该些环形缓冲区的优先顺序以及该些环形缓冲区之命令缓冲区的优先顺序。在一些实施例中，优先顺序的确定由RLC 140配合命令处理器150执行。例如，在所接收的准备执行于GPU 104上的环形缓冲区子集210中，基于CPU 101确定的优先顺序以及GPU 104确定的优先顺序，可确定如图所示的优先顺序为：具有优先级1的环形缓冲区0，具有优先级2的环形缓冲区2，以及具有优先级3的环形缓冲区1和5。

CPU处理

图3示例依据本发明一实施例由CPU例如CPU 101执行的处理步骤(例如步骤301至305)的流程图。在步骤301中，CPU 101初始化系统存储器103中的一组环形缓冲区，以向GPU 104传输命令缓冲区。尽管这里的说明中使用环形缓冲区作为选择的数据结构以实现向GPU104传输命令缓冲区的方法，但本领域的技术人员将了解，可使用一个或多个其它数据结构替代环形缓冲区。初始化步骤301可发生于系统启动或应用程序启动时。例如，系统启动时，当执行于CPU 101上的操作系统组构GPU 104及相关的图形驱动器103以供使用时，可初始化一个或多个环形缓冲区以用于自随后的应用向GPU 104传输指令及数据。在另一例子中，当载入具有使用GPU之代码例如DirectX代码的应用程序时，该些环形缓冲区可组构为该应用程序之初始化的一部分。在另一示例实施例中，可在系统启动时初始化一个或多个环形缓冲区，在应用程序启动时添加和初始化额外的缓冲区。

初始化可包括存储器分配、对应于环形缓冲区之数据结构的初始化，以及更新用以向GPU 104传输环形缓冲区组构信息的一个或多个寄存器。例如，初始化环形缓冲区可包括针对环形缓冲区数据结构(例如环形缓冲区110)的存储器分配、分配一个或多个存储器区域以容纳与环形缓冲区组件相关联的实际命令缓冲区(例如间接缓冲区111)，以及初始化一个或多个寄存器(例如环形缓冲工作寄存器112中的一个或多个寄存器)。可基于组构参数或基于所执行的应用程序所动态确定的参数初始化环形缓冲区与间接环形缓冲区。例如，环形缓冲区的数量、大小，间接缓冲区区域的大小等可作为系统启动时的组构参数，和/或可基于应用程序特征确定一个或多个此类参数。

在一实施例中，每一环形缓冲区110为圆形阵列。该圆形阵列之各组件意图容纳指向间接缓冲区区域111中的位置的指针。各环形缓冲区数据结构还具有维护该环形缓冲区结构所需的参数，例如头指针和尾指针等。间接缓冲区区域111意图容纳对应于命令缓冲区的多个数据结构。例如，每一命令缓冲区可包括将由GPU执行的一个或多个命令及相关数据。在不同于环形缓冲区的位置中储存实际命令缓冲区有利于存储器的有效使用。间接缓冲区区域112可以多种方式分配，包括基于每一命令作分配，为每一环形缓冲区分配一区域，或者为全部环形缓冲区110分配一个连续的区域。环形缓冲区工作寄存器112可包括寄存器和/或其它位置。尽管图中所示的环形缓冲区工作寄存器112被组构于系统存储器102内，本领域的技术人员应当了解，该环形缓冲区工作寄存器可包括位于系统存储器102以外的一个或多个寄存器。例如，环形缓冲区工作寄存器112可包括位于GPU 104中的一个或多个寄存器。可使用环形缓冲区工作寄存器112向GPU 104传输CPU101使用环形缓冲区的相关信息。例如，CPU 101可将当前活动环形缓冲区列表、由CPU 101确定的该些活动环形缓冲区的优先顺序、针对一个或多个GPU组件的活动环形缓冲区的分配等信息全部传输至GPU 104。在另一实施例中，环形缓冲区工作寄存器112还可用于传输例如每一环形缓冲区的当前读取和写入指针等信息。

在步骤303中，CPU 101通知GPU 104有关环形缓冲区的组构。该步骤可发生于系统启动时或发生于CPU 101初始化系统存储器103中的环形缓冲区之后的应用程序启动时。在一些实施例中，步骤303可在系统启动时以及在应用程序启动时执行。例如，如应用程序启动时，活动环形缓冲区的数量组构改变，此类变更将被传输至GPU 104。在本发明一实施例中，传输至GPU 104的环形缓冲区组态信息包括环形缓冲区的数量、各环形缓冲区的位置及大小，以及CPU 101确定的优先顺序。在本发明的不同实施例中，可传输有关该帧缓冲区组构之不同的和/或额外的组构信息。步骤303中的通知可基于CPU 101写入至GPU 104监控的一个或多个寄存器位置，例如环形缓冲区工作寄存器112。在另一实施例中，通过使用图形驱动器103而执行于CPU 101或CPU 101之操作系统上的应用程序启动对GPU 104的通知。在本发明实施例中，图形驱动器103可将要传输至GPU 104的信息写入系统存储器102中。

在步骤305中，将命令写入环形缓冲区。例如，在执行应用程序例如游戏应用程序期间，执行众多的图形相关命令以执行各种图形相关任务，包括在显示器上渲染图像。该应用程序代码可使用图形处理平台例如DirectX而使用图形命令。在为执行于系统100上而编译该应用程序时，或在某些情况下，更动态地在运行时，确定CPU 101卸载特定的命令及相关数据以在GPU 104上处理。例如，调用DirectX API以执行功能的任何命令可选择在GPU 104上处理。操作系统，或在一些实施例中，应用程序本身，将该些选择在GPU 104上处理的命令及相关数据写入经组构用于向GPU 104传输指令及数据的环形缓冲区中。该些命令及相关数据可形成通常被称作命令缓冲区的数据结构。命令缓冲区包括一个或多个指令及相关数据。例如，对于“绘制”命令，相应的命令缓冲区可包括“绘制”命令以及要在显示器上绘制或渲染的图像。

如前所述，对于向GPU 104传输命令缓冲区的环形缓冲区，CPU101可确定其优先顺序。因此，当在步骤305中写入命令缓冲区时，每一命令缓冲区排队于最匹配该命令之优先级的环形缓冲区中。例如，游戏应用程序生成众多游戏角色图像渲染，其要求几乎立即显示，此外菜单及其它用户事件则具有较低的时间紧迫性。因此，与时间紧迫性较低的菜单及用户事件的命令缓冲区相比，对应时间紧迫图像的命令缓冲区可排队于较高优先级环形缓冲区。将命令缓冲区写入适当的环形缓冲区可包括分配存储器区域以在间接缓冲区区域111中容纳该命令缓冲区，以及将指向该间接缓冲区区域111中相应位置的指针排队于该环形缓冲区中。在该环形缓冲区中插入指向该间接缓冲区111的指针还包括更新该环形缓冲区的数据结构组件，例如头指针和尾指针。另外，CPU 101可更新标示添加值的值以及供作为写入者的CPU101以及作为读取者的GPU 104安全并发访问环形缓冲区的指针。在将一个或多个命令缓冲区写入环形缓冲区后，CPU 101可更新一个或多个寄存器和/或其它存储器位置以通知GPU 104有关数据的可用性。在一些实施例中，当GPU 104可持续监控各该环形缓冲区时，无需由CPU 101单独通知。

过程300以基本与耦接CPU 101之GPU中的处理异步的方式实现于CPU 101上。过程300能够使执行于CPU 101上的应用程序于执行的同时具有多个命令在其它处理器例如GPU 104中等待处理。不过，例如，可在CPU 101与GPU 104之间实现某些同步机制，以确保GPU不会对进来的命令缓冲区不知所措。例如，CPU 101可具有适当的技术侦测何时GPU 104没有在处理环形缓冲区，以便能够对变慢的处理作出反应。CPU 101还可具有适当的机制侦测是否其排队于环形缓冲区的每个命令都被GPU 104处理。例如，对于排队至一环形缓冲区的每个命令，CPU 101可向环形缓冲区工作存储器112中的存储器位置写入一值。接着，CPU 101可定期检查位于该存储器位置的该值。当GPU 104处理该命令缓冲区时，其以不同的值更新环形缓冲区工作存储器112中的各位置。在超时时间后，环形缓冲区工作存储器112中各位置的未变更值向CPU 101标示GPU 104功能不正常。

GPU处理

图4显示依据本发明一实施例由GPU 104实现之过程400的步骤401至409的流程图。在本发明不同实施例中，过程400可以硬件、固件和/或软件实现。例如，可利用硬件和微代码组合实现RLC 140的功能，以保持高度的灵活性，同时保持高性能。

在步骤401中，GPU 104确定系统存储器103中环形缓冲区的组构，其中，该GPU 104透过该环形缓冲区自CPU 101接收命令缓冲区。步骤401可在系统启动和/或在应用程序启动时执行。例如，在系统启动时，当CPU 101初始化时，GPU 104可确定系统存储器103中环形缓冲区的组构。GPU 104还可在应用程序启动时或自CPU 101接收信号时确定环形缓冲区的组构。在一些实施例中，若CPU 101于系统启动时初始化环形缓冲区110，而且不会在系统操作期间进一步添加和/或删除环形缓冲区，则GPU 104仅于系统启动时执行步骤104。另一方面，若CPU 101在系统启动以外的其它时间例如在应用程序启动时对环形缓冲区110偶尔作组构变更时，则当此类变更发生时，要求GPU104更新其有关该环形缓冲区组构的信息。GPU 104可基于定期监控环形缓冲区或相关寄存器或存储器位置或基于自CPU 101接收的消息或信号确定环形缓冲区的组构。在一实施例中，步骤401的功能主要实现于RLC 140中。

已确定环形缓冲区110的组构后，在步骤403中，GPU 104监控该些环形缓冲区以侦测可供处理的环形缓冲区。例如，当在CPU 101上执行游戏应用程序时，CPU 101将图形处理操作命令以命令缓冲区的形式排队至环形缓冲区110，如参照过程300的步骤305所述。当依据执行的应用程序生成命令缓冲区并排队至环形缓冲区时，CPU 101可更新一个或多个存储器位置和/或寄存器，以向GPU 104标示哪些环形缓冲区可供处理。GPU 104可监控CPU 101更新的此类存储器位置和/或寄存器。在一实施例中，步骤403的功能主要实现于RLC 140中。

在步骤405中，GPU 104选择环形缓冲区110的子集以便处理和执行。可响应侦测排队于环形缓冲区110中等待处理的命令缓冲区或响应自CPU 101接收的消息或信号执行步骤405。供处理和执行之环形缓冲区子集的选择，例如如图2所示自可用环形缓冲区200选择子集210可基于一个或多个因素。在一实施例中，CPU 101可将准备在GPU中处理的环形缓冲区保持为环形缓冲区的列表，GPU 104自其中选择环形缓冲区作为要处理的子集。在一些实施例中，GPU 104。在另一实施例中，CPU 101简单地将命令缓冲区排队至一个或多个环形缓冲区，GPU 104选择具有等待执行之排队命令缓冲区的一个或多个环形缓冲区。

在一些实施例中，可将选择供执行的环形缓冲区子集提供至GPU本地存储器中或GPR中，以准备在GPU 104内处理。自系统存储器102传输命令缓冲区可由DMA过程控制。当自系统存储器103读取命令缓冲区时，GPU 104可更新一个或多个存储器位置，以标示哪些命令缓冲区已被读取，以及各该命令缓冲区是否已被处理。被更新的此类存储器位置可位于环形缓冲区工作寄存器112中、环形缓冲区数据结构中，和/或GPU本地存储器或GPR中。在一实施例中，步骤403的功能主要实现于RLC 140中。

在步骤407中，GPU 104依据优先标准选择命令缓冲区以在GPU上执行。在处理该步骤期间，GPU 104确定如何将前面步骤中选择的环形缓冲区分配给一个或多个GPU，以及如何将各命令分配给GPU内的资源。例如，GPU 104可确定优先顺序，按此顺序在GPU 104上处理步骤405中自系统存储器103选择的环形缓冲区子集210，以及在一些实施例中，确定在处理各环形缓冲区期间如何确定命令的优先顺序并对其排程。在一实施例中，步骤403的功能主要实现于RLC 140中。图5进一步描述步骤407的处理。

在步骤409中，依据前面步骤中在GPU 104中确定的优先顺序，在GPU 104上执行所选择的命令。在一实施例中，选择执行的环形缓冲区子集210是依据在GPU 104上执行的优先顺序而排序。在各环形缓冲区内，可对命令确定优先顺序并对其排程以便执行，或者按照命令在该环形缓冲区出现的顺序执行。在另一实施例中，通过考虑例如CPU 101指定的优先顺序、环形缓冲区的类型或命令缓冲区的类型、GPU 104上处理资源的可用性等多个因素，GPU 104可定期确定全部待处理命令缓冲区的优先顺序。

自CPU 101接收于命令缓冲区中的命令执行可包括命令处理器150对应该接收的命令生成一个或多个命令并在GPU 104的处理资源上排程该命令。例如，自CPU 101接收用以渲染图像的单个命令可使命令处理器150细分该图像，并生成一个或多个指令以处理各该图像的各该细分部分。接着，命令处理器排程各该细分部分执行于GPU 104之处理资源例如SIMD处理器和/或ALU上。排程准备执行之命令以及在GPU上执行该些命令主要是由命令处理器150配合指定该些命令之优先顺序的RCL 140管理。

命令的执行可以符合本发明的各种方式进行。在一实施例中，当每一命令完成执行从而使处理资源可用时，在该处理资源上执行依据优先顺序的下一命令。实施例还可采用其它方法，其中，在选择要执行的下一命令时，在上述优先顺序之外考虑其它因素。例如，可评估待处理命令，进而安排最可能优化可用资源的命令为下一要执行的命令。在本发明另一些实施例中，一些数量和/或类型的命令在GPU 104中完成执行时，GPU 104可返回步骤405，从而重新选择可供处理的环形缓冲区。

一般而言，在GPU 104中执行命令期间，RLC 140或GPU 104的另一组件持续监控系统存储器中的环形缓冲区，例如环形缓冲区110。该持续的监控使GPU 104能够侦测，例如，命令缓冲区何时被添加至高优先级队列。在GPU 104执行一个或多个较低优先级的命令期间，CPU 101将一个或多个命令缓冲区添加至高优先级缓冲区可使GPU 104预先阻止一个或多个命令，以便能够执行该较高优先级命令。图6显示依据本发明实施例实现的步骤601至609，以使GPU 104能够在执行一个或多个较低优先级命令期间接纳较高优先级命令。例如，步骤601至609可在处理步骤409期间实现。

图5显示依据本发明一实施例实现于前述步骤407中的步骤501至505。步骤501至505主要由RLC 140及命令处理器150实现，以使GPU 104能够确定环形缓冲区及命令缓冲区的优先顺序。

在步骤501中，确定GPU 104的当前工作量概况。在一实施例中，RLC 140和/或命令处理器150确定例如可用处理组件、该些处理组件的相对处理能力以及待处理工作量的当前优先顺序等因素，以创建工作量概况。该工作量概况反应GPU的状态。确定可用处理组件以及各自的相对处理能力可包括考虑独立处理组件，例如SIMD组件、ALU能力、三维处理设备、计算着色器设备以及低延迟处理设备。可连续地或定期地动态执行GPU的当前工作量分析。例如，当命令或环形缓冲区完成执行时，或自系统存储器读取新的环形缓冲区子集时，RLC140和/或命令处理器150可启动该GPU工作量分析。另外，每当需要确定工作量时可生成新的工作量概况；或维持该工作量概况，当发生例如完成环形缓冲区执行、自系统存储器读取环形缓冲区子集等预定类型的事件时对其更新。

在步骤503中，GPU 104确定等待执行于GPU 104上之环形缓冲区的优先顺序。在一实施例中，RLC 140和命令处理器150基于前述步骤501确定的工作量概况确定优先顺序。由GPU 104确定的优先顺序可基于CPU 101指定的环形缓冲区顺序。当基于GPU的动态工作量概况最优化实际的执行顺序时，可基本遵守CPU 101指定的优先顺序。对执行顺序进行动态重新排序的能力使GPU能够细粒度控制其处理组件的使用状况。

在步骤505中，GPU 104确定与各该环形缓冲区相关联之命令的优先顺序。例如，RLC 140和命令处理器150可基于前述步骤501中确定的工作量概况以及步骤503中确定的环形缓冲区优先顺序而确定顺序。环形缓冲区中命令的优先顺序可包括确定将每个命令分配至GPU中的哪个处理组件。通过进行动态确定，例如，若高优先处理资源可用，则以高优先级执行原来具有低优先级的命令，或者当高优先处理资源繁忙时，以低优先级执行原来具有高优先级的命令，或者基于组件可用性在低延迟组件上执行原本通常执行于计算着色器组件上的命令，对各环形缓冲区内的命令执行重新排序的能力使GPU能够更佳使用其资源。

图6显示依据本发明一实施例实现的步骤601至609，以使GPU104能够在执行一个或多个较低优先级命令期间接纳较高优先级命令。例如，步骤601至609可在处理步骤409期间实现。

在步骤601中，GPU 104确定是否需要上下文切换以处理另一命令。可基于例如当前正在执行之过程的优先级、需要执行之过程的优先级、执行时间片值以及每个当前正在执行过程的剩余执行时间等一个或多个因素而确定是否需要上下文切换。例如，命令处理器150可包括考虑上述一个或多个因素并且确定是否强制上下文切换的功能。

在步骤603中，预先阻止正在执行的命令和/或正在执行的环形缓冲区。预先阻止正在执行的命令和/或正在执行的环形缓冲区包括保存该预先阻止之命令和/或环形缓冲区的状态。在本发明实施例中，该预先阻止之命令和/或环形缓冲区的状态保存于在GPU本地存储器中组构的上下文保存区(Conetxt Save Area；CSA)中。例如，如要预先阻止当前正在执行的环形缓冲区，则将该环形缓冲区的状态，包括其待处理命令、数据，以及执行参数例如程序计数器等保存于GPU本地存储器中的一个区域中，例如GPU存储器120的CSA 121中。

在步骤605中，由RLC 140和命令处理器150换入执行另一命令和/或另一环形缓冲区。该换入执行的命令和/或环形缓冲区可能首次执行于GPU 104上或是自CSA恢复的命令和/或环形缓冲区。例如，该换入的命令和/或环形缓冲区可能曾经执行至其时间片结束，而且于其时间片结束时保存至CSA。

在步骤607中，当前正在执行的命令结束执行。当当前正在执行的命令结束执行时，可执行同一环形缓冲区中的下一命令。在本发明实施例中，GPU 104可确定环形缓冲区内命令的执行顺序，如参照过程400之步骤407所述。在一些实施例中，当一过程执行完成时，GPU104可执行例如检查准备执行之较高优先级环形缓冲区或检查同一环形缓冲区中较高优先级命令等操作，以确定下一步执行的过程和/或环形缓冲区。

在步骤607中，当前正在执行的环形缓冲区完成执行与其相关的全部待处理命令。当一环形缓冲区执行完成时，GPU 104可选择另一环形缓冲区例如按照优先级顺序的下一环形缓冲区以便执行。

上述实施例可以硬件描述语言例如Verilog、RTL、网表(netlist)等进行描述，籍由生成掩模作品/光罩，该些描述可最终组态一制造过程，从而生成体现本发明之态样的一个或多个硬件设备。

总结

如上述实施例所述，本发明能够更有效地分配第二处理器例如GPU内的处理资源，其自第一处理器例如CPU接收命令。基于本地确定的因素例如处理设备的可用性、工作量等确定优先顺序以及排程其工作量的能力提升了该第二处理器的利用率。

说明书的发明内容和摘要部分可能给出本发明的一个或多个而非全部的示例实施例，其并非意图限制本发明及所附权权利要求书。

上面借助功能方块图说明了本发明特定的功能及其关系的实施。说明中出于方便目的而随意定义了该些功能方块图的范围。本发明还可定义其它范围，只要能够适当执行特定的功能及关系即可。

上面对特定实施例的说明将充分揭示本发明的总体特征，以致本领域的技术人员可在无需过度实验且不背离本发明的总体构思的情况下针对不同应用轻易地进行修改和/或变更。因此，基于这里提出的教导和指导，此类修改和变更落入这里所揭露之实施例等同物的含义及范围内。应当了解，这里的用语或术语是出于描述目的而非限制本发明，因此本领域技术人员应根据教导及指导解释说明书中的用语或术语。

本发明的广度及范围不应当限于上述示例实施例，而应当仅依据下面的权利要求及其等同定义。

Claims

1.一种在图形处理单元GPU上处理工作项目的方法，包括：

改变由中央处理单元CPU写入于存储器内的多个缓冲区的优先顺序，以重新排序该多个缓冲区的执行顺序；

基于该改变的优先顺序选择该多个缓冲区的第一子集，以在GPU上执行该多个缓冲区的第一子集的工作项目，其中，该改变和该选择是响应于动态确定该GPU的工作量概况；以及

基于该重新排序的执行顺序在该GPU上执行该多个缓冲区的第一子集的该工作项目。

2.如权利要求1所述的方法，进一步包括：

在该改变之前，自该CPU接收该多个缓冲区的优先顺序，其中，该选择进一步包括改变该优先顺序以增加该GPU的处理组件的利用率。

3.如权利要求1所述的方法，其中，该执行包括：

在该GPU上执行该多个缓冲区的第一子集的第一缓冲区的工作项目；

确定第二缓冲区的工作项目将执行于该GPU上；

预先阻止该第一缓冲区的工作项目的执行；以及

在该GPU上启动该第二缓冲区的工作项目的执行。

4.如权利要求3所述的方法，其中，该预先阻止包括：

将该第一缓冲区的上下文保存至本地存储器中的上下文保存区。

5.如权利要求3所述的方法，其中，该确定包括：比较该第一缓冲区的工作项目的执行时间与预定时间片值。

6.如权利要求3所述的方法，其中，该确定包括：

监控该多个缓冲区的至少其中一者；以及

侦测优先级高于该第一缓冲区的该多个缓冲区的该至少其中一者中的工作项目。

7.如权利要求6所述的方法，其中，该监控包括：

读取由第二处理器写入的至少一个存储器位置；以及

基于自该至少一个存储器位置读取的值侦测命令写入事件。

8.如权利要求1所述的方法，其中，该选择是由该GPU执行并包括：

分析各该缓冲区中的工作项目；

确定各该缓冲区中的该工作项目的优先级；以及

基于该确定的优先级选择该多个缓冲区的第一子集。

9.如权利要求1所述的方法，进一步包括，使用系统存储器耦接至该中央处理单元CPU及该GPU以作为该存储器。

10.如权利要求1所述的方法，进一步包括，使用环形缓冲区作为该多个缓冲区的至少其中一者。

11.如权利要求1所述的方法，进一步包括，对在各该缓冲区的第一子集选择由该中央处理单元CPU写入的一个或多个命令缓冲区。

12.一种在图形处理单元GPU上执行工作项目的系统，该GPU经组构成：

基于该改变的优先顺序选择该多个缓冲区的第一子集，以在GPU上执行该第一子集的工作项目，其中，该改变和该选择是响应于动态确定该GPU的工作量概况；以及

13.如权利要求12所述的系统，其中，该GPU经进一步组构成：

在该改变之前，自该CPU接收该多个缓冲区的优先顺序。

14.如权利要求12所述的系统，其中，该GPU经进一步组构成：

执行该多个缓冲区的第一子集的第一缓冲区的工作项目；

确定将执行于该GPU上的第二缓冲区的工作项目；

预先阻止该第一缓冲区的工作项目的执行；以及

在该GPU上启动该第二缓冲区的工作项目的执行。

15.如权利要求14所述的系统，其中，该预先阻止包括：

16.如权利要求14所述的系统，其中，该确定包括：

监控该多个缓冲区的至少其中一者；以及

17.如权利要求12所述的系统，其中，该多个缓冲区的至少其中一者为环形缓冲区。

18.如权利要求12所述的系统，进一步包括：

该中央处理单元CPU；以及

该存储器，耦接至该CPU以及该GPU。

19.如权利要求12所述的系统，其中，该GPU包括：

本地存储器，经组构具有一个或多个上下文保存区。