CN110458905A

CN110458905A - 用于层级自适应曲面细分的设备和方法

Info

Publication number: CN110458905A
Application number: CN201910276611.1A
Authority: CN
Inventors: V.菲特林; G.利克托尔; K.瓦伊亚纳坦
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2018-05-07
Filing date: 2019-04-08
Publication date: 2019-11-15
Also published as: US10497173B2; US20190340812A1

Abstract

一种用于自适应层级曲面细分的系统和方法。例如，方法的一个实施例包括：曲面细分队列，用于存储要被曲面细分的第一图像帧的部分；运动向量分析电路，用于以多级粒度对多个图块中的每个图块内的多个子图块进行编组，其中第一级的子图块包括像素，并且每个连续级的子图块包括来自前一级的图块,运动向量分析电路用于以每级粒度迭代地分析每组子图块的运动向量以按照定义的阈值来确定运动向量是否相似，运动向量分析电路用于将具有被确定为不相似的子图块的图块排队到曲面细分队列。

Description

用于层级自适应曲面细分的设备和方法

技术领域

此发明一般涉及计算机处理器领域。更具体地说，本发明涉及用于层级自适应曲面细分的设备和方法。

背景技术

图像重投影技术被广泛用于计算机图形应用中，以通过利用跨图像的冗余来摊销图像合成的成本。应用的主要领域是时间着色再用/图形保真（antialiasing）和多视图合成。可以使用基于网格的重投影技术，其中基于源图像的三角测量来生成新颖的目标图像。基于网格的重投影的首要挑战是底层场景几何体（可见表面）的忠实表示，同时正确地处置由于观察视角或对象运动的改变而引起的视差效应。虽然网格的重投影是例如能基于速度场或差距图的相对简单直接的步骤，但是重投影的质量高度取决于网格的分辨率。

附图说明

从结合如下附图的如下详细描述中能获得本发明的更好的理解，附图中：

图1是带有具有一个或多个处理器核和图形处理器的处理器的计算机系统的实施例的框图；

图2是具有一个或多个处理器核、集成存储器控制器和集成图形处理器的处理器的一个实施例的框图；

图3是可以是分立图形处理单元或者可以是与多个处理核集成的图形处理器的图形处理器的一个实施例的框图；

图4是用于图形处理器的图形处理引擎的实施例的框图；

图5是图形处理器的另一实施例的框图；

图6是包含处理元件阵列的线程执行逻辑的框图；

图7图示了根据一实施例的图形处理器执行单元指令格式；

图8是包含图形管线、媒体管线、显示引擎、线程执行逻辑和渲染输出管线的图形处理器的另一实施例的框图；

图9A是图示根据一实施例的图形处理器命令格式的框图；

图9B是图示根据一实施例的图形处理器命令序列的框图；

图10图示了根据一实施例的用于数据处理系统的示范图形软件架构；

图11图示了可以被用于制造执行根据一实施例的操作的集成电路的示范IP核开发系统；

图12图示了根据一实施例可以使用一个或多个IP核制作的示范片上系统集成电路；

图13图示了可以使用一个或多个IP核制作的片上系统集成电路的示范图形处理器；

图14图示了可以使用一个或多个IP核制作的片上系统集成电路的附加示范图形处理器；

图15A-C图示了具有多个图形引擎/管线的本发明的不同实施例；

图16图示了对一个或多个管线阶段执行凹式控制的一个实施例；

图17图示了按照本发明的一个实施例执行的时间扭曲；

图18图示了具有自适应曲面细分的图形系统的一个实施例；

图19图示了包括运动向量分析以标识不同图块的一个实施例；

图20图示了使用每像素运动向量来管理曲面细分队列的示例；以及

图21图示了按照本发明一个实施例的方法。

具体实施方式

在以下描述中，为了解释的目的，阐述了众多特定细节以便提供对下面描述的本发明的实施例的透彻理解。然而，对本领域技术人员将明显的是，在没有这些特定细节中的一些细节的情况下可实践本发明的实施例。在其他实例中，众所周知的结构和装置以框图形式示出，以避免模糊本发明的实施例的基本原理。

示范性图形处理器架构和数据类型

系统概述

图1是根据一实施例的处理系统100的框图。在各种实施例中，系统100包含一个或多个处理器102和一个或多个图形处理器108，并且可以是单处理器桌上型系统、多处理器工作站系统或者具有大量处理器102或处理器核107的服务器系统。在一个实施例中，系统100是合并在片上系统（SoC）集成电路内以供移动、手持或嵌入式装置中使用的处理平台。

系统100的实施例能包含基于服务器的游戏平台、游戏控制台（包含游戏和媒体控制台、移动游戏控制台、手持游戏控制台或在线游戏控制台），或者被并入其中。在一些实施例中，系统100是移动电话、智能电话、平板计算装置或移动因特网装置。数据处理系统100还能包含可穿戴装置（诸如智能手表型可穿戴装置、智能眼镜装置、增强现实装置或虚拟现实装置），与其耦合，或者集成在其内。在一些实施例中，数据处理系统100是具有一个或多个处理器102以及由一个或多个图形处理器108生成的图形界面的电视或机顶盒装置。

在一些实施例中，一个或多个处理器102各包含一个或多个处理器核107以处理指令，所述指令当被执行时执行系统和用户软件的操作。在一些实施例中，一个或多个处理器核107中的每个都配置成处理特定指令集109。在一些实施例中，指令集109可促进复杂指令集计算（CISC）、精简指令集计算（RISC）或经由超长指令字(VLIW)的计算。多个处理器核107可各处理不同指令集109，其可包含促进其它指令集的仿真的指令。处理器核107还可包含其它处理装置，诸如数字信号处理器(DSP)。

在一些实施例中，处理器102包含高速缓冲存储器104。取决于架构，处理器102可具有单个内部高速缓存或多级内部高速缓存。在一些实施例中，高速缓冲存储器在处理器102的各种组件之间共享。在一些实施例中，处理器102还使用外部高速缓存（例如3级（L3）高速缓存或末级高速缓存（LLC））（未示出），其可使用已知高速缓存一致性技术在处理器核107之间共享。寄存器堆106此外被包含在处理器102中，处理器102可包含用于存储不同类型数据的不同类型寄存器（例如整数寄存器、浮点寄存器、状况寄存器和指令指针寄存器）。一些寄存器可以是通用寄存器，而其它寄存器可以特定于处理器102的设计。

在一些实施例中，处理器102与处理器总线110耦合以在处理器102和系统100中的其它组件之间传送通信信号，诸如地址、数据或控制信号。在一个实施例中，系统100使用示范“中枢”系统架构，包含存储器控制器中枢116和输入输出（I/O）控制器中枢130。存储器控制器中枢116促进存储器装置和系统100的其它组件之间的通信，而I/O控制器中枢（ICH）130提供经由本地I/O总线到I/O装置的连接。在一个实施例中，存储器控制器中枢116的逻辑被集成在处理器内。

存储器装置120能是动态随机存取存储器（DRAM）装置、静态随机存取存储器（SRAM）装置、闪存装置、相变存储器装置或者具有用于充当过程存储器的适合性能的某一其它存储器装置。在一个实施例中，存储器装置120能作为系统100的系统存储器操作，以存储数据122和指令121，以便在一个或多个处理器102执行应用或过程时使用。存储器控制器中枢116还与可选的外部图形处理器112耦合，外部图形处理器112可与处理器102中的一个或多个图形处理器108通信以执行图形和媒体操作。

在一些实施例中，ICH 130使外设能够经由高速I/O总线连接到存储器装置120和处理器102。I/O外设包含但不限于音频控制器146、固件接口128、无线收发器126（例如Wi-Fi、蓝牙）、数据存储装置124（例如硬盘驱动器、闪存等）以及用于将传统（例如个人系统2(PS/2)）装置耦合到系统的传统I/O控制器140。一个或多个通用串行总线（USB）控制器142连接输入装置，诸如键盘和鼠标144组合。网络控制器134也可与ICH 130耦合。在一些实施例中，高性能网络控制器（未示出）与处理器总线110耦合。将认识到，所示出的系统100是示范性的而非限制的，因为也可使用被不同地配置的其它类型数据处理系统。例如，I/O控制器中枢130可被集成在一个或多个处理器102内，或者存储器控制器中枢116和I/O控制器中枢130可被集成到分立外部图形处理器（诸如外部图形处理器112）中。

图2是具有一个或多个处理器核202A-202N、集成存储器控制器214和集成图形处理器208的处理器200的实施例的框图。具有与本文任何其它附图的元件相同的附图标记（或者名称）的图2的那些元件能以与本文别处所描述的方式相似的任何方式操作或起作用，但不限于此。处理器200能包含附加的核，多达并且包含由虚线框表示的附加核202N。处理器核202A-202N的每个都包含一个或多个内部高速缓存单元204A-204N。在一些实施例中，每个处理器核还可以对一个或多个共享高速缓存单元206进行存取。

内部高速缓存单元204A-204N和共享高速缓存单元206表示处理器200内的高速缓冲存储器层级。高速缓冲存储器层级可包含每个处理器核内的至少一级指令和数据高速缓存以及一级或多级共享中间级高速缓存（诸如2级(L2)、3级(L3)、4级(L4)或其它级高速缓存），其中在外部存储器之前的最高级高速缓存被分类为LLC。在一些实施例中，高速缓存一致性逻辑保持各种高速缓存单元206和204A-204N之间的一致性。

在一些实施例中，处理器200还可包含一个或多个总线控制器单元216的集合和系统代理核210。一个或多个总线控制器单元216管理外设总线的集合，诸如一个或多个外设组件互连总线（例如PCI、PCI Express）。系统代理核210提供各种处理器组件的管理功能性。在一些实施例中，系统代理核210包含一个或多个集成存储器控制器214以管理对各种外部存储器装置（未示出）的存取。

在一些实施例中，处理器核202A-202N中的一个或多个包含对于同时多线程的支持。在此类实施例中，系统代理核210包含用于在多线程处理期间协调和操作核202A-202N的组件。系统代理核210此外可包含功率控制单元（PCU），其包含调节图形处理器208和处理器核202A-202N的功率状态的组件和逻辑。

在一些实施例中，处理器200此外包含用于执行图形处理操作的图形处理器208。在一些实施例中，图形处理器208与共享高速缓存单元206的集合以及系统代理核210耦合，系统代理核210包含一个或多个集成存储器控制器214。在一些实施例中，显示器控制器211与图形处理器208耦合以将图形处理器输出驱动到一个或多个耦合的显示器。在一些实施例中，显示器控制器211可以是经由至少一个互连与图形处理器耦合的单独模块，或者可被集成在图形处理器208或系统代理核210内。

在一些实施例中，使用基于环的互连单元212耦合处理器200的内部组件。然而，可使用备选互连单元，诸如点对点互连、交换互连或者其它技术，包含本领域众所周知的技术。在一些实施例中，图形处理器208经由I/O链路213与环互连212耦合。

示范I/O链路213表示多种I/O互连中的至少一种，包含封装上I/O互连，其促进各种处理器组件和高性能嵌入式存储器模块218（诸如eDRAM模块）之间的通信。在一些实施例中，处理器核202A-202N和图形处理器208中的每个都使用嵌入式存储器模块218作为共享末级高速缓存。

在一些实施例中，处理器核202A-202N是执行相同指令集架构的同质核。在另一实施例中，处理器核202A-202N在指令集架构(ISA)方面是异质的，其中处理器核202A-202N中的一个或多个执行第一指令集，而其它核中的至少一个执行不同指令集或者第一指令集的子集。在一个实施例中，处理器核202A-202N在微架构方面是异质的，其中具有相对更高功耗的一个或多个核与具有较低功耗的一个或多个功率核耦合。此外，处理器200能被实现在一个或多个芯片上，或者实现为具有图示的组件还有其它组件的SoC集成电路。

图3是图形处理器300的框图，其可以是分立图形处理单元，或者可以是与多个处理核集成的图形处理器。在一些实施例中，图形处理器经由到图形处理器上的寄存器的存储器映射的I/O接口并用放入处理器存储器中的命令进行通信。在一些实施例中，图形处理器300包含存取存储器的存储器接口314。存储器接口314能是到本地存储器、一个或多个内部高速缓存、一个或多个共享外部高速缓存和/或系统存储器的接口。

在一些实施例中，图形处理器300还包含显示器控制器302以将显示器输出数据驱动到显示器装置320。显示器控制器302包含用于用户界面元素或视频的多层的合成以及显示的一个或多个覆盖平面的硬件。在一些实施例中，图形处理器300包含视频编解码器引擎306以将媒体编码、解码或译码成一种或多种媒体编码格式、将媒体从一种或多种媒体编码格式进行编码、解码或译码或者在一种或多种媒体编码格式之间对媒体进行编码、解码或译码，所述编码格式包含但不限于运动画面专家组（MPEG）格式（诸如MPEG-2）、高级视频编码（AVC）格式（诸如H.264/MPEG-4 AVC）、以及运动画面与电视工程师学会(SMPTE) 421M/VC-1和联合影像专家组(JPEG)格式（诸如JPEG）以及运动JPEG (MJPEG)格式。

在一些实施例中，图形处理器300包含块图像转移（BLIT）引擎304以执行二维(2D)光栅化器操作，例如包含位边界块转移。然而，在一个实施例中，使用图形处理引擎(GPE)310的一个或多个组件执行2D图形操作。在一些实施例中，GPE 310是用于执行图形操作（包含三维（3D）图形操作和媒体操作）的计算引擎。

在一些实施例中，GPE 310包含用于执行3D操作（诸如使用对3D基元形状（例如长方形、三角形等）起作用的处理功能渲染三维图像和场景）的3D管线312。3D管线312包含可编程和固定功能元件，它们执行元件内的各种任务，和/或产生到3D/媒体子系统315的执行线程。虽然3D管线312能用于执行媒体操作，但GPE 310的实施例还包含特别地用于执行诸如视频后处理和图像增强的媒体操作的媒体管线316。

在一些实施例中，媒体管线316包含固定功能或可编程逻辑单元，以代替或代表视频编解码器引擎306执行一个或多个专用媒体操作，诸如视频解码加速、视频去交织以及视频编码加速。在一些实施例中，媒体管线316此外包含线程产生单元，以产生用于在3D/媒体子系统315上执行的线程。所产生的线程执行用于包含在3D/媒体子系统315中的一个或多个图形执行单元上的媒体操作的计算。

在一些实施例中，3D/媒体子系统315包含用于执行由3D管线312和媒体管线316产生的线程的逻辑。在一个实施例中，管线将线程执行请求发送到3D媒体子系统315，其包含用于仲裁和分派各种请求给可用的线程执行资源的线程分派逻辑。执行资源包含处理3D和媒体线程的图形执行单元阵列。在一些实施例中，3D/媒体子系统315包含用于线程指令和数据的一个或多个内部高速缓存。在一些实施例中，子系统还包含共享存储器，包含寄存器和可寻址存储器，以在线程之间共享数据以及以存储输出数据。

图形处理引擎

图4是按照一些实施例的图形处理器的图形处理引擎410的框图。在一个实施例中，图形处理引擎(GPE)410是在图3中示出的GPE 310的版本。具有与本文任何其它附图的元件相同的附图标记（或者名称）的图4的元件能以与本文别处所描述的方式相似的任何方式操作或起作用，但不限于此。例如，图示了图3的3D管线312和媒体管线316。媒体管线316在GPE410的一些实施例中是可选的，并且可以不显式地包含在GPE 410内。例如，并且在至少一个实施例中，单独的媒体和/或图像处理器耦合到PGE 410。

在一些实施例中，GPE 410与命令流播器403耦合或包含命令流播器403，命令流播器403将命令流提供给3D管线312和/或媒体管线316。在一些实施例中，命令流播器403与存储器耦合，存储器能是系统存储器，或者内部高速缓冲存储器和共享高速缓冲存储器中的一个或多个。在一些实施例中，命令流播器403从存储器接收命令，并将命令发送到3D管线312和/或媒体管线316。命令是从环缓冲器提取的指示，环缓冲器存储用于3D管线312和媒体管线316的命令。在一个实施例中，环缓冲器此外能包含存储批量多命令的批命令缓冲器。用于3D管线312的命令也能包含对存储在存储器中的数据的参考，诸如但不限于用于3D管线312的顶点和几何数据和/或用于媒体管线316的图像数据和存储器对象。3D管线312和媒体管线316通过经由相应管线内的逻辑执行操作或者通过向图形核阵列414分派一个或多个执行线程来处理命令和数据。

在各种实施例中，3D管线312能通过处理指令并向图形核阵列414分派执行线程来执行一个或多个着色器程序，诸如顶点着色器、几何着色器、像素着色器、片段着色器、计算着色器或其它着色器程序。图形核阵列414提供执行资源的统一块。图形核阵列414内的多目的执行逻辑（例如执行单元）包含对于各种3D API着色器语言的支持，并且能执行与多个着色器关联的多个同时执行线程。

在一些实施例中，图形核阵列414还包含执行媒体功能（诸如视频和/或图像处理）的执行逻辑。在一个实施例中，执行单元此外包含可编程为除图形处理操作之外还执行并行通用计算操作的通用逻辑。通用逻辑能并行或者与如图2中的核202A-202N或图1的(一个或多个)处理器核107内的通用逻辑共同执行处理操作。

由在图形核阵列414上执行的线程所生成的输出数据能将数据输出到统一返回缓冲器(URB)418中的存储器。URB 418能存储用于多个线程的数据。在一些实施例中，URB 418可用于在图形核阵列414上执行的不同线程之间发送数据。在一些实施例中，URB 418此外可用于在共享功能逻辑420内的固定功能逻辑和图形核阵列上的线程之间的同步。

在一些实施例中，图形核阵列414是可缩放的，使得阵列包含可变数量的图形核，每个图形核都具有基于GPE 410的目标功率和性能级别的可变数量的执行单元。在一个实施例中，执行资源动态可缩放，使得执行资源可根据需要被启用或禁用。

图形核阵列414与包含在图形核阵列中的图形核之间共享的多个资源的共享功能逻辑420耦合。共享功能逻辑420内的共享功能是向图形核阵列414提供专用补充功能性的硬件逻辑单元。在各种实施例中，共享功能逻辑420包含但不限于采样器421、数学422和线程间通信（ITC）423逻辑。此外，一些实施例实现共享功能逻辑420内的一个或多个高速缓存425。在对于给定专用功能的需求对于包含在图形核阵列414内是不足的的情况下实现共享功能。转而，该专用功能的单个实例化被实现为共享功能逻辑420中的独立实体，并且在图形核阵列414内的执行资源之间共享。在图形核阵列414之间共享并且包含在图形核阵列414内的功能的精确集合在实施例之间变化。

图5是图形处理器500的另一实施例的框图。具有与本文任何其它附图的元件相同的附图标记（或者名称）的图5的元件能以与本文别处所描述的方式相似的任何方式操作或起作用，但不限于此。

在一些实施例中，图形处理器500包含环互连502、管线前端504、媒体引擎537和图形核580A-580N。在一些实施例中，环互连502将图形处理器耦合到其它处理单元，包含其它图形处理器或一个或多个通用处理器核。在一些实施例中，图形处理器是集成在多核处理系统内的许多处理器中的一个。

在一些实施例中，图形处理器500经由环互连502接收批量命令。传入命令由管线前端504中的命令流播器503解释。在一些实施例中，图形处理器500包含可缩放执行逻辑以经由(一个或多个)图形核580A-580N执行3D几何处理和媒体处理。对于3D几何处理命令，命令流播器503将命令供应给几何管线536。对于至少一些媒体处理命令，命令流播器503将命令供应给视频前端534，其与媒体引擎537耦合。在一些实施例中，媒体引擎537包含用于视频和图像后处理的视频质量引擎(VQE)530以及提供硬件加速的媒体数据编码和解码的多格式编码/解码(MFX)533引擎。在一些实施例中，几何管线536和媒体引擎537各生成用于由至少一个图形核580A提供的线程执行资源的执行线程。

在一些实施例中，图形处理器500包含以模块化核580A-580N（有时称为核切片）为特征的可缩放线程执行资源，每个模块化核具有多个子核550A-550N、560A-560N（有时称为核子切片）。在一些实施例中，图形处理器500能具有任何数量的图形核580A至580N。在一些实施例中，图形处理器500包含具有至少第一子核550A和第二子核560A的图形核580A。在其它实施例中，图形处理器是具有单个子核（例如550A）的低功率处理器。在一些实施例中，图形处理器500包含多个图形核580A-580N，每个图形核包含第一子核550A-550N的集合和第二子核560A-560N的集合。第一子核550A-550N的集合中的每个子核包含至少执行单元552A-552N和媒体/纹理采样器554A-554N的第一集合。第二子核560A-560N的集合中的每个子核包含至少执行单元562A-562N和采样器564A-564N的第二集合。在一些实施例中，每个子核550A-550N、560A-560N共享共享资源570A-570N的集合。在一些实施例中，共享资源包含共享高速缓冲存储器和像素操作逻辑。其它共享资源也可包含在图形处理器的各种实施例中。

执行单元

图6图示了包含在GPE的一些实施例中采用的处理元件阵列的线程执行逻辑600。具有与本文任何其它附图的元件相同的附图标记（或者名称）的图6的元件能以与本文别处所描述的方式相似的任何方式操作或起作用，但不限于此。

在一些实施例中，线程执行逻辑600包含着色器处理器602、线程分派器604、指令高速缓存606、包含多个执行单元608A-608N的可缩放执行单元阵列、采样器610、数据高速缓存612和数据端口614。在一个实施例中，可缩放执行单元阵列能通过基于工作负载的计算要求启用或禁用一个或多个执行单元（例如，执行单元608A、608B、608C、608D至608N-1和608N中的任何一个）来动态缩放。在一个实施例中，所包含的组件经由链接到每一个组件的互连组构被互连。在一些实施例中，线程执行逻辑600包含通过指令高速缓存606、数据端口614、采样器610和执行单元608A-608N中的一个或多个到存储器（诸如系统存储器或高速缓冲存储器）的一个或多个连接。在一些实施例中，每个执行单元（例如608A）是独立的可编程通用计算单元，其能够执行多个同时的硬件线程，同时为每个线程并行处理多个数据元素。在各种实施例中，执行单元608A-608N的阵列可缩放以包括任何数量的单独执行单元。

在一些实施例中，执行单元608A-608N首要用于执行着色器程序。着色器处理器602能处理各种着色器程序，并经由线程分派器604分派与着色器程序相关联的执行线程。在一个实施例中，线程分派器包含用于仲裁来自图形和媒体管线的线程发起请求并在执行单元608A-608N中的一个或多个执行单元上实例化所请求的线程的逻辑。例如，几何管线（例如，图5的536）能将顶点、曲面细分或几何着色器分派给线程执行逻辑600（图6）以用于进行处理。在一些实施例中，线程分派器604还能处理来自正在执行的着色器程序的运行时间线程产生请求。

在一些实施例中，执行单元608A-608N支持包含对于许多标准3D图形着色器指令的原生支持的指令集，使得用最少的翻译执行来自图形库（例如Direct3D和OpenGL）的着色器程序。执行单元支持顶点和几何处理（例如顶点程序、几何程序、顶点着色器）、像素处理（例如像素着色器、片段着色器）和通用处理（例如计算和媒体着色器）。每个执行单元608A-608N能够进行多发单指令多数据（SIMD）执行，并且多线程操作在面对更高时延的存储器存取时实现有效的执行环境。每个执行单元内的每个硬件线程都具有专用高带宽寄存器堆和关联的独立线程状态。对于能够进行整数、单精度和双精度浮点运算、SIMD分支能力、逻辑运算、超越运算和其他混杂运算的管线，执行每时钟多发。在等待来自存储器或共享功能之一的数据时，执行单元608A-608N内的相关性逻辑使等待线程休眠，直到所请求的数据已经被返回。在等待线程休眠时，硬件资源可致力于处理其他线程。例如，在与顶点着色器操作关联的延迟期间，执行单元能执行对于像素着色器、片段着色器或其他类型着色器程序（包含不同的顶点着色器）的操作。

执行单元608A-608N中的每个执行单元都操作在数据元素阵列上。数据元素的数量是“执行大小”，或者用于指令的通道数量。执行通道是用于指令内的流程控制、掩蔽、数据元素访问的执行的逻辑单元。通道的数量可独立于用于具体图形处理器的浮点单元（FPU）或物理算术逻辑单元（ALU）的数量。在一些实施例中，执行单元608A-608N支持整数和浮点数据类型。

执行单元指令集包含SIMD指令。各种数据元素能作为紧缩数据类型存储在寄存器中，并且执行单元将基于元素的数据大小处理各种元素。例如，当对256位宽向量操作时，向量的256位被存储在寄存器中，并且执行单元对作为4个单独的64位紧缩数据元素（四字（QW）大小数据元素）、8个单独的32位紧缩数据元素（双字（DW）大小数据元素）、16个单独的16位紧缩数据元素（字（W）大小数据元素）或32个单独的8位数据元素（字节（B）大小数据元素）的向量操作。然而，不同的向量宽度和寄存器大小是有可能的。

一个或多个内部指令高速缓存（例如606）被包含在线程执行逻辑600中以高速缓存用于执行单元的线程指令。在一些实施例中，包含一个或多个数据高速缓存（例如612）以在线程执行期间高速缓存线程数据。在一些实施例中，包含采样器610以提供用于3D操作的纹理采样和用于媒体操作的媒体采样。在一些实施例中，采样器610包含专用纹理或媒体采样功能性，以在向执行单元提供采样数据之前在采样过程期间处理纹理或媒体数据。

在执行期间，图形和媒体管线经由线程产生和分派逻辑向线程执行逻辑600发送线程发起请求。一旦一组几何对象已经被处理，并且光栅化成像素数据，就调用着色器处理器602内的像素处理器逻辑（例如像素着色器逻辑、片段着色器逻辑等）以进一步计算输出信息，并使结果被写到输出接口（例如颜色缓冲器、深度缓冲器、模板缓冲器等）。在一些实施例中，像素着色器或片段着色器计算要跨光栅化对象内插的各种顶点属性的值。在一些实施例中，着色器处理器602内的像素处理器逻辑然后执行应用编程接口API供应的像素或片段着色器程序。为了执行着色器程序，着色器处理器602经由线程分派器604向执行单元（例如608A）分派线程。在一些实施例中，像素着色器602使用采样器610中的纹理采样逻辑存取存储在存储器中的纹理映射中的纹理数据。对纹理数据和输入几何数据的算术运算计算用于每个几何片段的像素颜色数据，或者从进一步的处理中丢弃一个或多个像素。

在一些实施例中，数据端口614提供用于线程执行逻辑600将处理的数据输出到存储器以便在图形处理器输出管线上进行处理的存储器存取机制。在一些实施例中，数据端口614包含或耦合到一个或多个高速缓冲存储器（例如数据高速缓存612），以高速缓存数据以便经由数据端口进行存储器存取。

图7是图示根据一些实施例的图形处理器指令格式700的框图。在一个或多个实施例中，图形处理器执行单元支持具有以多种格式的指令的指令集。实线框图示了一般被包含在执行单元指令中的组件，而虚线包含可选的或者仅包含在指令的子集中的组件。在一些实施例中，图示和描述的指令格式700是宏指令，因为它们是供应给执行单元的指令，与一旦指令被处理则源自于指令解码的微操作相反。

在一些实施例中，图形处理器执行单元原生支持以128位指令格式710的指令。64位紧凑指令格式730基于选择的指令、指令选项和操作数的数量，对于一些指令可用。原生128位指令格式710提供对所有指令选项的存取，而一些选项和操作在64位指令格式730中被限制。在64位指令格式730中可用的原生指令按实施例变化。在一些实施例中，部分使用索引字段713中的索引值的集合使指令紧凑。执行单元硬件参考基于索引值的紧凑表的集合，并使用紧凑表输出来重构以128位指令格式710的原生指令。

对于每种格式，指令操作码712定义执行单元要执行的操作。执行单元跨每个操作数的多数据元素并行执行每个指令。例如，响应于加指令，执行单元跨表示纹理元素或画面元素的每个颜色通道，执行同时加操作。默认，执行单元跨操作数的所有数据通道执行每个指令。在一些实施例中，指令控制字段71能够实现对某些执行选项（诸如通道选择（例如预测）和数据通道次序（例如搅和）进行控制。对于以128位指令格式710的指令，执行大小字段716限制将并行执行的数据通道的数量。在一些实施例中，执行大小字段716不可用于在64位紧凑指令格式730中使用。

一些执行单元指令具有多达3个操作数，包含2个源操作数、src0 720、src1 722和一个目的地718。在一些实施例中，执行单元支持双目的地指令，其中暗示目的地之一。数据操纵指令能具有第三源操作数（例如SRC2 724），其中指令操作码712确定源操作数的数量。指令的最后一个源操作数能是用指令传递的立即数（例如硬编码）值。

在一些实施例中，128位指令格式710包含例如指定是使用直接寄存器寻址模式还是间接寄存器寻址模式的存取/寻址模式字段726。当使用直接寄存器寻址模式时，一个或多个操作数的寄存器地址由指令中的位直接提供。

在一些实施例中，128位指令格式710包含存取/寻址模式字段726，其指定用于指令的寻址模式和/或存取模式。在一个实施例中，使用存取模式定义用于指令的数据存取对齐。一些实施例支持包含16字节对齐的存取模式和1字节对齐的存取模式的存取模式，其中存取模式的字节对齐确定指令操作数的存取对齐。例如，当在第一模式中时，指令对于源和目的地操作数可使用字节对齐的寻址，而当在第二模式中时，指令对于所有源和目的地操作数可使用16字节对齐的寻址。

在一个实施例中，存取/寻址模式字段726的寻址模式部分确定指令是使用直接还是间接寻址。当使用直接寄存器寻址模式时，指令中的位直接提供一个或多个操作数的寄存器地址。当使用间接寄存器寻址模式时，可基于指令中的地址立即数字段和地址寄存器值计算一个或多个操作数的寄存器地址。

在一些实施例中，指令基于操作码712位字段被编组以简化操作码解码740。对于8位操作码，位4、5和6允许执行单元确定操作码类型。示出的精确操作码编组仅仅是示例。在一些实施例中，移动和逻辑操作码组742包含数据移动和逻辑指令（例如移动（mov）、比较（cmp））。在一些实施例中，移动和逻辑组742共享5个最高有效位（MSB），其中移动(mov)指令以0000xxxxb形式，而逻辑指令以0001xxxxb形式。流程控制指令组744（例如调用、跳（jmp)）包含以0010xxxxb(例如0x20)形式的指令。混杂指令组746包含指令的混合，包含以0011xxxxb(例如0x30)形式的同步指令（例如等待、发送）。并行数学指令组748包含以0100xxxxb(例如0x40)形式的逐个分量的算术指令（例如加、乘(mul)）。并行数学组748跨数据通道并行执行算术操作。向量数学组750包含以0101xxxxb(例如0x50)形式的算术指令（例如dp4）。向量数学组执行诸如向量操作数上的点积计算的算术。

图形管线

图8是图形处理器800的另一实施例的框图。具有与本文任何其它附图的元件相同的附图标记（或者名称）的图8的元件能以与本文别处所描述的方式相似的任何方式操作或起作用，但不限于此。

在一些实施例中，图形处理器800包含图形管线820、媒体管线830、显示器引擎840、线程执行逻辑850和渲染输出管线870。在一些实施例中，图形处理器800是包含一个或多个通用处理核的多核处理系统内的图形处理器。图形处理器由到一个或多个控制寄存器（未示出）的寄存器写控制，或通过经由环互连802向图形处理器800发出的命令控制。在一些实施例中，环互连802将图形处理器800耦合到其它处理组件，诸如其它图形处理器或通用处理器。来自环互连802的命令由命令流播器803解释，命令流播器2503将指令供应给媒体管线830或图形管线820的各个组件。

在一些实施例中，命令流播器803指导顶点提取器805的操作，顶点提取器从存储器读取顶点数据，并执行由命令流播器803提供的顶点处理命令。在一些实施例中，顶点提取器805将顶点数据提供给顶点着色器807，顶点着色器807对每个顶点执行协调空间变换和照明操作。在一些实施例中，顶点提取器805和顶点着色器807通过经由线程分派器831向执行单元852A-852B分派执行线程来执行顶点处理指令。

在一些实施例中，执行单元852A-852B是具有用于执行图形和媒体操作的指令集的向量处理器阵列。在一些实施例中，执行单元852A-852B具有附连的L1高速缓存851，其对于每个阵列是特定的，或者在阵列之间共享。高速缓存能被配置为数据高速缓存、指令高速缓存或单个高速缓存，其被分区成在不同分区中含有数据和指令。

在一些实施例中，图形管线820包含曲面细分组件以执行3D对象的硬件加速曲面细分。在一些实施例中，可编程外壳着色器811配置曲面细分操作。可编程域着色器817提供曲面细分输出的后端评估。曲面细分器813在外壳着色器811的方向操作，并且含有专用逻辑以基于作为到图形管线820的输入提供的粗略几何模型生成详细的几何对象的集合。在一些实施例中，如果未使用曲面细分，则能旁路曲面细分组件（例如外壳着色器811、曲面细分器813和域着色器817）。

在一些实施例中，完整几何对象能经由分派给执行单元852A-852B的一个或多个线程由几何着色器819进行处理，或者能直接前往修剪器829。在一些实施例中，几何着色器对整个几何对象操作，而不是如在图形管线的先前阶段中那样对顶点或顶点的贴片操作。如果曲面细分被禁用，则几何着色器819从顶点着色器807接收输入。在一些实施例中，如果曲面细分单元被禁用，则几何着色器819由几何着色器程序可编程以执行几何曲面细分。

在光栅化之前，修剪器829处理顶点数据。修剪器829可以是具有修剪和几何着色器功能的可编程修剪器或固定功能修剪器。在一些实施例中，渲染输出管线870中的光栅化器和深度测试组件873分派像素着色器以将几何对象转换成它们的按像素表示。在一些实施例中，像素着色器逻辑被包含在线程执行逻辑850中。在一些实施例中，应用能旁路光栅化器和深度测试组件873，并经由流出单元823存取未光栅化的顶点数据。

图形处理器800具有互连总线、互连组构或允许数据和消息在处理器的主要组件之间传递的某一其它互连机制。在一些实施例中，执行单元852A-852B和(一个或多个)关联的高速缓存851、纹理和媒体采样器854以及纹理/采样器高速缓存858经由数据端口856互连以执行存储器存取，并与处理器的渲染输出管线组件通信。在一些实施例中，采样器854、高速缓存851、858和执行单元852A-852B各具有单独的存储器存取路径。

在一些实施例中，渲染输出管线870含有光栅化器和深度测试组件873，其将基于顶点的对象转换成关联的基于像素的表示。在一些实施例中，光栅化器逻辑包含视窗/掩蔽器单元以执行固定功能三角或线光栅化。在一些实施例中，关联的渲染高速缓存878和深度高速缓存879也是可用的。像素操作组件877对数据执行基于像素的操作，不过在一些实例中，与2D操作关联的像素操作（例如具有混合的位块图像传送）由2D引擎841执行，或者使用覆盖显示器平面由显示器控制器843在显示时间替代。在一些实施例中，共享L3高速缓存875对所有图形组件可用，允许在不使用主系统存储器的情况下共享数据。

在一些实施例中，图形处理器媒体管线830包含媒体引擎837和视频前端834。在一些实施例中，视频前端834从命令流播器803接收管线命令。在一些实施例中，媒体管线830包含单独的命令流播器。在一些实施例中，在将命令发送到媒体引擎837之前，视频前端834处理媒体命令。在一些实施例中，媒体引擎837包含线程产生功能性以产生用于经由线程分派器831分派到线程执行逻辑850的线程。

在一些实施例中，图形处理器800包含显示器引擎840。在一些实施例中，显示器引擎840在处理器800外部，并经由环互连802或某一其它互连总线或组构与图形处理器耦合。在一些实施例中，显示器引擎840包含2D引擎841和显示器控制器843。在一些实施例中，显示器引擎840含有能够独立于3D管线操作的专用逻辑。在一些实施例中，显示器控制器843与显示器装置（未示出）耦合，显示器装置可是系统集成的显示器装置，如在膝上型计算机中，或者是经由显示器装置连接器附连的外部显示器装置。

在一些实施例中，图形管线820和媒体管线830可配置成基于多个图形和媒体编程接口执行操作，并且不特定于任一个应用编程接口（API）。在一些实施例中，用于图形处理器的驱动器软件将特定于具体图形或媒体库的API调用翻译成能由图形处理器处理的命令。在一些实施例中，为全都来自Khronos Group的开放图形库（OpenGL）、开放计算语言（OpenCL）和/或Vulkan图形和计算API提供支持。在一些实施例中，还可以为来自微软公司的Direct3D库提供支持。在一些实施例中，可以支持这些库的组合。还可以为开放源计算机视觉库(OpenCV)提供支持。如果能从将来API的管线向图形处理器的管线进行映射，则也将支持具有可兼容3D管线的将来API。

图形管线编程

图9A是图示根据一些实施例的图形处理器命令格式900的框图。图9B是图示根据一实施例的图形处理器命令序列910的框图。图9A中的实线框图示了一般被包含在图形命令中的组件，而虚线包含可选的或者仅被包含在图形命令的子集中的组件。图9A的示范性图形处理器命令格式900包含数据字段以标识命令的目标客户端902、命令操作代码（操作码）904以及命令的相关数据906。在一些命令中还包含子操作码905和命令大小908。

在一些实施例中，客户端902指定处理命令数据的图形装置的客户端单元。在一些实施例中，图形处理器命令解析器检查每个命令的客户端字段，以调节命令的进一步处理，并将命令数据路由到适当客户端单元。在一些实施例中，图形处理器客户端单元包含存储器接口单元、渲染单元、2D单元、3D单元和媒体单元。每个客户端单元都具有处理命令的对应处理管线。一旦客户端单元接收到命令，客户端单元就读取操作码904，还有子操作码905（如果存在的话），以确定要执行的操作。客户端单元使用数据字段906中的信息执行命令。对于一些命令，期望明确命令大小908指定命令的大小。在一些实施例中，命令解析器基于命令操作码自动确定至少一些命令的大小。在一些实施例中，命令经由多倍双字对齐。

图9B中的流程图示出了示范图形处理器命令序列910。在一些实施例中，以图形处理器的实施例为特征的数据处理系统的软件或固件使用示出的命令序列的版本来设立、执行和终止图形操作的集合。仅为了示例目的示出并描述了样本命令序列，因为实施例不限于这些特定命令或者此命令序列。而且，命令可作为命令序列中的批量命令发出，使得图形处理器将以至少部分同时发生的方式处理命令序列。

在一些实施例中，图形处理器命令序列910可开始于管线转储清除命令912，以使任何活动图形管线完成用于管线的当前未决命令。在一些实施例中，3D管线922和媒体管线924不同时操作。执行管线转储清除以使活动图形管线完成任何未决命令。响应于管线转储清除，用于图形处理器的命令解析器将暂停命令处理，直到活动绘画引擎完成未决操作，并使相关读高速缓存无效。可选地，被标记为“脏”的渲染高速缓存中的任何数据能被转储清除到存储器。在一些实施例中，对于管线同步，或者在使图形处理器处于低功率状态之前，能使用管线转储清除命令912。

在一些实施例中，当命令序列要求图形处理器在管线之间明确切换时，使用管线选择命令913。在一些实施例中，管线选择命令913在发出管线命令之前在执行上下文内仅需要一次，除非上下文是发出用于两个管线的命令。在一些实施例中，就在经由管线选择命令913的管线切换之前，需要管线转储清除命令912。

在一些实施例中，管线控制命令914配置图形管线以便操作，并且用于对3D管线922和媒体管线924编程。在一些实施例中，管线控制命令914配置对于活动管线的管线状态。在一个实施例中，管线控制命令914被用于管线同步，并且用于在处理一批命令之前，从活动管线内的一个或多个高速缓冲存储器中清除数据。

在一些实施例中，用于返回缓冲器状态916的命令用于配置相应管线的一组返回缓冲器以写数据。一些管线操作需要分配、选择或配置在处理期间操作将中间数据写到的一个或多个返回缓冲器。在一些实施例中，图形处理器还使用一个或多个返回缓冲器来存储输出数据，并执行交叉线程通信。在一些实施例中，配置返回缓冲器状态916包含选择要用于管线操作的集合的返回缓冲器的大小和数量。

命令序列中的剩余命令基于操作的活动管线而不同。基于管线确定920，命令序列被剪裁成开始于3D管线状态930的3D管线922，或者开始于媒体管线状态940的媒体管线924。

配置3D管线状态930的命令包含用于顶点缓冲器状态、顶点元素状态、恒定颜色状态、深度缓冲器状态以及在处理3D基元命令之前要配置的其它状态变量的3D状态设置命令。这些命令的值至少部分基于在使用的具体3D API来确定。在一些实施例中，3D管线状态930命令也能够选择性地禁用或旁路某些管线元素，如果那些元素不使用的话。

在一些实施例中，3D基元932命令用于提交要由3D管线处理的3D基元。经由3D基元932命令传递到图形处理器的命令和关联的参数被转发到图形管线中的顶点提取功能。顶点提取功能使用3D基元932命令数据生成顶点数据结构。顶点数据结构被存储在一个或多个返回缓冲器中。在一些实施例中，3D基元932命令用于经由顶点着色器对3D基元执行顶点操作。为了处理顶点着色器，3D管线922将着色器执行线程分派给图形处理器执行单元。

在一些实施例中，3D管线922经由执行934命令或事件触发。在一些实施例中，寄存器写触发命令执行。在一些实施例中，经由命令序列中的“go”或“kick”命令触发执行。在一个实施例中，使用管线同步命令触发命令执行以转储清除命令序列通过图形管线。3D管线将执行对于3D基元的几何处理。一旦操作完成，所得到的几何对象被光栅化，并且像素引擎将所得到的像素上色。对于那些操作也可包含控制像素着色和像素后端操作的附加命令。

在一些实施例中，当执行媒体操作时，图形处理器命令序列910遵循媒体管线924路径。一般而言，对于媒体管线924的编程的特定使用和方式取决于要执行的媒体或计算操作。特定媒体解码操作可在媒体解码期间被卸载到媒体管线。在一些实施例中，媒体管线也能被旁路，并且媒体解码能全部或部分使用由一个或多个通用处理核提供的资源执行。在一个实施例中，媒体管线还包含用于通用图形处理器单元(GPGPU)操作的元素，其中图形处理器用于使用与图形基元的渲染不明确相关的计算着色器程序来执行SIMD向量操作。

在一些实施例中，媒体管线924以与3D管线922相似的方式进行配置。配置媒体管线状态940的命令的集合被分派或放入命令队列中在媒体对象命令942前面。在一些实施例中，用于媒体管线状态940的命令包含配置将用于处理媒体对象的媒体管线元素的数据。这包含配置媒体管线内的视频解码和视频编码逻辑的数据，诸如编码或解码格式。在一些实施例中，用于媒体管线状态940的命令还支持将一个或多个指针用于含有一批状态设置的“间接”状态元素。

在一些实施例中，媒体对象命令942将指针供应给媒体对象以便由媒体管线进行处理。媒体对象包含含有要处理的视频数据的存储器缓冲器。在一些实施例中，在发出媒体对象命令942之前，所有媒体管线状态都必须是有效的。一旦配置了管线状态并且对媒体对象命令942排队，就经由执行命令944或等效的执行事件（例如寄存器写）触发媒体管线924。来自媒体管线924的输出然后可通过由3D管线922或媒体管线924提供的操作进行后处理。在一些实施例中，GPGPU操作以与媒体操作相似的方式配置和执行。

图形软件架构

图10图示了根据一些实施例用于数据处理系统1000的示范图形软件架构。在一些实施例中，软件架构包含3D图形应用1010、操作系统1020和至少一个处理器1030。在一些实施例中，处理器1030包含图形处理器1032和一个或多个通用处理器核1034。图形应用1010和操作系统1020各在数据处理系统的系统存储器1050中执行。

在一些实施例中，3D图形应用1010含有包含着色器指令1012的一个或多个着色器程序。着色器语言指令可以用高级着色器语言，诸如高级着色器语言(HLSL)或OpenGL着色器语言(GLSL)。应用还包含用适合于由通用处理器核1034执行的机器语言的可执行指令1014。应用还包含由顶点数据定义的图形对象1016。

在一些实施例中，操作系统1020是来自微软公司的Microsoft® Windows®操作系统、专有的类UNIX操作系统或使用Linux内核的变形的开放源类UNIX操作系统。操作系统1020能支持图形API 1022，诸如Direct3D API、OpenGL API或Vulkan API。当Direct3D API在使用时，操作系统1020使用前端着色器编译器1024将HLSL中的任何着色器指令1012编译成较低级着色器语言。编译可以是即时（JIT）编译，或者应用能执行着色器预编译。在一些实施例中，高级着色器在3D图形应用1010的编译期间被编译成低级着色器。在一些实施例中，着色器指令1012以中间形式提供，诸如由Vulkan API使用的标准便携式中间表示（SPIR）的版本。

在一些实施例中，用户模式图形驱动1026含有后端着色器编译器1027以将着色器指令1012转换成硬件特定表示。当OpenGL API在使用时，用GLSL高级语言的着色器指令1012被传递到用户模式图形驱动1926以便进行编译。在一些实施例中，用户模式图形驱动1026使用操作系统内核模式功能1028与内核模式图形驱动器1029通信。在一些实施例中，内核模式图形驱动1029与图形处理器1032通信以分派命令和指令。

IP核实现

至少一个实施例的一个或多个方面可由存储在机器可读介质上的表示和/或定义集成电路（诸如处理器）内逻辑的代表性代码实现。例如，机器可读介质可包含表示处理器内的各种逻辑的指令。当由机器读取时，指令可使机器制作执行本文描述的技术的逻辑。称为“IP核”的此类表示是可作为描述集成电路的结构的硬件模型在有形机器可读介质上存储的集成电路的逻辑的可再用单元。硬件模型可被供应给各种顾客或制造设施，它们将硬件模型加载在制造集成电路的制作机器上。集成电路可被制作使得该电路执行结合本文描述的任何实施例描述的操作。

图11是图示根据一实施例的可用于制造执行操作的集成电路的IP核开发系统1100的框图。IP核开发系统1100可用于生成能被并入到更大设计中或者用于构造整个集成电路（例如SOC集成电路）的模块化可再用设计。设计设施1130能用高级编程语言（例如C/C++）生成IP核设计的软件仿真1110。软件仿真1110能用于使用仿真模型1112设计、测试和验证IP核的行为。仿真模型1112可包含功能、行为和/或定时仿真。然后能从仿真模型1112中创建或合成寄存器转移级（RTL）设计1115。RTL设计1115是对硬件寄存器（包含使用建模的数字信号执行的关联逻辑）之间的数字信号流建模的集成电路的行为的抽象。除RTL设计1115之外，还可创建、设计或合成在逻辑级或晶体管级的较低级设计。从而，初始设计和仿真的具体细节可改变。

RTL设计1115或等效可由设计设施进一步合成到硬件模型1120中，其可采用硬件描述语言（HDL），或者物理设计数据的某些其它表示。HDL可被进一步仿真或测试以验证IP核设计。能使用非易失性存储器1140（例如硬盘、闪存或任何非易失性存储介质）存储IP核设计，以便递送到第三方制作设施1165。备选地，可在有线连接1150或无线连接1160上（例如经由因特网）传送IP核设计。制作设施1165然后可制作集成电路，其至少部分基于IP核设计。所制作的集成电路能配置成按照本文描述的至少一个实施例执行操作。

示范片上系统集成电路

图12-14图示了根据本文描述的各种实施例可使用一个或多个IP核制作的示范集成电路以及关联的图形处理器。除了所图示的之外，还可包含其它逻辑和电路，包含附加图形处理器/核、外设接口控制器或通用处理器核。

图12是图示根据一实施例可使用一个或多个IP核制作的示范片上系统集成电路1200的框图。示范集成电路1200包含一个或多个应用处理器1205（例如CPU）、至少一个图形处理器1210，并且此外可包含图像处理器1215和/或视频处理器1220，其任一个都可以是来自相同或多个不同设计设施的模块化IP核。集成电路1200包含外设或总线逻辑，包含USB控制器1225、UART控制器1230、SPI/SDIO控制器1235和I2S/I2C控制器1240。此外，集成电路能包含耦合到高清多媒体接口（HDMI）控制器1250和移动行业处理器接口（MIPI）显示器接口1255中的一个或多个的显示器装置1245。存储装置可由闪存子系统1260提供，包含闪存和闪存控制器。存储器接口可经由存储器控制器1265提供，以便存取SDRAM或SRAM存储器装置。一些集成电路此外包含嵌入式安全引擎1270。

图13是图示根据一实施例可使用一个或多个IP核制作的片上系统集成电路的示范图形处理器1310的框图。图形处理器1310能是图12的图形多处理器1210的变形。图形处理器1310包含顶点处理器1305和一个或多个片段处理器1315A-1315N(例如1315A、1315B、1315C、1315D、至1315N-1以及1315N)。图形处理器1310能经由单独逻辑执行不同着色器程序，使得顶点处理器1305被优化成执行对于顶点着色器程序的操作，而一个或多个片段处理器1315A-1315N执行对于片段或顶点着色器程序的片段（例如像素）着色操作。顶点处理器1305执行3D图形管线的顶点处理阶段，并生成基元和顶点数据。(一个或多个)片段处理器1315A-1315N使用由顶点处理器1305生成的基元和顶点数据来产生显示在显示器装置上的帧缓冲器。在一个实施例中，(一个或多个)片段处理器1315A-1315N被优化成执行在OpenGL API中供给的片段着色器程序，OpenGL API可用于执行与在OpenGL API中供给的像素着色器程序相似的操作。

图形处理器1310此外包含一个或多个存储器管理单元(MMU)1320A-1320B、（一个或多个）高速缓存1325A-1325B和（一个或多个）电路互连1330A-1330B。一个或多个MMU1320A-1320B供给用于图形处理器1310（包含用于顶点处理器1305和/或（一个或多个）片段处理器1315A-1315N）的虚拟到物理地址映射，其除了存储在所述一个或多个高速缓存1325A-1325B中的顶点或图像/纹理数据之外还可以参考存储在存储器中的顶点或图像/纹理数据。在一个实施例中，一个或多个MMU 1320A-1320B可与系统内的其它MMU同步，包含与图12的所述一个或多个应用处理器1205、图像处理器1215和/或视频处理器1220关联的一个或多个MMU，使得每个处理器1205-1220能参与共享或统一虚拟存储器系统。根据实施例，一个或多个电路互连1330A-1330B使图形处理器1310能够或者经由SoC的内部总线或者经由直接连接与SoC内的其它IP核对接。

图14是图示根据一实施例可使用一个或多个IP核制作的片上系统集成电路的附加示范图形处理器1410的框图。图形处理器1410能是图12的图形处理器1210的变形。图形处理器1410包含图13的集成电路1300的一个或多个MMU 1320A-1320B、（一个或多个）高速缓存1325A-1325B和（一个或多个）电路互连1330A-1330B。

图形处理器1410包含一个或多个着色器核1415A-1415N(例如1415A、1415B、1415C、1415D、1415E、1415F、至1315N-1以及1315N)，其供给统一着色器核架构，其中单核或类型或核能执行所有类型可编程着色器代码，包含实现顶点着色器、片段着色器和/或计算着色器的着色器程序代码。存在的确切数量的着色器核能在实施例和实现之间改变。此外，图形处理器1410包括核间任务管理器1405，该管理器充当线程分派器以将执行线程分派给一个或多个着色器核1415A-1415N和平铺单元1418以加速对于基于图块的渲染的平铺操作，其中在图像空间中细分对于场景的渲染操作，例如以利用场景内的局部空间相干性或者以优化内部高速缓存的使用。

增强现实/虚拟现实设备和方法

A.概览

本发明的实施例可以在诸如图15A中图示的虚拟现实系统的虚拟现实系统内实现，该虚拟现实系统包含图形系统组件1580和头戴式显示器（HMD）1550。在一个实施例中，HMD1550包括右显示器1551和左显示器1552，在右显示器1551上渲染图像帧以供由用户的右眼观看，在左显示器1552上渲染图像帧以供由用户的左眼观看。单独的图形引擎1556和1557包括用于响应于具体虚拟现实应用1561的执行而分别渲染右图像帧和左图像帧的图形处理管线。每个图形引擎1556-1557可以包括单独的图形处理单元（GPU）。备选地，图形引擎1556-1557可以将图形执行资源的不同组包含在单个GPU内或者跨多个GPU散布。例如，在虚拟化环境中，可以向每个显示器1551-1552分配单独的虚拟GPU（vGPU）。不管GPU资源如何被分区，图形引擎1556-1557都可以实现本文描述的任何图形处理技术。

在一个实施例中，集成在HMD 1550上的用户/眼睛跟踪装置1553包括用于检测用户头部的当前方位和用户注视的方向的传感器。例如，可以使用光学传感器和加速器捕获用户头部的方位，而可以用诸如相机的光学眼睛跟踪装置捕获用户注视的当前方向。如图示的，用户/眼睛跟踪装置1553将用户的当前视图1560提供给图形系统1580，图形系统1580然后相应地调整图形处理（即，以确保正在渲染的当前图像帧来自用户的当前视角）。

在一个实施例中，虚拟现实应用1561利用图形应用程序编程接口（API）1562来实现如本文所描述的图形引擎1556-1557的特征。例如，可以给图形API 1562提供有虚拟现实软件开发工具包（SDK）1563，开发人员可以使用该工具包来生成用于虚拟现实应用1561的应用程序代码。例如，虚拟现实SDK 1563可以包括编译器（和/或其他设计工具）以生成用于使用API 1562（例如，通过调用包含在API中的函数/命令）的虚拟现实应用1561的对象代码。可以使用图形API 1562、图形引擎1556-1557内的硬件和/或其组合来实现本文描述的技术中的一种或多种技术。

图15B图示了按照一个实施例的用于右显示器1551和左显示器1552的两个图形管线的各种阶段。具体地说，图示了基于光栅化的管线，包含从存储器1515读取索引和顶点数据的输入汇编器（IA）1521A-B和顶点着色器（VS）1522A-B。如所提到的，命令可以由IA1521A-B经由图形API 1562接收。顶点着色器1522A-B对每个顶点执行着色操作（例如，将虚拟空间中的每个顶点的3D位置变换为它在屏幕上显现所在的2D坐标），并且生成以基元（例如，三角形）形式的结果。几何着色器（GS）1523A-B将整个基元当作输入，可能具有邻接信息。例如，当对三角形操作时，三个顶点是几何着色器的输入。几何着色器1523A-B然后能发射零个或多个基元，这些基元在光栅化阶段1524A-B被光栅化，并且所得到的片段最终传递到像素着色器（PS）1525A-B，该像素着色器对每个单独的像素执行着色操作，这些像素在被显示在HMD上之前被逐帧存储在帧缓冲器1526A-B内。

在一个实施例中，可以采用诸如光线跟踪架构的全局照明图形处理架构。例如，图15C图示了示范性基于光线跟踪的图形管线1500，其中一个或多个管线阶段1501A-B至1505A-B对于左显示器1551和右显示器1552执行基于光线跟踪的渲染。图示的阶段包含生成用于处理的光线的光线生成模块1501A-B。例如，一个实施例每图像图块都执行宽度优先的光线跟踪，其中图块表示小的固定大小的矩形区域。在宽度优先实现的一个实施例中，对于图像图块上的每次迭代生成每像素一条光线。光线遍历模块1502A-B针对边界体积层级（BVH）或其他加速数据结构遍历每条光线。一个或多个交叉模块1503A-B针对一个或多个三角形或其他基元测试光线，并且最后，遍历和交叉单元必须找到每条光线交叉的最靠近的基元。一个或多个着色器单元1504A-B然后对所得到的像素执行着色操作，这些像素在被显示在HMD 1550上之前被逐帧存储在帧缓冲器1505A-B内。

B.凹式渲染

本发明的一个实施例采用凹式渲染，一种数字图像处理技术，其中图像分辨率或细节量按照一个或多个“固定点”跨图像变化。固定点指示图像的最高分辨率区域，并且对应于凹，眼睛的视网膜的中心。可以以不同方式指定固定点的位置。例如，使用精确测量眼睛的位置和运动的眼睛跟踪装置来确定虚拟现实实现中的固定点。可以在围绕固定点的区域中使用比在图像其他区域中的分辨率更高的分辨率。例如，如图16中图示的，成凹控制模块1620可以控制光栅化器1404以对于图像的凹区域使用更高的样本或像素密度。

C.时间扭曲

本发明的一些实施例可以被用在使用时间扭曲的VR系统中。时间扭曲是一种用于改进当前虚拟现实（VR）系统的性能的技术。根据该技术，按照用户头部和/或眼睛的当前方位（即，如从眼睛跟踪装置和/或头戴式显示器（HMD）上的其他传感器读取以检测用户头部的运动）来渲染每个图像帧。就在显示下一个图像帧之前，再次捕获传感器数据并将其用于变换场景以适合最新近的传感器数据（即，“扭曲”当前图像帧）。通过利用已经被生成的深度映射（即，Z缓冲器），时间扭曲能以相对低的计算要求在3D空间中移动对象。

将关于图17描述一个实施例，图17图示了通信地耦合到头戴式显示器（HMD）1350的图形处理引擎1300。执行VR应用1310，生成要由图形处理引擎1300执行的图形数据和命令。图形处理引擎1300可以包括一个或多个图形处理单元（GPU），一个或多个GPU包括执行图形命令并渲染要显示在HMD 1350上的图像帧的图形管线（例如，诸如本文描述的图形管线）。为了简单起见，在图17中仅示出单个显示器1717，其可以是左和/或右显示器。

在操作中，图像渲染模块1305渲染要显示在左显示器和右显示器1717中的图像帧。在一个实施例中，每个图像按照如由集成在HMD 1350上的用户/眼睛跟踪模块1353所提供的用户头部和/或眼睛的当前方位来渲染。具体地说，HMD 1350可以包含跟踪用户头部和相机的当前方位的各种传感器以及跟踪用户眼睛的当前焦点的关联电路/逻辑。在虚拟现实实现中，该数据被用于从正确的视角渲染左/右图像（即，基于用户当前注视的方向和焦点）。

虽然为了简单起见在图17中图示为单个组件，但是对于左图像帧和右图像帧可以使用单独的图像渲染电路和逻辑。而且，各种其他图形管线阶段未图示以避免模糊本发明的基本原理，包含例如顶点着色器、几何着色器和纹理映射器。在一个实施例中采用的光线跟踪架构可以包含光线生成模块、光线遍历模块、交叉模块和着色模块。在任何实现中，渲染模块1705基于用户的当前方位/注视渲染用于左显示器和右显示器1717的图像。

在图示的实施例中，第一帧缓冲器1716存储当前显示在HMD的左/右显示器1717内的图像帧N-1。然后，在第二帧缓冲器1715内渲染要显示的下一个图像帧（图像帧N）。在一个实施例中，图像渲染模块1705使用由用户/眼睛跟踪模块1553提供的坐标数据来渲染帧缓冲器1715内的下一帧。在需要在左和/或右显示器1717内显示下一帧时，时间扭曲模块1720变换图像帧N-1或图像帧N（如果图像帧N的渲染完成的话），以适合由用户/眼睛跟踪模块1553提供的最新近的传感器数据。该变换由时间扭曲模块1720使用存储在处理引擎的Z缓冲器1718中的先前生成的深度映射来执行。该变换以相对小的计算要求在3D空间中移动对象，产生更新近完成的产品，而无需重新渲染该场景。从而，在大多数情况下，它应该基本上相似于如果渲染更快地发生则将已经被渲染的图像帧。

用于层级自适应曲面细分的设备和方法

1.现有系统的局限性

帧之间的像素数据的时间再用要求重投影操作器，其根据相机和对象移动来变换图像平面上的给定像素。对于实时渲染，存在两种基本方法：基于图像的反向重投影和基于网格的正向重投影。

反向重投影对于当前帧中的给定像素评估在前一帧中的其图像空间位置，其然后被用于将前一帧采样为纹理以检索历史像素数据。例如参见，Nehab等人的AcceleratingReal-time Shading with Reverse Reprojection Caching. Proc. ACM SIGGRAPH/EUROGRAPHICS Symposium on Graphics Hardware, 2007。

正向重投影依赖于纹理映射的深度网格（冒充者）来表示前一帧，该帧被变换并渲染成当前帧。为了生成深度网格，使用固定分辨率网，其被捕捉成速度缓冲器中的不连续性以改进重投影准确度。例如参见，Didyk等人的Perceptually Motivated Real-timeTemporal Upsamping of 3D content for High-refresh-rate Displays，ComputerGraphics Forum 29/2。

速度缓冲器捕获像素从一帧到下一帧的世界空间位置的移动，并被采样以将深度网格的顶点变换到当前帧。不同的方法递归地在前一帧的速度缓冲器上细化初始粗网，直到网单元格内的速度相似为止。例如参见，Didyk等人的 2010 b, Adaptive Image-spaceStereo View Synthesis； Vision, Modeling and Visualization Workshop, 2010。

2.用于层级自适应曲面细分的实施例

本发明的一个实施例包含生成重投影网格的层级曲面细分设备和方法。通过使网分辨率适于重投影场中的相异性，在质量和重投影性能之间实现合理的平衡。为了最小化几何带宽（基于网格的重投影技术的典型瓶颈），一个实现的管线包括单遍层级聚类和基于硬件曲面细分的光栅化阶段。备选地，最终阶段还能使用光线投射来实现。

这些重投影技术利用完全收敛的前一帧和潜在地稀疏采样的当前帧。反向重投影技术要求来自当前帧中每个像素的屏幕空间信息（通常每个像素一个样本）。相比之下，正向重投影经常更好地适合当前帧含有未采样像素的情况。例如，这包含采样或着色以比帧缓冲器的分辨率更粗的比率发生的情况。

本发明的实施例在芯片上本地执行对于重投影的更多操作，消耗较少的存储器带宽。具体地说，使用曲面细分硬件在芯片上生成自适应网网格。这种自下而上的设计减少了计算遍数，并且硬件曲面细分通过生成和处理芯片上的整个深度网格来减少存储器带宽。

举例来说，帧A和B在对应的时间tA和tB被渲染。本发明的一个实施例通过使用基于网格的重投影来扭曲帧A的图像来加速帧B的渲染。具体地说，在每帧的渲染期间，帧A的最接近的可见表面的颜色、深度和速度分别以单独图像被捕获在对应的颜色缓冲器、深度缓冲器和速度缓冲器中。速度缓冲器存储在单位时间帧中的在世界空间坐标中的来自帧A的每个可见表面的运动向量。使用世界空间坐标允许在虚拟现实实现中头部运动的视图矩阵的后期调整，并且还可以用于多视图重投影实现。

为了将颜色缓冲器A的内容投影到帧B的图像平面，在一个实施例中执行以下操作。首先，硬件曲面细分单元生成帧缓冲器A的曲面细分，以生成具有顶点的曲面细分的网格。在一个实施例中，网格的顶点被参数化以覆盖帧A中的归一化装置坐标空间。

帧A的网格/顶点被变换。例如，可以通过使用对应的深度缓冲器和逆视图变换来重构帧A中的顶点的世界空间位置来生成深度网格。从速度缓冲器和相机变换应用运动向量以获得帧B中的顶点的世界空间位置。最后，可以应用帧B的视图变换以获得帧B中的归一化装置坐标，并且将深度网格渲染到渲染目标。在一个实施例中，使用硬件曲面细分，其通过生成和处理芯片上的深度网格的大贴片来减少存储器带宽。

图18图示了集成在上述图形处理管线内的示范性自适应曲面细分电路1804。外壳着色器1803通过自适应曲面细分电路1920解码基元并设立曲面细分。在曲面细分之后，域着色器1805对所得到的顶点应用必要的变换以获得当前帧中的归一化装置坐标。

图19图示了用硬件实现的并执行“自下而上”带宽有效率的自适应曲面细分的自适应曲面细分单元1804的一个实施例的附加的细节。在一个实施例中，执行层级处理，从层级的最低级（例如，各个像素）开始，并工作直到更大的像素集，称为“图块”。如下所述，在层级中在较低层的像素和图块的处理通知在较高层作出的处理决定，减少所需的计算和存储器转移（例如，全屏通过）的次数。

如图示的，自适应曲面细分的一个实施例由存储在每像素运动向量缓冲器1900中的每像素运动向量引导，每像素运动向量将帧A 1901中的每个像素的屏幕空间位置偏移到帧B 1950。注意，该运动向量缓冲器1900不同于速度缓冲器，其存储与视图无关的3维世界空间向量。相比之下，每像素运动向量1905是像素坐标中的2维偏移，分别用两个帧1901和1950的不同视图-投影矩阵聚合世界空间运动。备选地，运动向量缓冲器1900可以存储3维（而不是2维）偏移。在该实施例中，每个运动向量包括用于分类的深度值，其将可能使分类更准确，而且更加资源密集。在真实世界实现中，将评估这种权衡以确定是使用2-D还是3-D实现。

在一个实施例中，帧缓冲器1901被隐式地细分成小的像素图块（例如，4×4）。给定图块内的运动向量的不相似性由运动向量分析电路1901进行分析和归类。基于分析，对图块进行归类，并且按照归类对图块进行处理。例如，在图示的实施例中，标识图块的第一子集1904，其中像素（或子图块）的运动向量在指定的阈值内是相似的。例如，可以将像素的最大运动向量（例如，沿着X轴和/或Y轴）与（一个或多个）相同坐标中的最小运动向量进行比较。如果两者之间的差异在阈值内，则运动向量分析电路1901将图块表征为“相似”。在一个实现中，合并电路1915将相似图块1905的像素合并到帧缓冲器B 1950内的较粗网中（如在图20中用图形示出的，下面讨论）。

备选地，标识“相异”图块1905，其中像素的运动向量不相似，超出指定的阈值。例如，当像素的最大运动向量和像素的最小运动向量（例如，使用X轴和/或Y轴）之间的差值在阈值以上时，图块被标识为相异的。在这种情况下，运动向量分析电路1901将图块表征为“相异”，并且将像素添加到由曲面细分电路1920处理的曲面细分队列1910。

在一个实施例中，像素/图块的这种处理在层级中在迭代更高级执行。例如，第一次迭代可以在包括4个像素/图块的第一级图块上操作，下一次迭代可以在包括4个第一级图块的第二级图块上操作，随后是在包括四个第二级图块的第三级图块上操作的迭代，以此类推，直到整个图像帧被处理。当处理层级内的图块时，运动向量分析电路1901可以确定在当前级的图块具有至少一个曲面细分的子图块。例如，第二级图块内的四个第一级图块中的一个可能已被添加到曲面细分队列1910。如果是，则第二级图块1906的剩余部分可以被添加到曲面细分队列1910，并且由曲面细分电路1920处理。

在一个实施例中，通过将该过程限制到具体图块级来强制最大图块大小。临时层间数据缓冲器1908可以存储两个不同图块级之间所需的数据（例如，给定图块的速度值（相异性）的边界框）。如果已经将图块排队以供曲面细分，则可以在级间缓冲器1908内用特殊值标记它。

在一个实施例中，曲面细分队列1910被实现为附加缓冲器，并且图块被读取并被编码成双字或其他最小附加缓冲器元素大小。在一个实施例中，曲面细分队列1910中的每个元素都表示被馈送到外壳着色器1803的基元，外壳着色器1803对基元进行解码，并通过曲面细分电路1920设立曲面细分。在曲面细分之后，域着色器1805对所得到的顶点应用必要的变换以获得当前帧（例如帧缓冲器1950内的帧B）中的归一化装置坐标。

图20中提供了以上一系列操作的一个具体示例的草图，其示出了表示每个像素/图块的每像素运动向量1900的网。在该示例中，迭代＃1突显被标识为“相似”图块（A）的一个2×2像素图块，起因于像素的运动向量（如通过有向箭头所指示的）全部“相似”（即，在指定的阈值内）的事实。此外，迭代＃1标识具有像素运动向量的一个“相异”图块（B），所述像素运动向量是相异的（即，超出指定的阈值，如由相异的有向箭头所指示的）并且它们被添加到曲面细分队列1910以供处理。

在图20的迭代3中，与已经曲面细分的子图块相比，具有问题标记的那些子图块可以被曲面细分为更粗的一级（即，仅具有两个三角形）。这将减少三角形的数量，但是，取决于硬件/软件架构，可能需要更多曲面细分操作。再一次，这是能根据真实系统进行的设计权衡。

迭代＃2示出了第二级图块（C），其包含至少一个曲面细分的子（第一级图块（B））。因此，剩余的第一级同辈图块2000被添加到迭代＃3中的曲面细分队列1910。

图21中图示了用于执行自适应曲面细分的方法的一个实施例。该方法可以在上述架构的上下文内执行，但不限于任何具体系统或处理器架构。

过程变量N被初始化为0。在2101，四个N级子图块被组合以形成图块，并且分析子图块的运动向量的不相似性。如前面所讨论的，在级别0（N=0），子图块是单独的像素，并且运动向量的源是速度纹理。在较高级，从临时级间数据缓冲器获得子图块数据。

在2102，分析/比较N级子图块的运动向量。如果在2103确定不相似性大于指定的阈值或者子图块之一已经被曲面细分，则该图块被附加到曲面细分队列并在临时级间数据缓冲器中用特殊值标记（在2105）。如果子图块是“相似的”，则在2104，合并子图块，并且将不相似性数据存储在临时级间数据缓冲器中。

该级然后被增加1（N=N+1），并且在2106确定如果已达到最大级，则该过程终止。如果不是，则该过程返回到2101，其中下一级的子图块被组合以形成下一级别的图块。

在该实现中，可以取决于运动向量中的相异性的幅度来动态地选择图块/子图块的曲面细分率。也就是，如果相异性在阈值以上（在2103），但仅是轻微地在阈值以上，则选择低曲面细分率，并且如果相异性明显在阈值以上，则将选择更高的曲面细分率。从而，该实施例可以使用用于指示曲面细分率的多个阈值来操作。

这些操作的结果是完全覆盖屏幕空间域的层级网。在不同级的曲面细分之间可能存在T结，其导致重投影后的裂缝。然而，与3D表面曲面细分相比，这对于本实现不是问题，因为当贴片被单独重投影时，它们能适应于几何不连续性，而不会拉伸伪像。

上述实施例提供了有效率且高质量的重投影技术，其特别有益于渲染高帧率多视图显示器，诸如立体效果VR HMD。在这样的系统中，只有利用着色成本的重度摊销才有可能提供所需的每秒像素/样本率。重投影是能用于利用帧的高时间和空间相干性的技术之一。

本发明还提供如下技术方案：

技术方案1. 一种设备，包括：

曲面细分队列，所述曲面细分队列用于存储要被曲面细分的第一图像帧的部分；

运动向量分析电路，所述运动向量分析电路用于在多级粒度对多个图块中的每个图块内的多个子图块进行编组，其中第一级的所述子图块包括像素，并且每个连续级的所述子图块包括来自前一级的图块,

所述运动向量分析电路用于在每级粒度迭代地分析每组子图块的运动向量，以按照定义的阈值来确定所述运动向量是否相似，所述运动向量分析电路用于将具有被确定为不相似的子图块的图块排队到所述曲面细分队列。

技术方案2. 如技术方案1所述的设备,其中所述运动向量分析电路将进一步对已经将至少一个子图块排队的所述曲面细分队列中的图块进行排队。

技术方案3. 如技术方案2所述的设备,其中所述运动向量分析电路将合并被确定为相似的组的子图块，每个合并的组的子图块在下一级粒度作为单独的子图块被分析。

技术方案4. 如技术方案3所述的设备,其中所述运动向量分析电路开始在所述第一级上执行其迭代分析，其中每个子图块包括像素。

技术方案5. 如技术方案4所述的设备,其中在所述第一级对每组像素执行其迭代分析时，所述运动向量分析电路将从所述第一级按顺序移动到每个下一级以执行所述编组，分析运动向量并且对操作进行排队，直到到达最后一级。

技术方案6. 如技术方案1所述的设备，进一步包括：

曲面细分电路，所述曲面细分电路用于对在所述曲面细分队列中排队的图块执行曲面细分。

技术方案7. 如技术方案6所述的设备，进一步包括：

外壳着色器，所述外壳着色器用于读取在所述曲面细分队列中排队的图块，并对所述图块进行解码并通过所述曲面细分电路设立所述图块的曲面细分。

技术方案8. 如技术方案7所述的设备，进一步包括：

域着色器，所述域着色器对由所述曲面细分产生的顶点应用变换以获得当前帧中的归一化装置坐标。

技术方案9. 如技术方案3所述的设备，进一步包括：

临时级间数据缓冲器，所述临时级间数据缓冲器存储与跨所述级的运动向量的所述分析相关的数据。

技术方案10. 如技术方案9所述的设备,其中所述运动向量分析电路将存储与所述临时级间数据缓冲器中的所述子图块相关的不相似性数据。

技术方案11. 一种方法，包括：

在多级粒度对图像帧的多个图块中的每个图块内的多个子图块进行编组，其中第一级的所述子图块包括像素，并且每个连续级的所述子图块包括来自前一级的图块；

在每级粒度分析每组子图块的运动向量以按照定义的阈值来确定所述运动向量是否相似；以及

将具有被确定为不相似的子图块的图块排队到曲面细分队列。

技术方案12. 如技术方案11所述的方法，进一步包括：

将具有至少一个子图块已经排队的图块排队到所述曲面细分队列。

技术方案13. 如技术方案12所述的方法，进一步包括：

基于所述定义的阈值合并被确定为相似的组的子图块，每个合并的组的子图块将在下一级粒度作为单独的子图块被分析。

技术方案14. 如技术方案13所述的方法，其中所述迭代分析将在所述第一级上发起，其中每个子图块包括像素。

技术方案15. 如技术方案14所述的方法，其中当在所述第一级对每组像素执行所述迭代分析时，将从所述第一级按顺序前进到每个下一级以执行所述编组，分析运动向量并且排队，直到到达最后一级。

技术方案16. 如技术方案11所述的方法，进一步包括：

对在所述曲面细分队列中排队的图块执行曲面细分。

技术方案17. 如技术方案16所述的方法，进一步包括：

读取和解码在所述曲面细分队列中排队的图块作为曲面细分的准备。

技术方案18. 如技术方案17所述的方法，进一步包括：

对由所述曲面细分产生的顶点应用变换以获得当前帧中的归一化装置坐标。

技术方案19. 如技术方案13所述的方法，进一步包括：

在级间存储缓冲器中存储与跨所述级的运动向量的所述分析相关的数据。

技术方案20. 如技术方案19所述的方法，其中与所述子图块相关的不相似性数据将被存储在所述临时级间数据缓冲器中。

技术方案21. 一种机器可读介质，具有存储在所述机器可读介质上的程序代码，所述程序代码当由机器执行时使所述机器执行以下操作：

技术方案22. 如技术方案21所述的机器可读介质，进一步包括程序代码以使所述机器执行如下操作：

技术方案23. 如技术方案22所述的机器可读介质，进一步包括程序代码以使所述机器执行如下操作：

技术方案24. 如技术方案23所述的机器可读介质，其中迭代分析将在所述第一级上发起，其中每个子图块包括像素。

技术方案25. 如技术方案24所述的机器可读介质，其中当在所述第一级对每组像素执行所述迭代分析时，将从所述第一级按顺序前进到每个下一级以执行所述编组，分析运动向量并且排队，直到到达最后一级。

技术方案26. 如技术方案21所述的机器可读介质，进一步包括程序代码以使所述机器执行如下操作：

对在所述曲面细分队列中排队的图块执行曲面细分。

技术方案27. 如技术方案26所述的机器可读介质，进一步包括程序代码以使所述机器执行如下操作：读取和解码在所述曲面细分队列中排队的图块作为曲面细分的准备。

技术方案28. 如技术方案27所述的机器可读介质，进一步包括程序代码以使所述机器执行如下操作：

技术方案29. 如技术方案23所述的机器可读介质，进一步包括程序代码以使所述机器执行如下操作：

技术方案30. 如技术方案29所述的机器可读介质，其中与所述子图块相关的不相似性数据将被存储在所述临时级间数据缓冲器中。

在本申请中使用的术语“模块”、“逻辑”和“单元”可以指的是用于执行指定的功能的电路。在一些实施例中，指定的功能可以由电路与软件组合（诸如通过由通用处理器执行的软件）来执行。

本发明实施例可包含各种步骤，这些步骤上面已经描述了。这些步骤可以用机器可执行指令实施，这些指令可用于使通用或专用处理器执行这些步骤。备选地，这些步骤可以由含有用于执行步骤的硬连线逻辑的特定硬件组件执行，或者由已编程的计算机组件和定制硬件组件的任何组合执行。

如本文所描述的，指令可指的是硬件的特定配置（诸如配置成执行某些操作或具有预定功能性的专用集成电路（ASIC））或存储在用非暂态计算机可读介质实施的存储器中的软件指令。从而，附图中示出的技术能使用在一个或多个电子装置（例如终端站、网络元件等）上存储和执行的代码和数据实现。此类电子装置使用计算机机器可读介质存储和传递（在内部和/或通过网络与其它电子装置）代码和数据，计算机机器可读介质诸如非暂态计算机机器可读存储介质（例如磁盘；光盘；随机存取存储器；只读存储器；闪速存储器装置；相变存储器）和暂态计算机机器可读通信介质（例如电、光、声或其它形式的传播信号——诸如载波、红外信号、数字信号等）。

此外，此类电子装置通常包含耦合到一个或多个其它组件的一个或多个处理器的集合，一个或多个其它组件诸如一个或多个存储装置（非暂态机器可读存储介质）、用户输入/输出装置（例如，键盘、触摸屏和/或显示器）和网络连接。处理器的集合和其它组件的耦合通常通过一个或多个总线和桥接器（也称为总线控制器）。存储装置和携带网络业务的信号分别表示一个或多个机器可读存储介质和机器可读通信介质。从而，给定电子装置的存储装置通常存储用于在该电子装置的一个或多个处理器的集合上执行的代码和/或数据。当然，本发明的实施例的一个或多个部分可以使用软件、固件和/或硬件的不同组合来实现。贯穿此详细描述，为了说明目的，阐述了众多特定细节，以便提供对本发明的透彻理解。然而，本领域技术人员将明白，可以在没有这些特定细节中的一些细节的情况下实践本发明。在某些实例中，众所周知的结构和功能未被详尽描述，以便避免使本发明的主题模糊不清。因而，本发明的范围和精神应该依照随附权利要求书进行判断。

Claims

1.一种设备，包括：

2.如权利要求1所述的设备,其中所述运动向量分析电路将进一步对已经将至少一个子图块排队的所述曲面细分队列中的图块进行排队。

3.如权利要求1或2所述的设备,其中所述运动向量分析电路将合并被确定为相似的组的子图块，每个合并的组的子图块在下一级粒度作为单独的子图块被分析。

4.如权利要求1或3所述的设备,其中所述运动向量分析电路开始在所述第一级上执行其迭代分析，其中每个子图块包括像素。

5.如权利要求4所述的设备,其中在所述第一级对每组像素执行其迭代分析时，所述运动向量分析电路将从所述第一级按顺序移动到每个下一级以执行所述编组，分析运动向量并且对操作进行排队，直到到达最后一级。

6.如权利要求1或5所述的设备，进一步包括：

7.如权利要求6所述的设备，进一步包括：

8.如权利要求7所述的设备，进一步包括：

9.如权利要求3所述的设备，进一步包括：

10.如权利要求9所述的设备,其中所述运动向量分析电路将存储与所述临时级间数据缓冲器中的所述子图块相关的不相似性数据。

11.一种方法，包括：

12.如权利要求11所述的方法，进一步包括：

13.如权利要求11或12所述的方法，进一步包括：

14.如权利要求11或13所述的方法，其中所述迭代分析将在所述第一级上发起，其中每个子图块包括像素。

15.如权利要求14所述的方法，其中当在所述第一级对每组像素执行所述迭代分析时，将从所述第一级按顺序前进到每个下一级以执行所述编组，分析运动向量并且排队，直到到达最后一级。

16.如权利要求11或15所述的方法，进一步包括：

对在所述曲面细分队列中排队的图块执行曲面细分。

17.如权利要求16所述的方法，进一步包括：

18.如权利要求17所述的方法，进一步包括：

19.如权利要求13所述的方法，进一步包括：

20.如权利要求19所述的方法，其中与所述子图块相关的不相似性数据将被存储在所述临时级间数据缓冲器中。

21.一种机器可读介质，具有存储在所述机器可读介质上的程序代码，所述程序代码当由机器执行时使所述机器执行以下操作：

22.如权利要求21所述的机器可读介质，进一步包括程序代码以使所述机器执行如下操作：

23.如权利要求21或22所述的机器可读介质，进一步包括程序代码以使所述机器执行如下操作：

24.一种设备，包括：

用于在多级粒度对图像帧的多个图块中的每个图块内的多个子图块进行编组的部件，其中第一级的所述子图块包括像素，并且每个连续级的所述子图块包括来自前一级的图块；

用于在每级粒度分析每组子图块的运动向量以按照定义的阈值来确定所述运动向量是否相似的部件；以及

用于将具有被确定为不相似的子图块的图块排队到曲面细分队列的部件。

25.如权利要求24所述的设备，进一步包括：

用于将具有至少一个子图块已经排队的图块排队到所述曲面细分队列的部件。