CN110796720A

CN110796720A - 用于3d斑点分类和传输的系统和方法

Info

Publication number: CN110796720A
Application number: CN201910575083.XA
Authority: CN
Inventors: J.迪斯特勒; T.阿什克纳兹; I.考夫曼; M.波尔特曼
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2018-07-31
Filing date: 2019-06-28
Publication date: 2020-02-14
Also published as: US11568182B2; US10762394B2; US20200042834A1; DE102019117495A1; US11151424B2; US20220101067A1; US20200364514A1

Abstract

提供了用于3D斑点分类和传输的系统和方法。本文中描述的实施例提供了一种包括处理器的装置，所述处理器要将来自斑点的三维（3D）点数据投影和累积到地板平面或天花板平面中的一个上，构建所述3D点数据的直方图，确定来自所述斑点的所述点数据的质心，针对所述3D点数据获得高度数据，并且计算用来围绕所述斑点的边界框的尺寸。可能描述和要求保护了其它实施例。

Description

用于3D斑点分类和传输的系统和方法

相关申请

本申请涉及共同转让的2018年7月31日由Jill Boyce提交的题为REDUCED RENDERINGOF SIX-DEGREE OF FREEDOM VIDEO的美国专利申请序号16/050,153，所述美国专利申请的全部内容被通过引用结合于本文中。

背景技术

六自由度（6DoF）视频是新兴的沉浸式视频用例，其为观看者提供沉浸式媒体体验，其中观看者控制场景的视点。更简单的三自由度（3DoF）视频（例如360度或全景视频）允许观看者从固定位置围绕X、Y和Z轴改变定向（被描述为偏转、俯仰和滚转）。6DoF视频使得观看者能够通过沿X、Y和Z轴的平移运动来改变位置。

可以使用点云来表示6DoF视频。然而，点云数据的渲染在计算上是昂贵的，使得难以以高帧速率渲染包含大量点的点云视频。此外，点云数据速率大，需要大容量用于存储或传输。

附图说明

为了可以详细地理解本发明实施例的以上叙述的特征的方式，可以参考实施例（在附图中图示了所述实施例中的一些）取得以上简要总结的实施例的较具体描述。然而，应注意：附图仅图示了典型实施例，并且因此不应被认为限制其范围。

图1是根据本文中描述的一些实施例的处理系统的框图；

图2是根据本文中描述的一些实施例的处理器的框图；

图3是根据本文中描述的一些实施例的图形处理器的框图；

图4是根据本文中描述的一些实施例的图形处理器的图形处理引擎的框图；

图5是根据本文中描述的一些实施例的图形处理器核的硬件逻辑的框图；

图6A-6B图示了根据本文中描述的实施例的线程执行逻辑，其包括在图形处理器核中采用的处理元件的阵列；

图7是图示了根据本文中描述的一些实施例的图形处理器指令格式的框图；

图8是根据本文中描述的一些实施例的图形处理器的框图；

图9A-9B图示了根据本文中描述的一些实施例的图形处理器命令格式和命令序列；

图10图示了根据本文中描述的一些实施例的用于数据处理系统的示例性图形软件架构；

图11A是图示了根据本文中描述的一些实施例的IP核开发系统的框图；

图11B图示了根据本文中描述的一些实施例的集成电路封装组装件（assembly）的横截面侧视图；

图12是图示了根据实施例的示例性片上系统集成电路的框图；

图13A-13B是图示了根据本文中描述的实施例的用于在SoC内使用的示例性图形处理器的框图；

图14A-14B图示了根据本文中描述的实施例的附加示例性图形处理器逻辑；

图15A图示了根据本文中描述的实施例的沉浸式视频的各种形式；

图15B图示了根据本文中描述的一些实施例的用于沉浸式视频的图像投影和纹理平面；

图16图示了根据本文中描述的实施例的客户端-服务器系统，通过所述客户端-服务器系统可以由服务器基础设施生成和编码沉浸式视频内容以用于传输到一个或多个客户端设备；

图17A-17B图示了根据本文中描述的一些实施例的用于编码和解码3DoF Plus内容的系统；

图18A-18B图示了根据本文中描述的一些实施例的用于生成记分板信息元数据的程序逻辑；

图19A-19B图示了根据本文中描述的一些实施例的用于经由点云数据来编码和解码6DoF内容的系统；

图20图示了根据本文中描述的实施例的数据处理系统；

图21图示了根据本文中描述的一些实施例的用于斑点（blob）分类和传输的方法的操作；

图22图示了根据本文中描述的一些实施例的从点云数据导出的场景；

图23图示了根据本文中描述的一些实施例的用于斑点的边界框；

图24是根据本文中描述的一些实施例的包括图形处理器的计算设备的框图；

图25图示了根据本文中描述的一些实施例的点云数据的投影。

具体实施方式

出于解释的目的，阐述了许多特定细节以提供对以下描述的各种实施例的透彻理解。然而，对于本领域技术人员来说将显而易见的是：可以在没有这些特定细节中的一些的情况下实践所述实施例。在其它实例中，以框图形式示出了公知的结构和设备，以避免模糊基本原理和提供对实施例的更透彻理解。虽然参照图形处理器描述了下面的实施例中的一些，但是本文中描述的技术和教导可以应用于各种类型的电路或半导体设备，包括通用处理设备或图形处理设备。本文中对“一个实施例”或“一实施例”的引用指示：与实施例相结合或相关联地描述的特定特征、结构或特性可以被包括在这样的实施例中的至少一个中。然而，短语“在一个实施例中”在说明书中各种地方中的出现不一定都指代同一实施例。

在下面的描述和权利要求中，可以使用术语“耦合”和“连接”连同它们的派生词。应当理解：这些术语不意图作为彼此的同义词。“耦合”用于指示：可能或可能未彼此直接物理或电接触的两个或更多个元件彼此协作或交互。“连接”用于指示在与彼此耦合的两个或更多个元件之间的通信的建立。

在下面的描述中，图1-14提供了结合或涉及各种实施例的示例性数据处理系统和图形处理器逻辑的概观。图15-25提供了各种实施例的特定细节。参照图形处理器描述了下面的实施例的一些方面，而关于诸如中央处理单元（CPU）之类的通用处理器描述了其它方面。类似的技术和教导可以应用于其它类型的电路或半导体设备，包括但不限于许多集成核处理器、GPU集群、或者现场可编程门阵列（FPGA）的一个或多个实例。一般地，所述教导适用于操纵或处理图像（例如，样本、像素）、顶点数据或几何数据的任何处理器或机器。

系统概述

图1是根据实施例的处理系统100的框图。在各种实施例中，系统100包括一个或多个处理器102和一个或多个图形处理器108，并且可以是单处理器桌面系统、多处理器工作站系统或者具有大量处理器102或处理器核107的服务器系统。在一个实施例中，系统100是被结合在片上系统（SoC）集成电路内以用于在移动、手持或嵌入式设备中使用的处理平台。

在一个实施例中，系统100可以包括基于服务器的游戏平台、游戏控制台或被结合在基于服务器的游戏平台、游戏控制台内，所述游戏控制台包括游戏和媒体控制台、移动游戏控制台、手持游戏控制台或在线游戏控制台。在一些实施例中，系统100是移动电话、智能电话、平板计算设备或移动因特网设备。处理系统100还可以包括可穿戴设备、与可穿戴设备耦合或被集成在可穿戴设备内，所述可穿戴设备诸如智能手表可穿戴设备、智能眼镜设备、增强现实设备或虚拟现实设备。在一些实施例中，处理系统100是电视或机顶盒设备，其具有一个或多个处理器102和由一个或多个图形处理器108生成的图形界面。

在一些实施例中，所述一个或多个处理器102每个都包括用来处理指令的一个或多个处理器核107，所述指令在被执行时实行用于系统和用户软件的操作。在一些实施例中，所述一个或多个处理器核107中的每个被配置成处理特定指令集109。在一些实施例中，指令集109可以促进复杂指令集计算（CISC）、精简指令集计算（RISC）或经由超长指令字（VLIW）的计算。多个处理器核107每个都可以处理不同的指令集109，所述不同的指令集109可以包括用来促进其它指令集的仿真的指令。处理器核107还可以包括其它处理设备，诸如数字信号处理器（DSP）。

在一些实施例中，处理器102包括高速缓冲存储器104。取决于架构，处理器102可以具有单个内部高速缓存或多级内部高速缓存。在一些实施例中，在处理器102的各种组件之间共享高速缓冲存储器。在一些实施例中，处理器102还使用外部高速缓存（例如，3级（L3）高速缓存或末级高速缓存（LLC））（未示出），所述外部高速缓存可以被使用已知的高速缓存一致性技术在处理器核107之间共享。寄存器文件106被另外包括在处理器102中，所述处理器102可以包括用于存储不同类型的数据的不同类型的寄存器（例如，整数寄存器、浮点寄存器、状态寄存器和指令指针寄存器）。一些寄存器可以是通用寄存器，而其它寄存器可以特定于处理器102的设计。

在一些实施例中，一个或多个处理器102与一个或多个接口总线110耦合，以在处理器102与系统100中的其它组件之间传输诸如地址、数据或控制信号之类的通信信号。在一个实施例中，接口总线110可以是处理器总线，诸如一个版本的直接媒体接口（DMI）总线。然而，处理器总线不限于DMI总线，并且可以包括一个或多个外围组件互连总线（例如，PCI、PCI Express）、存储器总线或其它类型的接口总线。在一个实施例中，（一个或多个）处理器102包括集成存储器控制器116和平台控制器中枢130。存储器控制器116促进存储器设备与系统100的其它组件之间的通信，而平台控制器中枢（PCH）130提供经由本地I/O总线到I/O设备的连接。

存储器设备120可以是动态随机存取存储器（DRAM）设备、静态随机存取存储器（SRAM）设备、闪存设备、相变存储器设备或者具有合适性能以充当进程存储器的一些其它存储器设备。在一个实施例中，存储器设备120可以作为用于系统100的系统存储器进行操作，以存储用于在所述一个或多个处理器102执行应用程序或进程时使用的数据122和指令121。存储器控制器116还与可选的外部图形处理器112耦合，所述外部图形处理器112可以与处理器102中的所述一个或多个图形处理器108通信以执行图形和媒体操作。在一些实施例中，显示设备111可以连接到（一个或多个）处理器102。显示设备111可以是（如在移动电子设备或膝上型设备中的）内部显示设备或经由显示接口（例如，DisplayPort等）附接的外部显示设备中的一个或多个。在一个实施例中，显示设备111可以是头戴式显示器（HMD），诸如用于在虚拟现实（VR）应用或增强现实（AR）应用中使用的立体显示设备。

在一些实施例中，平台控制器中枢130使得外围设备能够经由高速I/O总线连接到存储器设备120和处理器102。I/O外围设备包括但不限于音频控制器146、网络控制器134、固件接口128、无线收发器126、触摸传感器125、数据存储设备124（例如，硬盘驱动器、闪存等）。数据存储设备124可以经由存储接口（例如，SATA）或经由诸如外围组件互连总线（例如，PCI、PCI Express）之类的外围总线而连接。触摸传感器125可以包括触摸屏传感器、压力传感器或指纹传感器。无线收发器126可以是Wi-Fi收发器，蓝牙收发器，或者诸如3G、4G或长期演进（LTE）收发器之类的移动网络收发器。固件接口128使得能实现与系统固件的通信，并且可以是例如统一可扩展固件接口（UEFI）。网络控制器134可以使得能实现到有线网络的网络连接。在一些实施例中，高性能网络控制器（未示出）与接口总线110耦合。在一个实施例中，音频控制器146是多通道高清晰度音频控制器。在一个实施例中，系统100包括可选的传统I/O控制器140，用于将传统（例如，个人系统2（PS/2））设备耦合到系统。平台控制器中枢130还可以连接到一个或多个通用串行总线（USB）控制器142，其连接输入设备，诸如键盘和鼠标143组合、相机144或其它USB输入设备。

将领会：所示的系统100是示例性的而非限制性的，因为也可以使用不同地配置的其它类型的数据处理系统。例如，存储器控制器116和平台控制器中枢130的实例可以被集成到分立的外部图形处理器中，诸如外部图形处理器112。在一个实施例中，平台控制器中枢130和/或存储器控制器116可以在所述一个或多个处理器102外部。例如，系统100可以包括外部存储器控制器116和平台控制器中枢130，所述外部存储器控制器116和平台控制器中枢130可以被配置为在与（一个或多个）处理器102通信的系统芯片组内的存储器控制器中枢和外围控制器中枢。

图2是具有一个或多个处理器核202A-202N、集成存储器控制器214和集成图形处理器208的处理器200的实施例的框图。图2的具有与本文中任何其它图的元件相同的参考号码（或名称）的那些元件可以以与本文中其它地方描述的方式类似的任何方式操作或起作用，但不限于这样。处理器200可以包括附加核，直到并包括由虚线框表示的附加核202N。处理器核202A-202N中的每个包括一个或多个内部高速缓存单元204A-204N。在一些实施例中，每个处理器核还能够访问一个或多个共享高速缓存单元206。

内部高速缓存单元204A-204N和共享高速缓存单元206表示处理器200内的高速缓冲存储器层次。高速缓冲存储器层次可以包括在每个处理器核内的至少一级指令和数据高速缓存以及一级或多级共享中级高速缓存，诸如2级（L2）、3级（L3）、4级（L4）或其它级高速缓存，其中外部存储器之前的最高级高速缓存被分类为LLC。在一些实施例中，高速缓存一致性逻辑维持各种高速缓存单元206和204A-204N之间的一致性。

在一些实施例中，处理器200还可以包括一组一个或多个总线控制器单元216以及系统代理核210。所述一个或多个总线控制器单元216管理一组外围总线，诸如一个或多个PCI总线或PCI快速总线。系统代理核210为各种处理器组件提供管理功能性。在一些实施例中，系统代理核210包括一个或多个集成存储器控制器214，用来管理对各种外部存储器设备（未示出）的访问。

在一些实施例中，处理器核202A-202N中的一个或多个包括对同时多线程的支持。在这样的实施例中，系统代理核210包括用于在多线程处理期间协调和操作核202A-202N的组件。系统代理核210可以另外包括功率控制单元（PCU），所述功率控制单元（PCU）包括用来调节处理器核202A-202N和图形处理器208的功率状态的逻辑和组件。

在一些实施例中，处理器200另外包括图形处理器208，用来执行图形处理操作。在一些实施例中，图形处理器208与所述组共享高速缓存单元206和包括所述一个或多个集成存储器控制器214的系统代理核210耦合。在一些实施例中，系统代理核210还包括显示控制器211，用来将图形处理器输出驱动到一个或多个耦合的显示器。在一些实施例中，显示控制器211还可以是经由至少一个互连与图形处理器耦合的分离模块，或者可以被集成在图形处理器208内。

在一些实施例中，基于环形的互连单元212用于耦合处理器200的内部组件。然而，可以使用替代的互连单元，诸如点对点互连、交换互连或其它技术，包括本领域中公知的技术。在一些实施例中，图形处理器208经由I/O链路213与环形互连212耦合。

示例性I/O链路213表示多种I/O互连中的至少一个，所述多种I/O互连包括促进各种处理器组件与高性能嵌入式存储器模块218（诸如eDRAM模块）之间的通信的封装上I/O互连。在一些实施例中，处理器核202A-202N中的每个和图形处理器208都使用嵌入式存储器模块218作为共享的末级高速缓存。

在一些实施例中，处理器核202A-202N是执行相同指令集架构的同构核。在另一个实施例中，处理器核202A-202N在指令集架构（ISA）方面是异构的，其中处理器核202A-202N中的一个或多个执行第一指令集，而其它核中的至少一个执行第一指令集的子集或者不同的指令集。在一个实施例中，处理器核202A-202N在微架构方面是异构的，其中具有相对较高功耗的一个或多个核与具有较低功耗的一个或多个功率核耦合。另外，处理器200可以被在一个或多个芯片上实现或者被实现为除了其它组件之外还具有所图示的组件的SoC集成电路。

图3是图形处理器300的框图，所述图形处理器300可以是分立的图形处理单元，或者可以是与多个处理核一起集成的图形处理器。在一些实施例中，图形处理器经由到该图形处理器上的寄存器的存储器映射的I/O接口并且用放置到处理器存储器中的命令进行通信。在一些实施例中，图形处理器300包括存储器接口314，用来访问存储器。存储器接口314可以是到本地存储器、一个或多个内部高速缓存、一个或多个共享外部高速缓存和/或系统存储器的接口。

在一些实施例中，图形处理器300还包括显示控制器302，用来将显示输出数据驱动到显示设备320。显示控制器302包括针对用于多层视频或用户界面元素的显示和构成的一个或多个叠加平面的硬件。显示设备320可以是内部或外部显示设备。在一个实施例中，显示设备320是头戴式显示设备，诸如虚拟现实（VR）显示设备或增强现实（AR）显示设备。在一些实施例中，图形处理器300包括视频编解码器引擎306，用来将媒体编码成一个或多个媒体编码格式，从一个或多个媒体编码格式解码媒体，或者在一个或多个编码格式之间对媒体转码，所述一个或多个媒体编码格式包括但不限于：诸如MPEG-2之类的运动图像专家组（MPEG）格式，诸如H.264/MPEG-4 AVC之类的高级视频编码（AVC）格式，和电影电视工程师协会（SMPTE）421M/VC-1，以及诸如JPEG之类的联合图像专家组（JPEG）格式，和运动JPEG（MJPEG）格式。

在一些实施例中，图形处理器300包括块图像传送（BLIT）引擎304，用来执行二维（2D）光栅化操作，包括例如位边界块传送。然而，在一个实施例中，使用图形处理引擎（GPE）310的一个或多个组件来执行2D图形操作。在一些实施例中，GPE 310是用于执行图形操作（包括三维（3D）图形操作和媒体操作）的计算引擎。

在一些实施例中，GPE 310包括用于执行3D操作的3D流水线312，所述3D操作诸如是使用作用于3D基元（primitive）形状（例如，矩形、三角形等）的处理功能来渲染三维图像和场景。3D流水线312包括可编程和固定功能元件，所述元件执行元件内的各种任务和/或产生（spawn）到3D/媒体子系统315的执行线程。虽然3D流水线312可以用于执行媒体操作，但是GPE 310的实施例还包括特别用于执行媒体操作（诸如视频后处理和图像增强）的媒体流水线316。

在一些实施例中，媒体流水线316包括固定功能或可编程逻辑单元，用来代替或代表视频编解码器引擎306执行一个或多个专门的媒体操作，诸如视频解码加速、视频去隔行和视频编码加速。在一些实施例中，媒体流水线316另外包括线程产生单元，用来产生用于在3D/媒体子系统315上执行的线程。产生的线程在3D/媒体子系统315中包括的一个或多个图形执行单元上执行用于媒体操作的计算。

在一些实施例中，3D/媒体子系统315包括用于执行由3D流水线312和媒体流水线316产生的线程的逻辑。在一个实施例中，所述流水线向3D/媒体子系统315发送线程执行请求，所述3D/媒体子系统315包括用于仲裁各种请求并将它们分派到可用线程执行资源的线程分派逻辑。执行资源包括图形执行单元的阵列，用来处理3D和媒体线程。在一些实施例中，3D/媒体子系统315包括用于线程指令和数据的一个或多个内部高速缓存。在一些实施例中，子系统还包括共享存储器，其包括寄存器和可寻址存储器，用来在线程之间共享数据和存储输出数据。

图形处理引擎

图4是依照一些实施例的图形处理器的图形处理引擎410的框图。在一个实施例中，图形处理引擎（GPE）410是图3中所示的GPE 310的一个版本。图4的具有与本文中任何其它图的元件相同的参考号码（或名称）的元件可以以与本文中其它地方描述的方式类似的任何方式操作或起作用，但不限于这样。例如，图示了图3的3D流水线312和媒体流水线316。媒体流水线316在GPE 410的一些实施例中是可选的，并且可能没有被明确地包括在GPE 410内。例如，并且在至少一个实施例中，分离的媒体和/或图像处理器被耦合到GPE 410。

在一些实施例中，GPE 410与命令流式传输器（streamer）403耦合或包括命令流式传输器403，所述命令流式传输器403向3D流水线312和/或媒体流水线316提供命令流。在一些实施例中，命令流式传输器403与存储器耦合，所述存储器可以是系统存储器、或者内部高速缓冲存储器和共享高速缓冲存储器中的一个或多个。在一些实施例中，命令流式传输器403从存储器接收命令并将命令发送到3D流水线312和/或媒体流水线316。所述命令是从环形缓冲器取出的指令，所述环形缓冲器存储用于3D流水线312和媒体流水线316的命令。在一个实施例中，环形缓冲器可以另外包括存储多批的多个命令的批命令缓冲器。用于3D流水线312的命令还可以包括对存储在存储器中的数据的引用，诸如但不限于用于3D流水线312的顶点和几何数据和/或用于媒体流水线316的图像数据和存储器对象。3D流水线312和媒体流水线316通过经由相应流水线内的逻辑执行操作或通过将一个或多个执行线程分派给图形核阵列414来处理所述命令和数据。在一个实施例中，图形核阵列414包括图形核（例如，（一个或多个）图形核415A、（一个或多个）图形核415B）的一个或多个块，每个块包括一个或多个图形核。每个图形核包括一组图形执行资源，以及固定功能纹理处理和/或机器学习和人工智能加速逻辑，该组图形执行资源包括用来执行图形和计算操作的通用和图形特定执行逻辑。

在各种实施例中，3D流水线312包括固定功能和可编程逻辑，用来通过处理指令并将执行线程分派给图形核阵列414来处理一个或多个着色器（shader）程序，诸如顶点着色器、几何着色器、像素着色器、片段着色器、计算着色器或其它着色器程序。图形核阵列414提供执行资源的统一块以供在处理这些着色器程序时使用。图形核阵列414的（一个或多个）图形核415A-415B内的多用途执行逻辑（例如，执行单元）包括对各种3D API着色器语言的支持，并且可以执行与多个着色器相关联的多个同时执行线程。

在一些实施例中，图形核阵列414还包括执行逻辑，用来执行媒体功能，诸如视频和/或图像处理。在一个实施例中，执行单元另外包括通用逻辑，所述通用逻辑可编程以除了图形处理操作之外还执行并行通用计算操作。通用逻辑可以并行地或者结合图1的（一个或多个）处理器核107或如图2中的核202A-202N内的通用逻辑执行处理操作。

由在图形核阵列414上执行的线程生成的输出数据可以将数据输出到存储器在统一返回缓冲器（URB）418中。URB 418可以为多个线程存储数据。在一些实施例中，URB 418可以用于在图形核阵列414上执行的不同线程之间发送数据。在一些实施例中，URB 418可以另外用于在图形核阵列上的线程与共享功能逻辑420内的固定功能逻辑之间的同步。

在一些实施例中，图形核阵列414是可扩展的，使得该阵列包括可变数目的图形核，每个图形核基于GPE 410的目标功率和性能水平而具有可变数目的执行单元。在一个实施例中，执行资源是动态可扩展的，使得可以根据需要来启用或禁用执行资源。

图形核阵列414与共享功能逻辑420耦合，所述共享功能逻辑420包括在图形核阵列中的图形核之间共享的多个资源。共享功能逻辑420内的共享功能是向图形核阵列414提供专门的补充功能性的硬件逻辑单元。在各种实施例中，共享功能逻辑420包括但不限于采样器421、数学422和线程间通信（ITC）423逻辑。另外，一些实施例在共享功能逻辑420内实现一个或多个高速缓存425。

在对给定的专门功能的需求不足以包括在图形核阵列414内的情况下实现共享功能。代之以，该专门功能的单个实例化被实现为共享功能逻辑420中的独立实体，并且在图形核阵列414内的执行资源之间共享。在图形核阵列414之间共享并且被包括在图形核阵列414内的功能的精确集合跨实施例变化。在一些实施例中，共享功能逻辑420内的由图形核阵列414广泛使用的特定共享功能可以被包括在图形核阵列414内的共享功能逻辑416内。在各种实施例中，图形核阵列414内的共享功能逻辑416可以包括共享功能逻辑420内的一些或所有逻辑。在一个实施例中，可以在图形核阵列414的共享功能逻辑416内复制共享功能逻辑420内的所有逻辑元件。在一个实施例中，在支持图形核阵列414内的共享功能逻辑416的情况下不包括共享功能逻辑420。

图5是根据本文中描述的一些实施例的图形处理器核500的硬件逻辑的框图。图5的具有与本文中任何其它图的元件相同的参考号码（或名称）的元件可以以与本文中其它地方描述的方式类似的任何方式操作或起作用，但不限于这样。在一些实施例中，所图示的图形处理器核500被包括在图4的图形核阵列414内。图形处理器核500（有时被称为核切片）可以是模块化的图形处理器内的一个或多个图形核。图形处理器核500是一个图形核切片的范例，并且如本文中描述的图形处理器基于目标功率和性能范围而可能包括多个图形核切片。每个图形核500可以包括与多个子核501A-501F（也被称为子切片）耦合的固定功能块530，所述多个子核501A-501F包括通用和固定功能逻辑的模块化块。

在一些实施例中，固定功能块530包括几何/固定功能流水线536，例如在较低性能和/或较低功率图形处理器实现方式中，所述几何/固定功能流水线536可以由图形处理器500中的所有子核共享。在各种实施例中，几何/固定功能流水线536包括3D固定功能流水线（例如，如图3和图4中的3D流水线312）、视频前端单元、线程产生器和线程分派器、以及管理诸如图4的统一返回缓冲器418之类的统一返回缓冲器的统一返回缓冲器管理器。

在一个实施例中，固定功能块530还包括图形SoC接口537、图形微控制器538和媒体流水线539。图形SoC接口537在图形核500与片上系统集成电路内的其它处理器核之间提供接口。图形微控制器538是可编程子处理器，所述可编程子处理器可配置以管理图形处理器500的各种功能，包括线程分派、调度和抢占。媒体流水线539（例如，图3和图4的媒体流水线316）包括用来促进多媒体数据（包括图像和视频数据）的解码、编码、预处理和/或后处理的逻辑。媒体流水线539经由对子核501A-501F内的计算或采样逻辑的请求而实现媒体操作。

在一个实施例中，SoC接口537使得图形核500能够与通用应用处理器核（例如，CPU）和/或SoC内的其它组件通信，所述其它组件包括诸如共享的末级高速缓冲存储器之类的存储器层次元件、系统RAM和/或嵌入式的片上或封装上DRAM。SoC接口537还可以使得能实现与SoC内的固定功能设备（诸如相机成像流水线）的通信，并且使得能够使用和/或实现可以在图形核500与SoC内的CPU之间共享的全局存储器原子。SoC接口537还可以实现针对图形核500的功率管理控制，并且使得能实现图形核500的时钟域与SoC内的其它时钟域之间的接口。在一个实施例中，SoC接口537使得能够从命令流式传输器和全局线程分派器接收命令缓冲器，所述命令流式传输器和全局线程分派器被配置成向图形处理器内的一个或多个图形核中的每个提供命令和指令。在要执行媒体操作时，可以将所述命令和指令分派给媒体流水线539，或者在要执行图形处理操作时，可以将所述命令和指令分派给几何和固定功能流水线（例如，几何和固定功能流水线536、几何和固定功能流水线514）。

图形微控制器538可以被配置成为图形核500执行各种调度和管理任务。在一个实施例中，图形微控制器538可以对子核501A-501F内的执行单元（EU）阵列502A-502F、504A-504F内的各种图形并行引擎执行图形和/或计算工作负荷调度。在该调度模型中，在包括图形核500的SoC的CPU核上执行的主机软件可以提交涉及对适当的图形引擎的调度操作的多个图形处理器门铃中的一个的工作负荷。调度操作包括确定接下来运行哪个工作负荷，向命令流式传输器提交工作负荷，抢占引擎上运行的现有工作负荷，监视工作负荷的进展，以及在工作负荷完成时通知主机软件。在一个实施例中，图形微控制器538还可以促进图形核500的低功率或空闲状态，从而为图形核500提供独立于操作系统和/或系统上的图形驱动软件跨低功率状态转变来保存和恢复图形核500内的寄存器的能力。

图形核500可以具有比所图示的子核501A-501F多或少的子核，多达N个模块化的子核。对于每组N个子核，图形核500还可以包括共享功能逻辑510、共享和/或高速缓冲存储器512、几何/固定功能流水线514以及用来加速各种图形和计算处理操作的附加固定功能逻辑516。共享功能逻辑510可以包括与图4的共享功能逻辑420（例如，采样器、数学和/或线程间通信逻辑）相关联的逻辑单元，所述逻辑单元可以由图形核500内的每N个子核共享。共享和/或高速缓冲存储器512可以是用于图形核500内的该组N个子核501A-501F的末级高速缓存，并且还可以用作可由多个子核访问的共享存储器。几何/固定功能流水线514可以被包括来代替固定功能块530内的几何/固定功能流水线536，并且可以包括相同或类似的逻辑单元。

在一个实施例中，图形核500包括附加固定功能逻辑516，所述附加固定功能逻辑516可以包括用于由图形核500使用的各种固定功能加速逻辑。在一个实施例中，附加固定功能逻辑516包括用于在仅位置着色时使用的附加几何流水线。在仅位置着色时，存在两个几何流水线——几何/固定功能流水线516、536内的完整几何流水线，以及剔除（cull）流水线，所述剔除流水线是可以被包括在附加固定功能逻辑516内的附加几何流水线。在一个实施例中，剔除流水线是完整几何流水线的削减版本。完整流水线和剔除流水线可以执行相同应用程序的不同实例，每个实例具有分离的上下文。仅位置着色可以隐藏已丢弃三角形的长剔除运行，使得能够在一些实例中较早地完成着色。例如，并且在一个实施例中，附加固定功能逻辑516内的剔除流水线逻辑可以与主应用程序并行地执行位置着色器，并且一般比完整流水线更快地生成关键结果，因为剔除流水线仅取出和着色顶点的位置属性，而不执行像素到帧缓冲器的光栅化和渲染。剔除流水线可以使用生成的关键结果来为所有三角形计算可见性信息，而不考虑那些三角形是否被剔除。完整流水线（其在该实例中可以被称为回放流水线）可以消费可见性信息以跳过剔除的三角形来仅着色最终被传递到光栅化阶段的可见三角形。

在一个实施例中，附加固定功能逻辑516还可以包括机器学习加速逻辑，诸如固定功能矩阵乘法逻辑，用于包括对机器学习训练或推理的优化的实现方式。

在每个图形子核501A-501F内包括一组执行资源，该组执行资源可以用于响应于图形流水线、媒体流水线或着色器程序的请求而执行图形、媒体和计算操作。图形子核501A-501F包括多个EU阵列502A-502F、504A-504F，线程分派和线程间通信（TD/IC）逻辑503A-503F，3D（例如，纹理）采样器505A-505F，媒体采样器506A-506F，着色器处理器507A-507F和共享本地存储器（SLM）508A-508F。EU阵列502A-502F、504A-504F每个都包括多个执行单元，所述多个执行单元是能够在图形、媒体或计算操作（包括图形、媒体或计算着色器程序）的服务中执行浮点和整数/定点逻辑运算的通用图形处理单元。TD/IC逻辑503A-503F执行针对子核内的执行单元的本地线程分派和线程控制操作，并且促进在子核内的执行单元上执行的线程之间的通信。3D采样器505A-505F可以将纹理或其它3D图形相关数据读取到存储器中。3D采样器可以基于所配置的样本状态和与给定纹理相关联的纹理格式而不同地读取纹理数据。媒体采样器506A-506F可以基于与媒体数据相关联的类型和格式而执行类似的读取操作。在一个实施例中，每个图形子核501A-501F可以替代地包括统一的3D和媒体采样器。在子核501A-501F中的每个内的执行单元上执行的线程可以利用每个子核内的共享本地存储器508A-508F，以使得在线程组内执行的线程能够使用片上存储器的公共池来执行。

执行单元

图6A-6B图示了根据本文中描述的实施例的线程执行逻辑600，其包括在图形处理器核中采用的处理元件的阵列。图6A-6B的具有与本文中任何其它图的元件相同的参考号码（或名称）的元件可以以与本文中其它地方描述的方式类似的任何方式操作或起作用，但不限于这样。图6A图示了线程执行逻辑600的概观，所述线程执行逻辑600可以包括用图5的每个子核501A-501F所图示的硬件逻辑的变体。图6B图示了执行单元的示例性内部细节。

如图6A中所图示的，在一些实施例中，线程执行逻辑600包括着色器处理器602、线程分派器604、指令高速缓存606、包括多个执行单元608A-608N的可扩展执行单元阵列、采样器610、数据高速缓存612和数据端口614。在一个实施例中，通过基于工作负荷的计算要求来启用或禁用一个或多个执行单元（例如，执行单元608A、608B、608C、608D至608N-1和608N中的任何执行单元），可扩展执行单元阵列可以动态地扩展。在一个实施例中，包括的组件经由互连结构而互连，所述互连结构链接到所述组件中的每个。在一些实施例中，线程执行逻辑600包括通过指令高速缓存606、数据端口614、采样器610和执行单元608A-608N中的一个或多个到诸如系统存储器或高速缓冲存储器之类的存储器的一个或多个连接。在一些实施例中，每个执行单元（例如608A）是独立的可编程通用计算单元，其能够在为每个线程并行处理多个数据元素时执行多个同时的硬件线程。在各种实施例中，执行单元608A-608N的阵列可扩展以包括任何数目的单独执行单元。

在一些实施例中，执行单元608A-608N主要用于执行着色器程序。着色器处理器602可以处理各种着色器程序并经由线程分派器604分派与着色器程序相关联的执行线程。在一个实施例中，线程分派器包括用来仲裁来自图形和媒体流水线的线程发起请求并在执行单元608A-608N中的一个或多个执行单元上实例化所请求的线程的逻辑。例如，几何流水线可以将顶点、曲面细分或几何着色器分派给线程执行逻辑以用于进行处理。在一些实施例中，线程分派器604还可以处理来自正在执行的着色器程序的运行时线程产生请求。

在一些实施例中，执行单元608A-608N支持包括对许多标准3D图形着色器指令的本机支持的指令集，使得来自图形库（例如，Direct 3D和OpenGL）的着色器程序被用最小的转化而执行。执行单元支持顶点和几何处理（例如，顶点程序、几何程序、顶点着色器）、像素处理（例如，像素着色器、片段着色器）和通用处理（例如，计算和媒体着色器）。执行单元608A-608N中的每个能够进行多发布（multi-issue）单指令多数据（SIMD）执行，并且多线程操作在面对较高等待时间的存储器访问时使得能实现高效的执行环境。每个执行单元内的每个硬件线程都具有专用的高带宽寄存器文件和相关联的独立线程状态。对于能够进行整数、单精度和双精度浮点运算，SIMD分支能力，逻辑运算，超越运算和其它杂项操作的流水线来说，执行是每时钟多发布的。在等待来自存储器或共享功能中的一个的数据时，执行单元608A-608N内的依赖逻辑使等待线程休眠直到所请求的数据已被返回。在等待线程正在休眠时，硬件资源可能致力于处理其它线程。例如，在与顶点着色器操作相关联的延迟期间，执行单元可以为像素着色器、片段着色器或者包括不同的顶点着色器的另一类型着色器程序执行操作。

执行单元608A-608N中的每个执行单元对数据元素的阵列进行操作。数据元素的数目是“执行尺寸”或者用于指令的通道数。执行通道是用于指令内的数据元素访问、屏蔽和流控制的执行逻辑单元。通道数可以独立于用于特定图形处理器的物理算术逻辑单元（ALU）或浮点单元（FPU）的数目。在一些实施例中，执行单元608A-608N支持整数和浮点数据类型。

执行单元指令集包括SIMD指令。各种数据元素可以被作为打包数据类型而存储在寄存器中，并且执行单元将基于元素的数据尺寸来处理各种元素。例如，当对256位宽向量操作时，该向量的256位被存储在寄存器中，并且执行单元对该向量操作，将该向量作为四个分离的64位打包数据元素（四字（QW）尺寸数据元素）、八个分离的32位打包数据元素（双字（DW）尺寸数据元素）、十六个分离的16位打包数据元素（字（W）尺寸数据元素）或三十二个分离的8位数据元素（字节（B）尺寸数据元素）。然而，不同的向量宽度和寄存器尺寸是可能的。

在一个实施例中，一个或多个执行单元可以组合成被组合成融合的执行单元609A-609N，所述融合的执行单元609A-609N具有为融合的EU所共用线程控制逻辑（607A-607N）。多个EU可以被融合成EU组。融合的EU组中的每个EU可以被配置成执行分离的SIMD硬件线程。融合的EU组中EU的数目可以根据实施例而变化。另外，可以每个EU执行各种SIMD宽度，包括但不限于SIMD8、SIMD16和SIMD32。每个融合的图形执行单元609A-609N包括至少两个执行单元。例如，融合的执行单元609A包括第一EU 608A、第二EU 608B以及为第一EU608A和第二EU 608B所共用线程控制逻辑607A。线程控制逻辑607A控制在融合的图形执行单元609A上执行的线程，从而允许融合的执行单元609A-609N内的每个EU使用公共的指令指针寄存器来执行。

线程执行逻辑600中包括一个或多个内部指令高速缓存（例如，606）以缓存用于执行单元的线程指令。在一些实施例中，包括一个或多个数据高速缓存（例如，612）以在线程执行期间缓存线程数据。在一些实施例中，包括采样器610以提供用于3D操作的纹理采样和用于媒体操作的媒体采样。在一些实施例中，采样器610包括专门的纹理或媒体采样功能性，以在将采样数据提供给执行单元之前的采样过程期间处理纹理或媒体数据。

在执行期间，图形和媒体流水线经由线程产生和分派逻辑向线程执行逻辑600发送线程发起请求。一旦一组几何对象已被处理并光栅化成像素数据，就调用着色器处理器602内的像素处理器逻辑（例如，像素着色器逻辑、片段着色器逻辑等）以进一步计算输出信息并且使结果被写入到输出表面（例如，颜色缓冲器、深度缓冲器、模板缓冲器等）。在一些实施例中，像素着色器或片段着色器计算要跨光栅化对象所插值的各种顶点属性的值。在一些实施例中，着色器处理器602内的像素处理器逻辑然后执行应用编程接口（API）供应的像素或片段着色器程序。为了执行该着色器程序，着色器处理器602经由线程分派器604将线程分派给执行单元（例如，608A）。在一些实施例中，着色器处理器602使用采样器610中的纹理采样逻辑来访问在存储器中存储的纹理图中的纹理数据。对纹理数据和输入几何数据的算术运算计算针对每个几何片段的像素颜色数据，或丢弃一个或多个像素以免进一步处理。

在一些实施例中，数据端口614为线程执行逻辑600提供存储器访问机制，以将处理的数据输出到存储器以用于在图形处理器输出流水线上进一步处理。在一些实施例中，数据端口614包括或耦合到一个或多个高速缓冲存储器（例如，数据高速缓存612），用来缓存数据以用于经由数据端口的存储器访问。

如图6B中所图示的，图形执行单元608可以包括指令取出单元637、通用寄存器文件阵列（GRF）624、架构寄存器文件阵列（ARF）626、线程仲裁器622、发送单元630、分支单元632、一组SIMD浮点单元（FPU）634，并且在一个实施例中包括一组专用整数SIMD ALU 635。GRF 624和ARF 626包括与在图形执行单元608中可能处于活动的每个同时硬件线程相关联的一组通用寄存器文件和架构寄存器文件。在一个实施例中，每线程架构状态被维持在ARF626中，而线程执行期间使用的数据被存储在GRF 624中。每个线程的执行状态，包括用于每个线程的指令指针，可以被保持在ARF 626中的线程特定寄存器中。

在一个实施例中，图形执行单元608具有作为同时多线程（SMT）和细粒度交错多线程（IMT）的组合的架构。该架构具有模块化的配置，所述模块化的配置可以在设计时基于同时线程的目标数目和每执行单元的寄存器数目而进行微调，其中跨用于执行多个同时线程的逻辑划分执行单元资源。

在一个实施例中，图形执行单元608可以联合发布（co-issue）多个指令，所述多个指令每个都可以是不同的指令。图形执行单元线程608的线程仲裁器622可以将所述指令分派给发送单元630、分支单元642或（一个或多个）SIMD FPU 634中的一个以用于执行。每个执行线程可以访问GRF 624内的128个通用寄存器，其中每个寄存器可以存储32字节，可作为32位数据元素的SIMD 8元素向量来访问。在一个实施例中，每个执行单元线程能够访问GRF 624内的4千字节，但是实施例未被如此限制，并且在其它实施例中可以提供更多或更少的寄存器资源。在一个实施例中，多达七个线程可以同时执行，但是每执行单元的线程数目也可以根据实施例而变化。在其中七个线程可以访问4千字节的实施例中，GRF 624可以存储总共28千字节。灵活的寻址模式可以允许寄存器被一起寻址以有效地构建更宽的寄存器或表示跨过的矩形块数据结构。

在一个实施例中，经由由消息传递发送单元630执行的“发送”指令来分派存储器操作、采样器操作和其它较长等待时间系统通信。在一个实施例中，将分支指令分派给专用分支单元632以促进SIMD发散和最终收敛。

在一个实施例中，图形执行单元608包括一个或多个SIMD浮点单元（FPU）634，用来执行浮点运算。在一个实施例中，（一个或多个）FPU 634还支持整数计算。在一个实施例中，（一个或多个）FPU 634可以SIMD执行数目多达M个数目的32位浮点（或整数）运算，或者SIMD执行多达2M个16位整数或16位浮点运算。在一个实施例中，（一个或多个）FPU中的至少一个提供扩展的数学能力以支持高吞吐量的超越数学函数和双精度64位浮点。在一些实施例中，一组8位整数SIMD ALU 635也存在，并且可以被特别优化以执行与机器学习计算相关联的操作。

在一个实施例中，可以在图形子核分组（例如，子切片）中实例化图形执行单元608的多个实例的阵列。出于可扩展性，产品架构师可以每子核分组选择确切数目的执行单元。在一个实施例中，执行单元608可以跨多个执行通道执行指令。在另一实施例中，在不同通道上执行在图形执行单元608上执行的每个线程。

图7是图示了根据一些实施例的图形处理器指令格式700的框图。在一个或多个实施例中，图形处理器执行单元支持具有以多个格式的指令的指令集。实线框图示了一般被包括在执行单元指令中的组分，而虚线包括可选的或仅被包括在指令的子集中的组分。在一些实施例中，所描述和图示的指令格式700是宏指令，因为它们是被供应给执行单元的指令，与一旦该指令被处理就由指令解码产生的微操作相对。

在一些实施例中，图形处理器执行单元天然地支持以128位指令格式710的指令。基于所选指令、指令选项、和操作数的数目，64位压缩的指令格式730可用于一些指令。本机128位指令格式710提供对所有指令选项的访问，而一些选项和操作被限制成以64位格式730。以64位格式730的可用的本机指令随实施例而变化。在一些实施例中，使用索引字段713中的一组索引值来部分地压缩指令。执行单元硬件基于索引值而引用一组压缩表，并且使用压缩表输出来重建以128位指令格式710的本机指令。

对于每个格式，指令操作码712定义执行单元要执行的操作。执行单元跨每个操作数的多个数据元素并行地执行每个指令。例如，响应于加法指令，执行单元跨表示纹理元素或图片元素的每个颜色通道执行同时加法运算。默认情况下，执行单元跨操作数的所有数据通道执行每个指令。在一些实施例中，指令控制字段714使得能够控制某些执行选项，诸如通道选择（例如，预测）和数据通道顺序（例如，拌和）。对于以128位指令格式710的指令，执行尺寸（exec-size）字段716限制将并行执行的数据通道的数目。在一些实施例中，执行尺寸字段716不可用于64位压缩指令格式730。

一些执行单元指令具有多达三个操作数，包括两个源操作数src0 720、src1 722和一个目的地718。在一些实施例中，执行单元支持双目的地指令，其中目的地中的一个被隐含。数据操纵指令可以具有第三源操作数（例如，SRC2 724），其中指令操作码712确定源操作数的数目。指令的最后一个源操作数可以是与该指令一起传递的立即数（immediate）（例如，被硬编码的）值。

在一些实施例中，128位指令格式710包括访问/地址模式字段726，所述访问/地址模式字段726指定例如使用直接寄存器寻址模式还是间接寄存器寻址模式。当使用直接寄存器寻址模式时，一个或多个操作数的寄存器地址由指令中的位直接提供。

在一些实施例中，128位指令格式710包括访问/地址模式字段726，所述访问/地址模式字段726为指令指定地址模式和/或访问模式。在一个实施例中，访问模式用于为指令定义数据访问对齐。一些实施例支持包括16字节对齐的访问模式和1字节对齐的访问模式的访问模式，其中所述访问模式的字节对齐确定指令操作数的访问对齐。例如，当处于第一模式中时，指令可以为源和目的地操作数使用字节对齐的寻址，并且当处于第二模式中时，指令可以为所有源和目的地操作数使用16字节对齐的寻址。

在一个实施例中，访问/地址模式字段726的地址模式部分确定指令要使用直接寻址还是间接寻址。当使用直接寄存器寻址模式时，指令中的位直接提供一个或多个操作数的寄存器地址。当使用间接寄存器寻址模式时，可以基于指令中的地址寄存器值和地址立即数字段来计算一个或多个操作数的寄存器地址。

在一些实施例中，基于操作码712位字段对指令进行分组以简化操作码解码740。对于8位操作码，位4、5和6允许执行单元确定操作码的类型。所示的精确操作码分组仅是示例。在一些实施例中，移动和逻辑操作码组742包括数据移动和逻辑指令（例如，移动（mov）、比较（cmp））。在一些实施例中，移动和逻辑组742共享五个最高有效位（MSB），其中移动（mov）指令以0000xxxxb的形式，并且逻辑指令以0001xxxxb的形式。流控制指令组744（例如，调用、跳转（jmp））包括以0010xxxxb（例如，0x20）形式的指令。杂项指令组746包括指令的混合，所述指令包括以0011xxxxb（例如，0x30）形式的同步指令（例如，等待、发送）。并行数学指令组748包括以0100xxxxb（例如，0x40）形式的分量方式的算术指令（例如，加、乘（mul））。并行数学组748跨数据通道并行地执行算术运算。向量数学组750包括以0101xxxxb（例如，0x50）形式的算术指令（例如，dp4）。向量数学组对向量操作数执行诸如点积计算之类的算术。

图形流水线

图8是图形处理器800的另一个实施例的框图。图8的具有与本文中任何其它图的元件相同的参考号码（或名称）的元件可以以与本文中其它地方描述的方式类似的任何方式操作或起作用，但不限于这样。

在一些实施例中，图形处理器800包括几何流水线820、媒体流水线830、显示引擎840、线程执行逻辑850和渲染输出流水线870。在一些实施例中，图形处理器800是包括一个或多个通用处理核的多核处理系统内的图形处理器。通过向一个或多个控制寄存器（未示出）的寄存器写入或经由通过环形互连802发布到图形处理器800的命令来控制该图形处理器。在一些实施例中，环形互连802将图形处理器800耦合到其它处理组件，诸如其它图形处理器或通用处理器。来自环形互连802的命令由命令流式传输器803解释，所述命令流式传输器803向几何流水线820或媒体流水线830的单独组件供应指令。

在一些实施例中，命令流式传输器803指导顶点取出器805的操作，所述顶点取出器805从存储器读取顶点数据并执行由命令流式传输器803提供的顶点处理命令。在一些实施例中，顶点取出器805将顶点数据提供给顶点着色器807，所述顶点着色器807对每个顶点执行坐标空间变换和照明（lighting）操作。在一些实施例中，顶点取出器805和顶点着色器807通过经由线程分派器831将执行线程分派给执行单元852A-852B来执行顶点处理指令。

在一些实施例中，执行单元852A-852B是具有用于执行图形和媒体操作的指令集的向量处理器的阵列。在一些实施例中，执行单元852A-852B具有特定于每个阵列或在阵列之间共享的附接L1高速缓存851。该高速缓存可以被配置为数据高速缓存、指令高速缓存或被分区以在不同分区中包含数据和指令的单个高速缓存。

在一些实施例中，几何流水线820包括曲面细分组件，用来执行3D对象的硬件加速曲面细分。在一些实施例中，可编程外壳着色器811配置曲面细分操作。可编程域着色器817提供对曲面细分输出的后端评估。曲面细分器813在外壳着色器811的指导下进行操作，并且包含专用逻辑以基于作为几何流水线820的输入而提供的粗糙几何模型来生成一组详细几何对象。在一些实施例中，如果不使用曲面细分，则可以绕过曲面细分组件（例如，外壳着色器811、曲面细分器813和域着色器817）。

在一些实施例中，完整的几何对象可以由几何着色器819经由分派给执行单元852A-852B的一个或多个线程来处理，或者可以直接前进到裁剪器829。在一些实施例中，几何着色器对全部的几何对象而不是如在图形流水线的先前阶段中的顶点或顶点的面片（patch）进行操作。如果禁用曲面细分，则几何着色器819从顶点着色器807接收输入。在一些实施例中，几何着色器819可由几何着色器程序编程，以在曲面细分单元被禁用时执行几何曲面细分。

在光栅化之前，裁剪器829可以处理顶点数据。裁剪器829可以是具有裁剪和几何着色器功能的固定功能裁剪器或可编程裁剪器。在一些实施例中，渲染输出流水线870中的光栅化器和深度测试组件873分派像素着色器以将几何对象转换成每像素表示。在一些实施例中，像素着色器逻辑被包括在线程执行逻辑850中。在一些实施例中，应用程序可以绕过光栅化器和深度测试组件873并经由流输出单元823访问未光栅化的顶点数据。

图形处理器800具有互连总线、互连结构或某个其它互连机构，所述某个其它互连机构允许在处理器的主要组件之间传递数据和消息。在一些实施例中，执行单元852A-852B和相关联的逻辑单元（例如，L1高速缓存851、采样器854、纹理高速缓存858等）经由数据端口856互连以执行存储器访问并与处理器的渲染输出流水线组件通信。在一些实施例中，采样器854，高速缓存851、858和执行单元852A-852B每个都具有分离的存储器访问路径。在一个实施例中，纹理高速缓存858还可以被配置为采样器高速缓存。

在一些实施例中，渲染输出流水线870包含光栅化器和深度测试组件873，所述光栅化器和深度测试组件873将基于顶点的对象转换成相关联的基于像素的表示。在一些实施例中，光栅化器逻辑包括加窗器（windower）/屏蔽器单元，用来执行固定功能三角形和线光栅化。在一些实施例中，相关联的渲染高速缓存878和深度高速缓存879也是可用的。像素操作组件877对数据执行基于像素的操作，但是在一些实例中，与2D操作（例如，用混和的位块图像传送）相关联的像素操作由2D引擎841执行，或者在显示时由显示控制器843使用叠加显示平面来代替。在一些实施例中，共享L3高速缓存875可用于所有图形组件，从而允许在不使用主系统存储器的情况下对数据的共享。

在一些实施例中，图形处理器媒体流水线830包括媒体引擎837和视频前端834。在一些实施例中，视频前端834从命令流式传输器803接收流水线命令。在一些实施例中，媒体流水线830包括分离的命令流式传输器。在一些实施例中，视频前端834在将所述命令发送到媒体引擎837之前处理媒体命令。在一些实施例中，媒体引擎837包括线程产生功能性，用来产生用于经由线程分派器831分派给线程执行逻辑850的线程。

在一些实施例中，图形处理器800包括显示引擎840。在一些实施例中，显示引擎840在处理器800外部并且经由环形互连802或者某个其它互连总线或结构与图形处理器耦合。在一些实施例中，显示引擎840包括2D引擎841和显示控制器843。在一些实施例中，显示引擎840包含能够独立于3D流水线操作的专用逻辑。在一些实施例中，显示控制器843与显示设备（未示出）耦合，所述显示设备可以是如在膝上型计算机中的系统集成显示设备或者经由显示设备连接器附接的外部显示设备。

在一些实施例中，几何流水线820和媒体流水线830可配置成基于多个图形和媒体编程接口而执行操作，并且不特定于任何一个应用编程接口（API）。在一些实施例中，用于图形处理器的驱动软件将特定于特定图形或媒体库的API调用翻译成可以由图形处理器处理的命令。在一些实施例中，为全部来自Khronos Group的开放图形库（OpenGL）、开放计算语言（OpenCL）和/或Vulkan图形和计算API提供支持。在一些实施例中，还可以为来自微软公司的Direct3D库提供支持。在一些实施例中，可以支持这些库的组合。还可以为开源计算机视觉库（OpenCV）提供支持。如果可以做出从具有兼容的3D流水线的未来API的流水线到图形处理器的流水线的映射，则还将支持该未来API。

图形流水线编程

图9A是图示了根据一些实施例的图形处理器命令格式900的框图。图9B是图示了根据实施例的图形处理器命令序列910的框图。图9A中的实线框图示了一般被包括在图形命令中的组件，而虚线包括可选的或仅被包括在图形命令的子集中的组件。图9A的示例性图形处理器命令格式900包括用来标识客户端902的数据字段、命令操作代码（操作码）904和用于该命令的数据906。子操作码905和命令尺寸908也被包括在一些命令中。

在一些实施例中，客户端902指定处理命令数据的图形设备的客户端单元。在一些实施例中，图形处理器命令解析器检查每个命令的客户端字段以调节命令的进一步处理并将命令数据路由到适当的客户端单元。在一些实施例中，图形处理器客户端单元包括存储器接口单元、渲染单元、2D单元、3D单元和媒体单元。每个客户端单元都具有处理命令的对应处理流水线。一旦命令被客户端单元接收，客户端单元就读取操作码904，并且如果存在，则读取子操作码905以确定要执行的操作。客户端单元使用数据字段906中的信息来执行该命令。对于一些命令，期望明确的命令尺寸908来指定命令的尺寸。在一些实施例中，命令解析器基于命令操作码来自动确定命令中的至少一些的尺寸。在一些实施例中，经由双字的倍数对齐命令。

图9B中的流程图图示了示例性图形处理器命令序列910。在一些实施例中，以图形处理器的实施例为特征的数据处理系统的软件或固件使用所示的命令序列的一个版本来建立、执行和终止一组图形操作。仅出于示例的目的示出和描述了样本命令序列，因为实施例不限于这些特定命令或不限于该命令序列。此外，所述命令可以被作为命令序列中的一批命令而发布，使得图形处理器将至少部分地同时处理命令的序列。

在一些实施例中，图形处理器命令序列910可以以流水线冲刷（flush）命令912开始，以使任何活动图形流水线完成针对该流水线的当前未决的命令。在一些实施例中，3D流水线922和媒体流水线924不同时操作。执行流水线冲刷以使活动图形流水线完成任何未决的命令。响应于流水线冲刷，用于图形处理器的命令解析器将暂停命令处理，直到活动绘图引擎完成未决的操作并且相关的读取高速缓存被无效。可选地，渲染高速缓存中被标记为“脏”的任何数据都可以被冲刷到存储器。在一些实施例中，流水线冲刷命令912可以被用于流水线同步或在将图形处理器放置于低功率状态中之前使用。

在一些实施例中，当命令序列要求图形处理器在流水线之间显式地切换时使用流水线选择命令913。在一些实施例中，在发布流水线命令之前，在执行上下文内仅需要流水线选择命令913一次，除非该上下文要为两个流水线发布命令。在一些实施例中，紧接在流水线经由流水线选择命令913切换之前需要流水线冲刷命令912。

在一些实施例中，流水线控制命令914配置用于操作的图形流水线，并且用于编程3D流水线922和媒体流水线924。在一些实施例中，流水线控制命令914为活动流水线配置流水线状态。在一个实施例中，流水线控制命令914用于流水线同步并用来在处理一批命令之前从活动流水线内的一个或多个高速缓冲存储器清除数据。

在一些实施例中，返回缓冲器状态命令916用于为相应流水线配置一组返回缓冲器以写入数据。一些流水线操作需要一个或多个返回缓冲器的分配、选择或配置，操作在处理期间将中间数据写入到所述一个或多个返回缓冲器中。在一些实施例中，图形处理器还使用一个或多个返回缓冲器来存储输出数据和执行跨线程通信。在一些实施例中，返回缓冲器状态916包括用于一组流水线操作的选择返回缓冲器的尺寸和数目。

命令序列中的剩余命令基于用于操作的活动流水线而不同。基于流水线确定920，命令序列被定制成以3D流水线状态930开始的3D流水线922或者从媒体流水线状态940开始的媒体流水线924。

用来配置3D流水线状态930的命令包括用于顶点缓冲器状态、顶点元素状态、恒定颜色状态、深度缓冲器状态以及要在处理3D基元命令之前配置的其它状态变量的3D状态设置命令。至少部分地基于在使用中的特定3D API来确定这些命令的值。在一些实施例中，如果将不使用那些元件，则3D流水线状态930命令也能够选择性地禁用或绕过某些流水线元件。

在一些实施例中，3D基元932命令用于提交要由3D流水线处理的3D基元。经由3D基元932命令传递到图形处理器的命令和相关联的参数被转发到图形流水线中的顶点取出功能。顶点取出功能使用3D基元932命令数据来生成顶点数据结构。顶点数据结构被存储在一个或多个返回缓冲器中。在一些实施例中，3D基元932命令用于经由顶点着色器对3D基元执行顶点操作。为了处理顶点着色器，3D流水线922将着色器执行线程分派给图形处理器执行单元。

在一些实施例中，经由执行934命令或事件来触发3D流水线922。在一些实施例中，寄存器写入触发命令执行。在一些实施例中，经由命令序列中的“go”或“kick”命令来触发执行。在一个实施例中，使用流水线同步命令来触发命令执行以通过图形流水线冲刷命令序列。3D流水线将为3D基元执行几何处理。一旦操作完成，所得到的几何对象就被光栅化并且像素引擎对所得到的像素涂色。还可以包括用来控制像素着色和像素后端操作的附加命令以用于那些操作。

在一些实施例中，图形处理器命令序列910在执行媒体操作时遵循媒体流水线924路径。一般地，用于媒体流水线924的编程的特定使用和方式取决于要执行的媒体或计算操作。在媒体解码期间，可以将特定媒体解码操作卸载到媒体流水线。在一些实施例中，还可以绕过媒体流水线，并且可以使用由一个或多个通用处理核提供的资源来全部或部分地执行媒体解码。在一个实施例中，媒体流水线还包括用于通用图形处理器单元（GPGPU）操作的元件，其中图形处理器用于使用不与图形基元的渲染显式相关的计算着色器程序来执行SIMD向量操作。

在一些实施例中，以与3D流水线922类似的方式配置媒体流水线924。用来配置媒体流水线状态940的一组命令被分派或放置到媒体对象命令942之前的命令队列中。在一些实施例中，用于媒体流水线状态940的命令包括用来配置将用于处理媒体对象的媒体流水线元件的数据。这包括用来配置媒体流水线内的视频解码和视频编码逻辑的数据，诸如编码或解码格式。在一些实施例中，用于媒体流水线状态940的命令还支持使用指向包含一批状态设置的“间接”状态元素的一个或多个指针。

在一些实施例中，媒体对象命令942供应指向用于由媒体流水线处理的媒体对象的指针。媒体对象包括包含要处理的视频数据的存储缓冲器。在一些实施例中，在发布媒体对象命令942之前，所有媒体流水线状态必须是有效的。一旦配置流水线状态并将媒体对象命令942排队，就经由执行命令944或等效执行事件（例如，寄存器写入）触发媒体流水线924。然后可以通过由3D流水线922或媒体流水线924提供的操作对来自媒体流水线924的输出进行后处理。在一些实施例中，以与媒体操作类似的方式配置和执行GPGPU操作。

图形软件架构

图10图示了根据一些实施例的用于数据处理系统1000的示例性图形软件架构。在一些实施例中，软件架构包括3D图形应用程序1010、操作系统1020和至少一个处理器1030。在一些实施例中，处理器1030包括图形处理器1032和一个或多个通用处理器核1034。图形应用程序1010和操作系统1020每个都在数据处理系统的系统存储器1050中执行。

在一些实施例中，3D图形应用程序1010包含包括着色器指令1012的一个或多个着色器程序。着色器语言指令可以用高级着色器语言，诸如高级着色器语言（HLSL）或OpenGL着色器语言（GLSL）。应用程序还包括适于由通用处理器核1034执行的用机器语言的可执行指令1014。应用程序还包括通过顶点数据定义的图形对象1016。

在一些实施例中，操作系统1020是来自微软公司的Microsoft® Windows®操作系统、专有的类似UNIX的操作系统、或者使用Linux内核的变体的开源的类似UNIX的操作系统。操作系统1020可以支持图形API 1022，诸如Direct3D API、OpenGL API或Vulkan API。当Direct3D API在使用中时，操作系统1020使用前端着色器编译器1024将用HLSL的任何着色器指令1012编译成较低级的着色器语言。编译可以是即时（JIT）编译，或者应用程序可以执行着色器预编译。在一些实施例中，在3D图形应用程序1010的编译期间将高级着色器编译成低级着色器。在一些实施例中，以中间形式提供着色器指令1012，诸如由Vulkan API使用的标准可移植中间表示（SPIR）的一个版本。

在一些实施例中，用户模式图形驱动1026包含后端着色器编译器1027，用来将着色器指令1012转换成硬件特定的表示。当OpenGL API在使用中时，用GLSL高级语言的着色器指令1012被传递到用户模式图形驱动1026以用于编译。在一些实施例中，用户模式图形驱动1026使用操作系统内核模式功能1028以与内核模式图形驱动1029通信。在一些实施例中，内核模式图形驱动1029与图形处理器1032通信以分派命令和指令。

IP核实现方式

至少一个实施例的一个或多个方面可以由存储在机器可读介质上的代表性代码来实现，所述机器可读介质表示和/或定义诸如处理器之类的集成电路内的逻辑。例如，机器可读介质可以包括表示处理器内的各种逻辑的指令。当由机器读取时，所述指令可以使机器制造所述逻辑来执行本文中描述的技术。这样的被称为“IP核”的表示是用于集成电路的可重复使用的逻辑单元，所述逻辑单元可以被作为描述集成电路的结构的硬件模型而存储在有形的机器可读介质上。可以将硬件模型供应给各种客户或制造设施，所述各种客户或制造设施将硬件模型加载在制造集成电路的制造机器上。可以制造集成电路，使得该电路执行与本文中描述的任何实施例相关联地描述的操作。

图11A是图示了根据实施例的可以用于制造用来执行操作的集成电路的IP核开发系统1100的框图。IP核开发系统1100可以用于生成模块化的可重复使用的设计，所述模块化的可重复使用的设计可以被结合到更大的设计中或用于构建整个集成电路（例如，SOC集成电路）。设计设施1130可以用高级编程语言（例如，C/C++）生成IP核设计的软件模拟1110。软件模拟1110可以用于使用模拟模型1112来设计、测试和验证IP核的行为。模拟模型1112可以包括功能、行为和/或定时模拟。然后可以从模拟模型1112创建或合成寄存器传送级（RTL）设计1115。RTL设计1115是对硬件寄存器之间的数字信号流进行建模的集成电路的行为的抽象，包括使用建模的数字信号执行的相关联的逻辑。除了RTL设计1115之外，还可以创建、设计或合成在逻辑级或晶体管级处的较低级设计。因而，初始设计和模拟的特定细节可以变化。

RTL设计1115或等效物可以由设计设施进一步合成到硬件模型1120中，所述硬件模型1120可以用硬件描述语言（HDL）或者物理设计数据的某个其它表示。可以进一步模拟或测试HDL以验证IP核设计。可以存储IP核设计以用于使用非易失性存储器1140（例如，硬盘、闪存或任何非易失性存储介质）递送到第三方制造设施1165。替代地，可以通过有线连接1150或无线连接1160（例如，经由因特网）传输IP核设计。制造设施1165然后可以制造至少部分地基于IP核设计的集成电路。制造的集成电路可以被配置成执行依照本文中描述的至少一个实施例的操作。

图11B图示了根据本文中描述的一些实施例的集成电路封装组装件1170的横截面侧视图。集成电路封装组装件1170图示了如本文中描述的一个或多个处理器或加速器设备的实现方式。封装组装件1170包括连接到基板1180的硬件逻辑1172、1174的多个单元。逻辑1172、1174可以至少部分地以可配置逻辑或固定功能性逻辑硬件来实现，并且可以包括（一个或多个）处理器核、（一个或多个）图形处理器或本文中描述的其它加速器设备中的任一个的一个或多个部分。逻辑1172、1174的每个单元可以在半导体管芯内实现，并且经由互连结构1173与基板1180耦合。互连结构1173可以被配置成在逻辑1172、1174与基板1180之间路由电信号，并且可以包括互连，诸如但不限于凸块或支柱。在一些实施例中，互连结构1173可以被配置成路由电信号，诸如例如与逻辑1172、1174的操作相关联的输入/输出（I/O）信号和/或电源或接地信号。在一些实施例中，基板1180是环氧基层压基板。在其它实施例中，封装组装件1170可以包括其它合适类型的基板。封装组装件1170可以经由封装互连1183连接到其它电气设备。封装互连1183可以耦合到基板1180的表面以将电信号路由到其它电气设备，诸如母板、其它芯片组或多芯片模块。

在一些实施例中，逻辑1172、1174的单元与被配置成在逻辑1172、1174之间路由电信号的桥1182电耦合。桥1182可以是为电信号提供路线的密集互连结构。桥1182可以包括由玻璃或合适的半导体材料构成的桥基板。可以在桥基板上形成电气布线特征，以在逻辑1172、1174之间提供芯片到芯片连接。

虽然图示了逻辑1172、1174的两个单元和桥1182，但是本文中描述的实施例可以在一个或多个管芯上包括更多或更少的逻辑单元。所述一个或多个管芯可以由零个或多个桥连接，因为当在单个管芯上包括该逻辑时可以不包括桥1182。替代地，多个管芯或逻辑单元可以由一个或多个桥连接。另外，多个逻辑单元、管芯和桥可以以包括三维配置的其它可能配置而连接在一起。

示例性片上系统集成电路

图12-14图示了根据本文中描述的各种实施例的可以使用一个或多个IP核制造的示例性集成电路和相关联的图形处理器。除了所图示的之外，还可以包括其它逻辑和电路，包括附加的图形处理器/核、外围接口控制器或通用处理器核。

图12是图示了根据实施例的可以使用一个或多个IP核制造的示例性片上系统集成电路1200的框图。示例性集成电路1200包括一个或多个应用处理器1205（例如，CPU）、至少一个图形处理器1210，并且可以另外包括图像处理器1215和/或视频处理器1220，其中的任何一个可以是来自相同或多个不同的设计设施的模块化的IP核。集成电路1200包括外围或总线逻辑，其包括USB控制器1225、UART控制器1230、SPI/SDIO控制器1235和I²S/I²C控制器1240。另外，集成电路可以包括耦合到高清晰度多媒体接口（HDMI）控制器1250和移动产业处理器接口（MIPI）显示接口1255中的一个或多个的显示设备1245。存储可以由包括闪存和闪存控制器的闪存子系统1260提供。可以经由存储器控制器1265提供存储器接口以用于访问SDRAM或SRAM存储器设备。一些集成电路另外包括嵌入式安全引擎1270。

图13A-13B是图示了根据本文中描述的实施例的用于在SoC内使用的示例性图形处理器的框图。图13A图示了根据实施例的可以使用一个或多个IP核制造的片上系统集成电路的示例性图形处理器1310。图13B图示了根据实施例的可以使用一个或多个IP核制造的片上系统集成电路的附加示例性图形处理器1340。图13A的图形处理器1310是低功率图形处理器核的示例。图13B的图形处理器1340是较高性能的图形处理器核的示例。图形处理器1310、1340中的每个可以是图12的图形处理器1210的变体。

如图13A中所示，图形处理器1310包括顶点处理器1305和一个或多个片段处理器1315A-1315N（例如，1315A、1315B、1315C、1315D至1315N-1以及1315N）。图形处理器1310可以经由分离的逻辑执行不同的着色器程序，使得顶点处理器1305被优化以执行用于顶点着色器程序的操作，而所述一个或多个片段处理器1315A-1315N执行用于片段或像素着色器程序的片段（例如，像素）着色操作。顶点处理器1305执行3D图形流水线的顶点处理阶段并生成基元和顶点数据。（一个或多个）片段处理器1315A-1315N使用由顶点处理器1305生成的基元和顶点数据来产生在显示设备上显示的帧缓冲器。在一个实施例中，（一个或多个）片段处理器1315A-1315N被优化以执行如在OpenGL API中提供的片段着色器程序，其可以被用于实行与如在Direct 3D API中提供的像素着色器程序类似的操作。

图形处理器1310另外包括一个或多个存储器管理单元（MMU）1320A-1320B、（一个或多个）高速缓存1325A-1325B和（一个或多个）电路互连1330A-1330B。所述一个或多个MMU1320A-1320B为图形处理器1310（包括为顶点处理器1305和/或（一个或多个）片段处理器1315A-1315N）提供虚拟到物理地址映射，除了存储在所述一个或多个高速缓存1325A-1325B中的顶点或图像/纹理数据之外，所述顶点处理器1305和/或（一个或多个）片段处理器1315A-1315N还可以引用存储在存储器中的顶点或图像/纹理数据。在一个实施例中，所述一个或多个MMU 1320A-1320B可以与系统内的其它MMU同步，所述其它MMU包括与图12的所述一个或多个应用处理器1205、图像处理器1215和/或视频处理器1220相关联的一个或多个MMU，使得每个处理器1205-1220可以参与共享或统一的虚拟存储器系统。根据实施例，所述一个或多个电路互连1330A-1330B使得图形处理器1310能够或者经由SoC的内部总线或者经由直接连接与SoC内的其它IP核对接。

如图13B中所示，图形处理器1340包括图13A的图形处理器1310的所述一个或多个MMU 1320A-1320B、高速缓存1325A-1325B和电路互连1330A-1330B。图形处理器1340包括一个或多个着色器核1355A-1355N（例如，1355A、1355B、1355C、1355D、1355E、1355F至1355N-1以及1355N），其提供统一的着色器核架构，其中单核或类型或核可以执行所有类型的可编程着色器代码，包括着色器程序代码以实现顶点着色器、片段着色器和/或计算着色器。存在的着色器核的确切数目可以在实施例与实现方式之间变化。另外，图形处理器1340包括核间任务管理器1345，其充当线程分派器以将执行线程分派给一个或多个着色器核1355A-1355N和分块（tiling）单元1358以加速用于基于图块的渲染的分块操作，其中用于场景的渲染操作被在图像空间中细分，例如用来利用场景内的局部空间相干性或优化内部高速缓存的使用。

图14A-14B图示了根据本文中描述的实施例的附加示例性图形处理器逻辑。图14A图示了可以被包括在图12的图形处理器1210内的图形核1400，并且可以是如图13B中的统一着色器核1355A-1355N。图14B图示了适于在多芯片模块上部署的高度并行的通用图形处理单元1430。

如图14A中所示，图形核1400包括共享指令高速缓存1402、纹理单元1418和高速缓存/共享存储器1420，其为图形核1400内的执行资源所共用。图形核1400可以包括多个切片1401A-1401N或用于每个核的分区，并且图形处理器可以包括图形核1400的多个实例。切片1401A-1401N可以包括支持逻辑，所述支持逻辑包括本地指令高速缓存1404A-1404N、线程调度器1406A-1406N、线程分派器1408A-1408N和一组寄存器1410A。为了执行逻辑运算，切片1401A-1401N可以包括一组附加功能单元（AFU 1412A-1412N）、浮点单元（FPU 1414A-1414N）、整数算术逻辑单元（ALU 1416A-1416N）、地址计算单元（ACU 1413A-1413N）、双精度浮点单元（DPFPU 1415A-1415N）和矩阵处理单元（MPU 1417A-1417N）。

计算单元中的一些以特定精度进行运算。例如，FPU 1414A-1414N可以执行单精度（32位）和半精度（16位）浮点运算，而DPFPU 1415A-1415N执行双精度（64位）浮点运算。ALU1416A-1416N可以以8位、16位和32位精度执行可变精度整数运算，并且可以被配置用于混合精度运算。MPU 1417A-1417N也可以被配置用于混合精度矩阵运算，包括半精度浮点运算和8位整数运算。MPU 1417A-1417N可以执行多种矩阵运算以加速机器学习应用框架，包括使得能够支持加速的通用矩阵到矩阵乘法（GEMM）。AFU 1412A-1412N可以执行浮点或整数单元不支持的附加逻辑运算，包括三角运算（例如，正弦、余弦等）。

如图14B中所示，通用处理单元（GPGPU）1430可以被配置成使得图形处理单元的阵列能够执行高度并行的计算操作。另外，GPGPU 1430可以直接链接到GPGPU的其它实例以创建多GPU集群来为特定深度神经网络改进训练速度。GPGPU 1430包括主机接口1432以使得能实现与主机处理器的连接。在一个实施例中，主机接口1432是PCI Express接口。然而，主机接口也可以是供应商特定的通信接口或通信结构。GPGPU 1430从主机处理器接收命令并使用全局调度器1434将与那些命令相关联的执行线程分配给一组计算集群1436A-1436H。计算集群1436A-1436H共享高速缓冲存储器1438。高速缓冲存储器1438可以用作用于计算集群1436A-1436H内的高速缓冲存储器的较高级高速缓存。

GPGPU 1430包括经由一组存储器控制器1442A-1442B与计算集群1436A-1436H耦合的存储器1434A-1434B。在各种实施例中，存储器1434A-1434B可以包括各种类型的存储器设备，包括动态随机存取存储器（DRAM）或图形随机存取存储器，诸如同步图形随机存取存储器（SGRAM），包括图形双倍数据速率（GDDR）存储器。

在一个实施例中，计算集群1436A-1436H每个都包括一组图形核，诸如图14A的图形核1400，所述组图形核可以包括多个类型的整数和浮点逻辑单元，所述整数和浮点逻辑单元可以以包括适合机器学习计算的一系列精度执行计算操作。例如，并且在一个实施例中，计算集群1436A-1436H的每个中的浮点单元的至少一个子集可以被配置成执行16位或32位浮点运算，而浮点单元的不同子集可以被配置成执行64位浮点运算。

GPGPU 1430的多个实例可以被配置成作为计算集群进行操作。被计算集群用于同步和数据交换的通信机制跨实施例而变化。在一个实施例中，GPGPU 1430的所述多个实例通过主机接口1432进行通信。在一个实施例中，GPGPU 1430包括I/O中枢1439，所述I/O中枢1439将GPGPU 1430与GPU链路1440耦合，所述GPU链路1440使得能实现到GPGPU的其它实例的直接连接。在一个实施例中，GPU链路1440耦合到使得能实现GPGPU 1430的多个实例之间的通信和同步的专用GPU到GPU桥。在一个实施例中，GPU链路1440与高速互连耦合以向其它GPGPU或并行处理器传输和接收数据。在一个实施例中，GPGPU 1430的所述多个实例位于分离的数据处理系统中，并且经由可经由主机接口1432访问的网络设备进行通信。在一个实施例中，除了主机接口1432之外或作为其替代，GPU链路1440可被配置成使得能实现到主机处理器的连接。

虽然所图示的GPGPU 1430的配置可以被配置成训练神经网络，但是一个实施例提供GPGPU 1430的替代配置，所述替代配置可以被配置用于在高性能或低功率推理平台内部署。在推理配置中，GPGPU 1430相对于训练配置包括更少的计算集群1436A-1436H。另外，与存储器1434A-1434B相关联的存储器技术可以在推理与训练配置之间不同，其中较高带宽的存储器技术致力于训练配置。在一个实施例中，GPGPU 1430的推理配置可以支持推理特定指令。例如，推理配置可以提供对一个或多个8位整数点积指令的支持，所述一个或多个8位整数点积指令通常在用于部署的神经网络的推理操作期间使用。

图15A图示了沉浸式视频的多个形式。可以以多个形式呈现沉浸式视频，其取决于观看者可用的自由度。自由度是指对象在3D空间中可以移动的不同方向的数目。示例形式包括3DoF、3DoF Plus和6DoF。6DoF视频可以包括完整的6DoF、全向6DoF和加窗的6DoF。可以经由包括对位置和定向的跟踪的头戴式显示器观看沉浸式视频。

在3DoF视频（例如，360度视频）中，观看者可以改变定向（例如，偏转、俯仰、滚转）但不改变位置。在3DoF Plus视频中，观看者可以改变定向并对位置的变化做出小的改变。

在6DoF视频中，观看者可以改变定向并改变位置。6DoF视频的更受限形式也是可用的。加窗的6DoF允许观看者改变定向和位置，但是观看者被约束到有限的观看区域。全向6DoF使得观看者能够在虚拟场景中采取多个步骤。

图15B图示了用于沉浸式视频的图像投影和纹理平面。可以使用来自多个相机的数据生成视频内容的3D视图。可以为视频内容确定投影平面。可以从视频内容导出多个纹理平面，所述纹理平面可以应用于预先生成的或基于从视频数据导出的点云而生成的3D模型。

图16图示了客户端-服务器系统，通过所述系统，沉浸式视频内容可以由服务器基础设施生成和编码以用于传输到一个或多个客户端设备。客户端设备然后可以解压缩并渲染沉浸式视频内容。可以从光学相机和深度传感器生成沉浸式视频内容。并行计算资源可以将视频和深度数据分解成点云和/或纹理三角形。有纹理的三角形数据也可以由场景的预先生成的3D模型提供。可以压缩点云和/或有纹理的三角形以用于传输到一个或多个客户端设备，所述一个或多个客户端设备可以在本地渲染该内容。

图17A-17B图示了用于编码和解码3DoF Plus内容的系统。

如图17A中所示，多个相机可以被用来捕获视频数据，用于基本视图和附加视图的数据。每个相机可以提供视频数据和深度数据，其中每帧视频数据可以被转换成纹理。可以对供应的数据执行重投影和遮挡检测，所述供应的数据然后可以由面片形成模块形成为面片。各种面片然后由面片打包单元打包。用于打包的面片的元数据可以连同打包的面片数据和基本视频视图一起被编码。

如图17B中所示，可以接收并解码多个视频数据流。所述多个视频流包括用于基本视频的流连同包含用于附加视图的打包的数据的流。还接收被编码的元数据。解码所述多个视频流和元数据。被解码的元数据然后用于将被解码的附加视图拆包。基本视图和附加视图可以用于执行视图生成，其中基本视图和附加视图由客户端重建。被解码的视频可以被作为纹理和深度数据提供给中间视图渲染器，所述中间视图渲染器可以用于为头戴式显示器渲染中间视图。头戴式显示器位置信息被作为反馈提供给中间视图渲染器，所述中间视图渲染器可以渲染更新的视图以用于经由头戴式显示器显示。

图18A-18B图示了用于使用有纹理的几何数据对6DoF内容进行编码和解码的系统。图18A示出了6DoF有纹理的几何编码系统。图18B示出了6DoF有纹理的几何解码系统。6DoF纹理几何编码和解码可以用于使得能实现6DoF沉浸式视频的变体，其中视频数据被作为纹理而应用于几何数据，从而允许基于头戴式显示器的位置和定向渲染新的中间视图。

如图18A中所示，由多个摄像机记录的数据可以与3D模型组合，特别是针对静态对象。可以基于捕获的视频数据来执行重投影和遮挡检测，所述捕获的视频数据还包括深度数据，并且可以对包括基本视频流（视频0）的所有视频流执行面片分解。

如所图示的，将视频纹理和深度数据、分解的面片数据和打包的面片数据提供给几何图像生成器。将视频纹理和深度数据连同打包的面片数据提供给纹理图像生成器。将打包的面片数据连同视频纹理和深度数据提供给属性图像生成器。然后将几何数据、纹理数据和属性数据提供给视频压缩器。

除了提供给视频压缩器的数据之外，还可以基于打包的面片数据来生成占据地图（occupancy map）。可以基于与分解的面片数据组合的视频纹理和深度数据来生成辅助面片信息。还可以压缩占据地图数据和辅助面片信息。然后将视频压缩器数据连同压缩的占据地图数据和辅助面片信息复用成位流。然后可以将位流提供给客户端设备以用于解压缩和查看。

图18B示出了6DoF有纹理的几何解码，所述6DoF有纹理的几何解码可以用于使用图18A的编码系统解码6DoF内容。压缩的位流被接收并解复用成多个视频解码流、占据地图和辅助面片信息。将所述多个视频流和占据地图数据拆包。辅助面片信息然后用于对拆包的数据执行遮挡填充。在遮挡填充之后，可以将文本和深度数据重建成独立的流。可以将那些独立的流提供给中间视图渲染，所述中间视图渲染可以渲染用于在头戴式显示器上显示的视图。

图19A-19B图示了用于经由点云数据对6DoF内容进行编码和解码的系统。图19A图示了6DoF点云编码系统。图19B图示了6DoF点云解码系统。

如图19A中所示，可以将点云数据的输入帧分解成面片数据。可以以与图18A中的视频纹理和深度数据类似的方式来编码点云数据和分解的面片数据。然后可以将被编码的信息复用成压缩的位流以提供给客户端以用于查看。

由图19A的系统输出的压缩的位流可以由图19B中所示的系统解码。如图19B中所示，可以将压缩的位流解复用成多个视频流、占据地图数据和辅助面片信息。然后可以执行几何重建、平滑和纹理重建以重建提供给图19A的6DoF点云编码系统的点云数据。

数据处理系统

图20图示了根据本文中描述的实施例的数据处理系统。图20的数据处理系统2000是具有处理器2002、统一存储器2010和GPGPU 2020的异构处理系统。处理器2002和GPGPU 2020可以是如本文中描述的任何处理器和GPGPU/并行处理器。统一存储器2010表示可以由处理器2002和GPGPU 2020访问的统一地址空间。统一存储器包括系统存储器2012以及GPGPU存储器2018。在一些实施例中，GPGPU存储器2018包括GPGPU 2020内的GPGPU本地存储器2028，并且还可以包括系统存储器2012中的一些或全部。例如，在系统存储器2012中存储的编译的代码2014B也可以被映射到GPGPU存储器2018中以用于由GPGPU 2020访问。在一个实施例中，系统存储器2012中的运行时库2016可以促进编译的代码2014B的编译和/或执行。处理器2002可以执行用于存储在系统存储器2012中的编译器2015的指令。编译器2015可以将源代码2014A编译成编译的代码2014B以用于由处理器2002和/或GPGPU 2020执行。在一个实施例中，编译器2015是着色器编译器或者可以包括着色器编译器，用来编译特别用于由GPGPU 2020执行的着色器程序。

GPGPU 2020包括多个计算块2024A-2024N，所述多个计算块2024A-2024N包括本文中描述的执行逻辑的一个或多个实例。GPGPU 2020还包括一组寄存器2025、高速缓冲存储器2027以及可以用作用于计算块2024A-2024N的共享资源的功率和性能模块2026。在一个实施例中，寄存器2025包括可直接和间接访问的寄存器，其中可间接访问的寄存器可以被优化以用于矩阵计算操作。功率和性能模块2026可以被配置成为计算块2024A-2024N调整功率递送和时钟频率，以在繁重的工作负荷下为计算块2024A-2024N内的门空闲组件供电。GPGPU 2020包括GPGPU本地存储器2028，所述GPGPU本地存储器2028是与GPGPU 2020共享图形卡或多芯片模块的物理存储器模块。

在一个实施例中，GPGPU 2020包括包含斑点分析单元2021的硬件逻辑。斑点分析单元2021可以包括逻辑，至少部分地包括硬件逻辑，用来对点云数据中的三维信息分类。以下更详细地描述由斑点分析单元2021实现的操作。

斑点分类和传输

在一些示例中，在点云数据中定义感兴趣区域（ROI）（也被称为斑点）可能是有用的。例如，斑点的标识对于射线跟踪操作和/或其它图形处理操作可能是有用的。用来对斑点信息分类和/或传输斑点信息的技术可以由图20中描绘的斑点分析单元2021实现，并且将被参照图21-24来描述。这些技术可以在例如图形处理中找到效用，并且可以被实现在图形处理单元（GPU）或中央处理单元（CPU）中。

参考图21，在操作2110处，可以将来自斑点的三维（3D）点云数据投影到地板平面或天花板平面（Y轴）上。在一些示例中，点云数据可以包括位置坐标数据（例如，x、y、z坐标）、颜色数据（例如，R、G、B值等）和表面法线数据。在一些示例中，可以使用诸如K均值分类算法之类的分类算法在3D点云数据中标识一个或多个斑点，所述K均值分类算法基于由位置坐标数据、颜色数据和法线数据标识的特征的相似性来迭代地对数据分类以将空间中的每个数据点分配给K组中的一个。K均值聚类算法标识K个集群的质心并为每个集群生成标签。集群的每个质心都是定义所得到的组的特征值的集合。在3D情况下，KD树应当用于将点云连接到组件中。斑点是相当非刚性的非对称对象。

图22图示了根据本文中描述的一些实施例的从点云数据导出的场景2200。参考图22，在一些示例中，K均值聚类算法可以将篮球场上的运动员标识为感兴趣区域或斑点。一旦在点云数据中标识斑点，生成围绕斑点的边界框2210就可能是有用的。相应边界框2210可以用作后续图形处理中的斑点的缩写表示。例如，边界框可以用于简化射线跟踪操作。

图23图示了根据本文中描述的一些实施例的用于斑点的边界框2210。参考图23，被定位在由分类算法标识的相应斑点周围的假想边界框2210可以被实现为矩形棱柱。边界框2210可以具有地板平面2212和与地板平面2212平行的天花板平面2214，所述地板平面2212与由篮球场的地板2220定义的平面扩及同空间。边界框2210进一步包括定义边界框2210的“壁”的四个侧平面2216。

因而，在操作2110处，将定义斑点的点云数据投影并累积到围绕斑点的边界框的地板平面2212或天花板平面2214中的一个上。该投影有效地构建（操作2115）在由边界框2210的地板平面2212或天花板平面2214定义的（x，z）平面中展开的3D点云数据的直方图，如图25中所图示的。

在操作2120处，从直方图数据确定斑点的质心。在一些示例中，这可以通过首先用某个窗口内核（例如3x3）计算二维（2D）距离变换来执行，所述二维（2D）距离变换将导致每个集群的中心坐标上的峰值。这是因为对于源图像中的每个非零像素，计算该像素与最接近的零像素之间的距离。最高距离将在中心。在那之后，该过程开始沿着所有峰值进行迭代，并且对于每个峰值，它计算到最接近的零像素的半径。如果得到的轮廓与目标对象（例如，人体躯干）对应，则保存其坐标及其半径，并且该过程继续寻找下一个峰值。在获得所有峰值之后，它们被2D矩形围绕，所述2D矩形由斑点的直径定义，并且有时添加由人的手臂或手生成的偏差。在添加斑点高度之后，该2D矩形稍后将被转换成3D框。

在操作2125处，从针对感兴趣的斑点的3D点数据获得高度数据。例如，假设已经将点云数据投影到边界框2210的地板平面上，则检索针对斑点的3D点云数据的y坐标数据。无论云已经被投影到地板还是天花板，高度都将实际上是该斑点的最大累积值。这将不一定是中心，例如如果一个人将他的手举起远离他的身体，则它将高于他的整个身体，使得边界框的高度将被他的手而不是他的头限制。

在操作2130处，计算边界框2210的尺寸。在一些示例中，将在2D过程中获得的数据（矩形）与高度数据合并，以便使边界框从底部到顶部一致。另外，由于斑点可能不一定紧贴地面（例如，跳跃的人、球），因此可能需要将框底从地面向上朝第一体素中继（trunk）到对象（即斑点的底部）。因而我们使围绕斑点的3D边界框在其绝对高度处一致。

在操作2135处，可以用两个相对角点（corner）的（x，y，z）坐标来编码边界框。在图23中描绘的示例中，可以用上角点2220的坐标（X₁，Y₁，Z₁）和下角点2222的坐标（X₂，Y₂，Z₂）来编码边界框2210。这两个坐标对完整地定义边界框2210。

图24是根据实施例的包括图形处理器2404的计算设备2400的框图。计算设备2400可以是如本文中描述的计算设备，诸如如在图1中的数据处理系统100。计算设备2400也可以是通信设备或被包括在通信设备内，所述通信设备诸如是机顶盒（例如，基于因特网的有线电视机顶盒等）、基于全球定位系统（GPS）的设备等。计算设备2400也可以是移动计算设备或被包括在移动计算设备内，所述移动计算设备诸如是蜂窝电话、智能电话、个人数字助理（PDA）、平板计算机、膝上型计算机、电子阅读器、智能电视、电视平台、可穿戴设备（例如，眼镜、手表、手镯、智能卡、珠宝、衣物等）、媒体播放器等。例如，在一个实施例中，计算设备2400包括移动计算设备，所述移动计算设备采用诸如片上系统（“SoC”或“SOC”）之类集成电路（“IC”），其在单个芯片上集成计算设备2400的各种硬件和/或软件组件。

计算设备2400包括图形处理器2404。图形处理器2404表示本文中描述的任何图形处理器。图形处理器包括一个或多个图形引擎、图形处理器核以及如本文中描述的其它图形执行资源。可以以包括但不限于执行单元、着色器引擎、片段处理器、顶点处理器、流式传输多处理器、图形处理器集群或者适于处理图形和图像资源的计算资源的任何集合的形式呈现这样的图形执行资源。

在一个实施例中，图形处理器2404包括高速缓存2414，所述高速缓存2414可以是单个高速缓存或被划分成多个高速缓冲存储器段，包括但不限于任何数目的L1、L2、L3或L4高速缓存，渲染高速缓存，深度高速缓存，采样器高速缓存和/或着色器单元高速缓存。在一个实施例中，图形处理器2404包括调度器2424，所述调度器2424可以是图16的调度器单元1622的变体或者本文中描述的其它调度器逻辑。除了包括用来执行如本文中描述的图形处理和通用指令执行的硬件逻辑的GPGPU引擎2444之外，图形处理器2404还可以另外包括命令流式传输器2426、线程分派器2434和屏障/同步逻辑2436。

如所图示的，在一个实施例中，并且除了图形处理器2404之外，计算设备2400还可以进一步包括任何数目和类型的硬件组件和/或软件组件，包括但不限于应用处理器2406、存储器2408和输入/输出（I/O）源2410。应用处理器2406可以与硬件图形流水线交互，如参照图3所图示的，以共享图形流水线功能性。被处理的数据被存储在硬件图形流水线中的缓冲器中，并且状态信息被存储在存储器2408中。所得到的数据可以被传送到显示控制器以用于经由显示设备输出，诸如图3的显示设备320。显示设备可以具有各种类型，诸如阴极射线管（CRT）、薄膜晶体管（TFT）、液晶显示器（LCD）、有机发光二极管（OLED）阵列等，并且可以被配置成经由图形用户界面向用户显示信息。

应用处理器2406可以包括一个或多个处理器，诸如图1的（一个或多个）处理器102，并且可以是至少部分地用于为计算设备2400执行操作系统（OS）2402的中央处理单元（CPU）。OS 2402可以用作计算设备2400的硬件和/或物理资源与一个或多个用户之间的接口。OS 2402可以包括图形驱动逻辑2422，诸如图10的用户模式图形驱动1026和/或内核模式图形驱动1029。

设想：在一些实施例中，图形处理器2404可以作为应用处理器2406的一部分（诸如物理CPU封装的一部分）存在，在这种情况下，存储器2408的至少一部分可以由应用处理器2406和图形处理器2404共享，但是存储器2408的至少一部分可以是图形处理器2404专用的，或者图形处理器2404可以具有存储器的分离存储。存储器2408可以包括预先分配的缓冲器（例如，帧缓冲器）区域；然而，本领域普通技术人员应当理解：实施例未被如此限制，并且可以使用下级图形流水线可访问的任何存储器。存储器2408可以包括包括利用图形处理器2404来渲染桌面或3D图形场景的应用程序的各种形式的随机存取存储器（RAM）（例如，SDRAM、SRAM等）。存储器控制器可以用于访问存储器2408中的数据并将数据转发到图形处理器2404以用于图形流水线处理。可以使得存储器2408对计算设备2400内的其它组件可用。例如，从计算设备2400的各种I/O源2410接收的任何数据（例如，输入图形数据）可以在软件程序或应用程序的实现方式中由一个或多个处理器（例如，应用处理器2406）操作它们之前临时排队到存储器2408中。类似地，软件程序确定应当从计算设备2400通过计算系统接口中的一个发送到外部实体或者存储到内部存储元件中的数据常常在其被传输或存储之前临时排队在存储器2408中。

I/O源可以包括诸如触摸屏、触摸面板、触摸板、虚拟或常规键盘、虚拟或常规鼠标、端口、连接器、网络设备等的设备。另外，I/O源2410可以包括一个或多个I/O设备，所述一个或多个I/O设备被实现用于向和/或从计算设备2400（例如，联网适配器）传送数据；或者用于计算设备2400内的大规模非易失性贮存器（例如，硬盘驱动器）。包括字母数字和其它键的用户输入设备可以用于向图形处理器2404传送信息和命令选择。另一类型的用户输入设备是诸如鼠标、轨迹球、触摸屏、触摸板或光标方向键之类的光标控制，用来向GPU传送方向信息和命令选择并控制光标在显示设备上的移动。计算设备2400的相机和麦克风阵列可以用于观察手势、记录音频和视频以及接收和传输视觉和音频命令。

被配置为网络接口的I/O源2410可以提供对网络的访问，所述网络诸如是LAN、广域网（WAN）、城域网（MAN）、个域网（PAN）、蓝牙、云网络、蜂窝或移动网络（例如，第三代（3G）、第四代（4G）等）、内联网、因特网等。（一个或多个）网络接口可以包括例如具有一个或多个天线的无线网络接口。（一个或多个）网络接口还可以包括例如用来经由网络电缆与远程设备通信的有线网络接口，所述网络电缆可以是例如以太网电缆、同轴电缆、光纤电缆、串行电缆或并行电缆。

（一个或多个）网络接口可以（例如通过遵照IEEE 802.11标准）提供对LAN的访问，和/或无线网络接口可以（例如通过遵照蓝牙标准）提供对个域网的访问。还可以支持其它无线网络接口和/或协议，包括标准的先前版本和后续版本。除了经由无线LAN标准的通信之外或代替经由无线LAN标准的通信，（一个或多个）网络接口可以使用例如时分多址（TDMA）协议、全球移动通信系统（GSM）协议、码分多址（CDMA）协议和/或任何其它类型的无线通信协议来提供无线通信。

应领会：对于某些实现方式，可以优选比以上描述的示例更少或更多地装备的系统。因此，计算设备2400的配置可以根据许多因素从实现方式到实现方式变化，所述因素诸如是价格约束、性能要求、技术改进或其它情况。示例包括（而不限于）移动设备、个人数字助理、移动计算设备、智能电话、蜂窝电话、手持机、单向寻呼机、双向寻呼机、消息传递设备、计算机、个人计算机（PC）、台式计算机、膝上型计算机、笔记本计算机、手持计算机、平板计算机、服务器、服务器阵列或服务器场、web服务器、网络服务器、因特网服务器、工作站、微型计算机、主机计算机、超级计算机、网络器具、web器具、分布式计算系统、多处理器系统、基于处理器的系统、消费电子产品、可编程消费电子产品、电视、数字电视、机顶盒、无线接入点、基站、订户站、移动订户中心、无线电网络控制器、路由器、集线器、网关、桥、交换机、机器或其组合。

实施例可以被实现为以下中的任何一个或它们的组合：使用父板互连的一个或多个微芯片或集成电路、硬连线逻辑、由存储器设备存储并由微处理器执行的软件、固件、专用集成电路（ASIC）和/或现场可编程门阵列（FPGA）。作为示例，术语“逻辑”可以包括软件或硬件和/或软件和硬件的组合。

例如，实施例可以被提供为计算机程序产品，所述计算机程序产品可以包括其上存储有机器可执行指令的一个或多个机器可读介质，所述机器可执行指令在由诸如计算机、计算机的网络或者其它电子设备之类的一个或多个机器执行时可以导致所述一个或多个机器实行依照本文中描述的实施例的操作。机器可读介质可以包括但不限于软盘、光盘、CD-ROM（压缩盘只读存储器）和磁光盘、ROM、RAM、EPROM（可擦除可编程只读存储器）、EEPROM（电可擦除可编程只读存储器）、磁卡或光卡、闪存或适于存储机器可执行指令的其它类型的介质/机器可读介质。

此外，实施例可以被作为计算机程序产品而下载，其中可以通过通信链路（例如，调制解调器和/或网络连接）经由在载波或其它传播介质中体现和/或由所述载波或其它传播介质调制的一个或多个数据信号将程序从远程计算机（例如，服务器）传送到作出请求的计算机（例如，客户端）。

下面的条款和/或示例涉及特定实施例或其示例。可以在一个或多个实施例中的任何地方使用所述示例中的细节。不同实施例或示例的各种特征可以与包括的一些特征以及不包括的其它特征不同地组合以适合多种不同的应用。示例可以包括主题，诸如根据本文中描述的实施例和示例的方法、用于执行该方法的动作的部件、包括指令的至少一个机器可读介质，所述指令在由机器执行时使机器执行该方法的动作或者装置或系统的动作。各种组件可以是用于执行所描述的操作或功能的部件。

示例1是一种方法，其包括：将来自斑点的三维（3D）点数据投影和累积到地板平面或天花板平面中的一个上；构建所述3D点数据的直方图；确定来自所述斑点的所述点数据的质心；针对所述3D点数据，获得高度数据；以及计算用来围绕所述斑点的边界框的尺寸。

示例2可以包括示例1的主题，进一步包括：用所述边界框的两个相对角点的坐标来编码所述边界框。

示例3可以包括示例1-2中任一个的主题，进一步包括：实现分类算法以标识点云数据集中的一个或多个斑点。

示例4可以包括示例1-3中任一个的主题，其中所述分类算法包括K均值分类算法。

示例5可以包括示例1-4中任一个的主题，进一步包括：针对所述斑点计算二维（2D）距离变换，以生成所述斑点中的数据的坐标中的峰值；以及用由所述斑点的直径定义的2D矩形围绕所述峰值。

示例6可以包括示例1-5中任一个的主题，进一步包括：将所述2D矩形与所述高度数据合并以定义所述边界框。

示例7是一种存储指令的非暂时性机器可读介质，所述指令在由一个或多个处理器执行时使所述一个或多个处理器实行操作，所述操作包括：将来自斑点的三维（3D）点数据投影和累积到地板平面或天花板平面中的一个上；构建所述3D点数据的直方图；确定来自所述斑点的所述点数据的质心；针对所述3D点数据，获得高度数据；以及计算用来围绕所述斑点的边界框的尺寸。

示例8可以包括示例7的主题，所述操作另外包括：用所述边界框的两个相对角点的坐标来编码所述边界框。

示例9可以包括示例7-8中任一个的主题，所述操作另外包括：实现分类算法以标识点云数据集中的一个或多个斑点。

示例10可以包括示例7-9中任一个的主题，其中所述分类算法包括K均值分类算法。

示例11可以包括示例7-10中任一个的主题，所述操作另外包括：针对所述斑点计算二维（2D）距离变换，以生成所述斑点中的数据的坐标中的峰值；以及用由所述斑点的直径定义的2D矩形围绕所述峰值。

示例12可以包括示例7-11中任一个的主题，所述操作另外包括：将所述2D矩形与所述高度数据合并以定义所述边界框。

示例13是一种装置，其包括处理器，所述处理器要：将来自斑点的三维（3D）点数据投影和累积到地板平面或天花板平面中的一个上；构建所述3D点数据的直方图；确定来自所述斑点的所述点数据的质心；并且针对所述3D点数据，获得高度数据；并且计算用来围绕所述斑点的边界框的尺寸。

示例14可以包括示例13的主题，所述处理器要用所述边界框的两个相对角点的坐标来编码所述边界框。

示例15可以包括示例13-14中任一个的主题，所述处理器要实现分类算法以标识点云数据集中的一个或多个斑点。

示例16可以包括示例13-15中任一个的主题，其中所述分类算法包括K均值分类算法。

示例17可以包括示例13-16中任一个的主题，所述处理器要针对所述斑点计算二维（2D）距离变换以生成所述斑点中的数据的坐标中的峰值；并且用由所述斑点的直径定义的2D矩形围绕所述峰值。

示例18可以包括示例13-17中任一个的主题，所述处理器要将所述2D矩形与所述高度数据合并以定义所述边界框。

本领域技术人员将从前面的描述中领会：可以以多种形式实现实施例的广泛技术。因此，虽然已经结合实施例的特定示例描述了实施例，但是实施例的真实范围不应当被如此限制，由于在研究附图、说明书和下面的权利要求书时，其它修改将变得对于技术人员显而易见。

Claims

1.一种方法，包括：

将来自斑点的三维（3D）点数据投影和累积到地板平面或天花板平面中的一个上；

构建所述3D点数据的直方图；

确定来自所述斑点的所述点数据的质心；

针对所述3D点数据，获得高度数据；以及

计算用来围绕所述斑点的边界框的尺寸。

2.根据权利要求1所述的方法，进一步包括：

用所述边界框的两个相对角点的坐标来编码所述边界框。

3.根据权利要求1所述的方法，进一步包括：

实现分类算法以标识点云数据集中的一个或多个斑点。

4.根据权利要求3所述的方法，其中所述分类算法包括K均值分类算法。

5.根据权利要求1所述的方法，进一步包括：

针对所述斑点计算二维（2D）距离变换，以生成所述斑点中的数据的坐标中的峰值；以及

用由所述斑点的直径定义的2D矩形围绕所述峰值。

6.根据权利要求5所述的方法，进一步包括：

将所述2D矩形与所述高度数据合并以定义所述边界框。

7.一种存储指令的非暂时性机器可读介质，所述指令在由一个或多个处理器执行时使所述一个或多个处理器实行操作，所述操作包括：

构建所述3D点数据的直方图；

确定来自所述斑点的所述点数据的质心；

针对所述3D点数据，获得高度数据；以及

计算用来围绕所述斑点的边界框的尺寸。

8.根据权利要求7所述的非暂时性机器可读介质，所述操作另外包括：

用所述边界框的两个相对角点的坐标来编码所述边界框。

9.根据权利要求7所述的非暂时性机器可读介质，所述操作另外包括：

实现分类算法以标识点云数据集中的一个或多个斑点。

10.根据权利要求7所述的非暂时性机器可读介质，其中所述分类算法包括K均值分类算法。

11.根据权利要求7所述的非暂时性机器可读介质，所述操作另外包括：

用由所述斑点的直径定义的2D矩形围绕所述峰值。

12.根据权利要求11所述的非暂时性机器可读介质，所述操作另外包括：

将所述2D矩形与所述高度数据合并以定义所述边界框。

13.一种装置，包括：

处理器，其要：将来自斑点的三维（3D）点数据投影和累积到地板平面或天花板平面中的一个上，构建所述3D点数据的直方图，确定来自所述斑点的所述点数据的质心，针对所述3D点数据获得高度数据，并且计算用来围绕所述斑点的边界框的尺寸；以及

通信地耦合到所述处理器的存储器。

14.根据权利要求13所述的装置，所述处理器要用所述边界框的两个相对角点的坐标来编码所述边界框。

15.根据权利要求13所述的装置，所述处理器要实现分类算法以标识点云数据集中的一个或多个斑点。

16.根据权利要求15所述的装置，其中所述分类算法包括K均值分类算法。

17.根据权利要求13所述的装置，所述处理器要针对所述斑点计算二维（2D）距离变换以生成所述斑点中的数据的坐标中的峰值，并且用由所述斑点的直径定义的2D矩形围绕所述峰值。

18.根据权利要求17所述的装置，所述处理器要将所述2D矩形与所述高度数据合并以定义所述边界框。