CN112292852A - 相机路径的自动生成 - Google Patents
相机路径的自动生成 Download PDFInfo
- Publication number
- CN112292852A CN112292852A CN201880094842.4A CN201880094842A CN112292852A CN 112292852 A CN112292852 A CN 112292852A CN 201880094842 A CN201880094842 A CN 201880094842A CN 112292852 A CN112292852 A CN 112292852A
- Authority
- CN
- China
- Prior art keywords
- camera
- highlight
- data
- angles
- post
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/10—Processing, recording or transmission of stereoscopic or multi-view image signals
- H04N13/106—Processing image signals
- H04N13/111—Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/10—Processing, recording or transmission of stereoscopic or multi-view image signals
- H04N13/106—Processing image signals
- H04N13/167—Synchronising or controlling image signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/20—Image signal generators
- H04N13/204—Image signal generators using stereoscopic image cameras
- H04N13/243—Image signal generators using stereoscopic image cameras using three or more 2D image sensors
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Image Generation (AREA)
Abstract
方法、系统和设备可以提供用于基于相机校准数据和与比赛中的投射物相关联的轨迹数据来自动确定多个相机角度的技术。该技术还可以基于多个相机角度来自动生成用于在比赛中的高亮时刻周围感兴趣的三维(3D)区域的体积式内容回放的相机路径。
Description
技术领域
实施例通常涉及图形系统。更特别地,实施例涉及图形系统中的相机路径的自动生成。
背景技术
沉浸式体育媒体体验交付的最新发展可以已经涉及使用在体育场周围安装的大量相机来捕获体育场内进行的现场比赛的三维(3D)视频。因此,比赛中的关键时刻可能会在视频播放期间暂停,并且渲染为在360°可观看的体积式内容(volumetric content)。然而,当呈现关键的高亮时刻(例如,对于观众而言非常感兴趣的“定格”时刻)时,将要使用的“飞越(flyover)”相机路径的选择可以由个人(例如,操作员)手动进行。这样的解决方案可能既不具有成本效益,也不具有可扩展性。此外,手动选择相机路径可增加时延,这会对用户的观看体验产生负面影响。
附图说明
通过阅读以下说明书和所附权利要求书,并通过参考以下附图,实施例的各种优点对于本领域技术人员将变得明显,其中:
图1是根据实施例的相机路径的示例的俯视图;
图2A是根据实施例操作半导体设备以自动进行相机路径选择的方法的示例的流程图;
图2B是根据实施例操作半导体设备以自动进行相机路径选择的更详细方法的示例的流程图;
图3A是根据实施例的投射物轨迹的示例的俯视图;
图3B是根据实施例将投射物轨迹分区为高亮前轨迹和高亮后轨迹的示例的俯视图;
图4A是根据实施例的覆盖高亮前轨迹的相机组视野的示例的俯视图;
图4B是根据实施例的不覆盖高亮前轨迹的相机组视野的示例的俯视图;
图5A是根据实施例的不同的高亮前相机角度的示例的俯视图;
图5B是根据实施例基本上垂直于高亮后轨迹的高亮后相机角度的示例的俯视图;
图5C是根据实施例基本平行于高亮后轨迹的高亮后相机角度的示例的俯视图;
图6A是根据实施例的选手位置数据和感兴趣的三维(3D)区域的示例的俯视图;
图6B是根据实施例的感兴趣的3D区域的示例的透视图;
图7是根据实施例与相机路径对应的相机视图的序列的示例的图示;
图8是根据实施例的沉浸式内容计算系统的示例的框图;
图9是根据实施例的处理系统的示例的框图;
图10是根据实施例的处理器的示例的框图;
图11是根据实施例的图形处理器的示例的框图;
图12是根据实施例的图形处理器的图形处理引擎的示例的框图;
图13是根据实施例的图形处理器核的硬件逻辑的示例的框图;
图14A至图14B示出根据实施例的线程执行逻辑的示例;
图15是示出根据实施例的图形处理器指令格式的示例的框图;
图16是根据实施例的图形处理器的另一个示例的框图;
图17A是示出根据实施例的图形处理器命令格式的示例的框图;
图17B是示出根据实施例的图形处理器命令序列的示例的框图;
图18示出了根据实施例的用于数据处理系统的示例图形软件架构;
图19A是示出根据实施例的IP核开发系统的示例的框图;
图19B示出了根据实施例的集成电路封装组装件的横截面侧视图的示例;
图20是示出根据实施例的片上系统集成电路的示例的框图;
图21A至图21B是示出根据实施例的供SoC内使用的示例性图形处理器的框图;以及
图22A至图22B示出了根据实施例的另外的示例性图形处理器逻辑。
具体实施方式
现在转到图1,示出了比赛场所,其中相机阵列(“1C”、“2C”等)安装在比赛场所的周边周围并指向比赛场所。安装的相机中的每个都聚焦在比赛场所的特定区域上,并且可以通过相对于相机校准矩阵来分析比赛场所上正在讨论的点来确定相机的覆盖区域。比赛场所可以是英式足球场、网球场、足球场、篮球场、高尔夫球场、棒球场、田径运动场等。在所示的示例中,比赛中的关键“高亮”时刻(例如,对于观众而言非常感兴趣的定格时刻)发生在位置30,其中高亮时刻在播放期间暂停,并渲染为在360°可观看的沉浸式和体积式内容。如将更详细地讨论的,高亮前(例如,“前期视频”)相机角度32(例如,相机方向)、第一中间相机角度34、第二中间相机角度36和高亮后(例如,“后期视频”)相机角度38通常可以定义围绕高亮时刻的相机路径40,该相机路径40是基于相机校准数据、与比赛中的投射物(例如,英式足球、网球、足球、篮球、高尔夫球、棒球、铁饼、标枪等)相关联的轨迹数据、选手位置数据等来自动选择的。
高亮前相机角度32通常可以在高亮时刻中的动作(例如,射门得分)发生之前显示比赛中的上下文。从高亮前相机角度32过渡到第一中间相机角度34,从第一中间相机角度34过渡到第二中间相机角度36以及从第二中间相机角度36过渡到高亮后相机角度38时,高亮时刻被渲染为3D体积。在一个示例中,高亮后相机角度38示出了在高亮时刻中的动作发生之后的结果。因此,当二维(2D)相机视图围绕动作以360°旋转时,所示的相机路径40在高亮时刻之前、期间和之后跟随比赛中的动作。
自动选择相机路径40提供了更具成本效益和可扩展性的解决方案,其减少了时延并增强了用户观看体验。在一个示例中,为相机路径40选择了高亮前相机角度32和高亮后相机角度34之间的最长角度距离,以最大化对观看者的沉浸式冲击。
图2A示出了操作半导体设备(例如,图形处理器)的方法42。方法42可以采用可配置逻辑(诸如例如可编程逻辑阵列(PLA)、现场可编程门阵列(FPGA)、复杂可编程逻辑装置(CPLD))、采用使用电路技术的固定功能性硬件逻辑(诸如例如专用集成电路(ASIC)、互补金属氧化物半导体(CMOS)或晶体管-晶体管逻辑(TTL)技术,或其任何组合)被实现为逻辑指令集中的一个或多个模块,所述逻辑指令集存储在非暂时性机器或计算机可读存储介质中,诸如随机存取存储器(RAM)、只读存储器(ROM)、可编程ROM(PROM)、固件、闪速存储器等。
例如,可以采用一种或多种编程语言的任何组合来编写用于执行方法42中所示的操作的计算机程序代码,所述一种或多种编程语言包括诸如JAVA、SMALLTALK、C++之类的面向对象的编程语言和诸如“C”编程语言或类似的编程语言之类的常规的过程编程语言。另外,逻辑指令可能包括汇编程序指令、指令集架构(ISA)指令、机器指令、机器相关指令、微码、状态设置数据、集成电路的配置数据、个性化电子电路和/或硬件(例如,主机处理器、中央处理单元/CPU、微控制器等)固有的其他结构组件的状态信息。
所示处理框44提供用于基于相机校准数据(例如,相机位置、视野、仰角、焦点、变焦等)和与比赛中的投射物相关联的轨迹数据(例如,实况足球比赛、现场网球赛等)自动确定多个相机角度。在一个示例中,多个相机角度包括高亮前相机角度、高亮后相机角和高亮前相机角度与高亮后相机角之间的一个或多个中间相机角度。在框46处自动生成的相机路径用于在比赛中的高亮时刻周围感兴趣的3D区域的体积式内容回放。在所示示例中,基于多个相机角度生成相机路径。相机路径可能被构造为数据文件的集合,该数据文件的集合指定相机、相机之间的持续时间(例如,旋转速度)、仰角、变焦级别等。
在一个实施例中,框46包括基于多个相机角度、投射物位置数据(例如,在轨迹数据中),选手位置数据和目标区数据(例如,定义比赛场所中的边界、球门和/或目标区域)来选择感兴趣的3D区域(ROI)。框46还可包括将3D ROI重新投影到多个相机角度(例如,在二维/2D空间中)。
现在转到图2B,示出了操作半导体设备(例如,图形处理器)的更详细的方法48。方法48可以采用可配置逻辑(诸如例如PLA、FPGA、CPLD)、采用使用电路技术的固定功能性硬件逻辑(诸如例如ASIC、CMOS或TTL技术,或其任何组合)被实现为逻辑指令集中的一个或多个模块,所述逻辑指令集存储在非暂时性机器或计算机可读存储介质中,诸如RAM、ROM、PROM、固件、闪速存储器等。
所示处理框50提供用于接收轨迹数据(例如,以逐帧为基础包括3D投射物位置)、选手位置数据(例如以逐帧为基础的3D选手位置)和高亮时刻(例如定格标识符)。轨迹数据通常可以指示实况比赛中投射物随时间的3D位置。在实施例中,在框52处,轨迹数据被分区为高亮前轨迹数据和高亮后轨迹数据。在一个示例中,高亮前轨迹数据包括高亮时刻之前的投射物的轨迹,以及高亮后轨迹数据包括高亮时刻之后的投射物的轨迹。可以在框54处计算高亮前至高亮后时间段的物理相机覆盖范围。在一个示例中,框54的输出是候选相机组,其能够显示从高亮前时间段开始到高亮后时间段结束的整个投射物轨迹。
在框56,从候选相机组中选择针对高亮前相机角度和高亮后相机角度的相机。此外,在框58,可以计算/确定一个或多个中间相机角度。在一个示例中,针对高亮前相机角度和高亮后相机角度之间的最长角度距离,选择(一个或多个)中间相机角度,以最大化对观看者的沉浸式冲击。此外,在框60,以3D方式确定了高亮时刻的位置周围的ROI。所示的框60还将3D ROI重新投影到2D视图,其中在框62可以生成虚拟相机路径并将其存储到存储器(例如,非易失性存储器/NVM和/或易失性存储器)。
现在转到图3A和图3B,示出了实况比赛中的投射物的轨迹64(64a、64b,例如,由3D位置/坐标数据以逐帧为基础来指定)。在所示的示例中,轨迹64被分区为在高亮时刻结束的高亮前轨迹64a和在高亮时刻开始的高亮后轨迹64b。因此,可以在高亮前轨迹64a周围定义第一感兴趣区域66,并且可以在高亮后轨迹64b周围定义第二感兴趣区域68。
图4A和图4B示出了针对高亮前轨迹64a的不同相机覆盖场景。更特别地,完整的相机组覆盖范围70(70a-70c)包括第一覆盖范围70a(例如,在第一相机的视野中(未示出))、第二覆盖范围70b(例如,在第二相机的视野中(未示出))和第三覆盖范围70c(例如,在第三相机的视野中(未示出))。因此,高亮前轨迹64a完全位于整个相机组覆盖范围70内。相比之下,部分相机组覆盖范围72(72a、72b)包括第一覆盖范围72a和第二覆盖范围72b,其中高亮轨迹64a部分在第二覆盖范围72b之外。因此,将从候选相机组而不是部分相机组覆盖范围72中选择整个相机组覆盖范围70,以确保捕获了在高亮前时间段期间的动作。
图5A示出了实况比赛中的投射物的轨迹74。轨迹74可以包括被指定为高亮时刻的转折点(例如,在加速度或取向方面发生投射物轨迹的主要变化的点)。在所示的示例中,选择第一高亮前相机角度76,以便从第一方向(例如,投射物后面的相机14C)基本上与轨迹74的高亮前部分平行。另外,还可以选择第二高亮前相机角度78,以便从相对方向基本上与轨迹74的高亮前部分平行(例如,投射物前面的相机34C)。因此,所示的相机角度76、78包括相机方向。可以基于相机角度76、78自动创建单独的相机路径。实际上,与手动方法相比,本文描述的解决方案的自动化性质使得能够创建更多的体积式内容剪辑。
现在转到图5B和图5C,示出了实况比赛中的投射物的轨迹80,其中轨迹80包括被指定为高亮时刻的转折点。高亮后相机角度82可以被选择成与轨迹80的高亮后部分基本上垂直。相反,备选高亮后相机角度84可以被选择成与轨迹80的高亮后部分基本上平行。可以基于相机角度82、84自动创建单独的相机路径。同样,所示方法的自动性质使得能够创建可能比传统更多的体积式内容剪辑。
图6A和图6B示出了在比赛中的高亮时刻周围选择的3D ROI 86。在示出的示例中,反映选手的位置(例如,3D中的选手位置数据)、投射物88的位置(例如,3D中的投射物位置数据)和目标区域90(例如,目标区数据)的数据用于选择3D ROI 86。因此,某些选手(例如,空白点)将在3D ROI 86内部,并且其他选手将在3D ROI 86之外(例如,被3D ROI 86裁剪掉)。3D ROI 86的选择可能涉及围绕投射物88的位置定义体积(例如,五到十米的半径),以覆盖直接涉及高亮时刻动作的选手。如已经指出的,可以采用2D方式将3D ROI 86重新投影到相机角度(例如,高亮前相机角度、(一个或多个)中间相机角度、高亮后相机角度等)。
在一个示例中,将相机角度升高到更高的位置,以示出某个特殊事件(诸如例如越位球)的高亮时刻。通过将重新投影视图的大小调整为固定比例(例如1920/1080像素),也可以增强/增进用户体验,其中相对于3D ROI 86的相机仰角是经由3D到2D点映射(例如,以及Rodrigues变换,鉴于旋转轴和旋转角度,其高效地在空间中旋转矢量)来计算的。
图7示出了遵循如本文所述自动生成的相机路径的相机视图92的序列(视图“1”至“8”)。视图1-3来自高亮前相机视图,视图4和视图5来自中间相机视图,并且视图6-8来自高亮后相机视图。
图8示出了沉浸式内容计算系统150,其通常可以是电子装置/系统的一部分,其具有:计算功能性(例如,个人数字助理/PDA、笔记本计算机、平板计算机、可转换平板、服务器、数据中心、云计算基础设施)、通信功能性(例如,智能电话)、成像功能性(例如,相机、便携式相机)、媒体播放功能性(例如,智能电视/TV)、可穿戴功能性(例如,手表、眼镜、头饰、鞋类、珠宝)、车辆功能性(例如汽车、卡车、摩托车)、机器人功能(例如自主机器人)等或其任何组合。在所示的示例中,系统150包括图形处理器152(例如,图形处理单元/GPU)和主机处理器154(例如,中央处理单元/CPU),所述主机处理器154具有一个或多个处理器核156和集成存储器控制器(IMC)158,其耦合到系统存储器160。
另外,所示的系统150包括与主机处理器154一起实现的输入输出(IO)模块162,以及在SoC 164(例如,半导体管芯)上的图形处理器152。在一个示例中,IO模块162与显示器166(例如,触摸屏、液晶显示器/LCD、发光二极管/LED显示器)、网络控制器168(例如,有线和/或无线)、大容量存储装置170(例如,硬盘驱动器/HDD、光盘、固态驱动器/ SSD、闪速存储器)、相机阵列172以及体积式内容创建子系统174通信。
所示的图形处理器152包括逻辑176(例如,逻辑指令、可配置逻辑、固定功能性硬件逻辑等或其任何组合),以执行已经讨论过的方法42(图2A)和/或方法48(图2B)的一个或多个方面。因此,逻辑176可以基于相机校准数据和与正被记录的比赛中的投射物相关联的轨迹数据来自动确定多个相机角度。在实施例中,逻辑176还基于多个相机角度来自动生成用于在比赛中的高亮时刻周围感兴趣的3D区域的体积式内容回放的相机路径。逻辑176还可基于高亮时刻将轨迹数据分区为高亮前轨迹数据和高亮后轨迹数据。
在另一个实施例中,系统存储器160和/或大容量存储装置170包括指令集(未示出),所述指令当由主机处理器154、图形处理器152和/或IO模块162执行时使系统150执行已经讨论过的方法42(图2A)和/或方法48(图2B)的一个或多个方面。因此,所示系统150比常规系统更具成本效益和可扩展性。另外,系统150表现出减少的时延,这又改进了用户体验。实际上,可以实现近似实时的相机路径选择。
系统概述
图9是根据实施例的处理系统100的框图。在各种实施例中,系统100包括一个或多个处理器102和一个或多个图形处理器108,并且可以是单处理器台式计算机系统、多处理器工作站系统或具有大量处理器102或处理器核107的服务器系统中。在一个实施例中,系统100是并入在供移动、手持式或嵌入式装置中使用的片上系统(SoC)集成电路。
在一个实施例中,系统100可包含或者被并入在以下项内:基于服务器的游戏平台;游戏控制台,其包含游戏和媒体控制台、移动游戏控制台、手持式游戏控制台或在线游戏控制台。在一些实施例中,系统100是移动电话、智能电话、平板计算装置或移动因特网装置。处理系统100还可包含以下各项、与以下各项耦合或者被集成在以下各项内:可穿戴装置,诸如智能手表可穿戴装置;智能眼镜(smart eyewear)装置、增强现实装置或虚拟现实(VR)装置。在一些实施例中,处理系统100是电视或机顶盒装置,其具有一个或多个处理器102和由一个或多个图形处理器108所生成的图形界面。
在一些实施例中,一个或多个处理器102各自包含一个或多个处理器核107以处理指令,所述指令在被执行时,执行用于系统和用户软件的操作。在一些实施例中,一个或多个处理器核107中的每个处理器核被配置成处理特定指令集109。在一些实施例中,指令集109可促进复杂指令集计算(CISC)、精简指令集计算(RISC)或经由超长指令字(VLIW)的计算。多个处理器核107可处理不同指令集109,所述指令集109可包含用于促进对其它指令集的仿真的指令。处理器核107还可包含其它处理装置,诸如数字信号处理器(DSP)。
在一些实施例中,处理器102包含高速缓冲存储器104。取决于架构,处理器102可具有单个内部高速缓存或多个级别的内部高速缓存。在一些实施例中,在处理器102的各种组件之间共享高速缓冲存储器。在一些实施例中,处理器102还使用外部高速缓存(例如,3级(L3)高速缓存或末级高速缓存(LLC))(未示出),其可在使用已知高速缓存一致性技术的处理器核107之间被共享。寄存器堆106另外被包含在处理器102中,所述处理器102可包含用于存储不同类型的数据的不同类型的寄存器(例如,整数寄存器、浮点寄存器、状态寄存器和指令指针寄存器)。一些寄存器可以是通用寄存器,而其它寄存器可特定于处理器102的设计。
在一些实施例中,一个或多个处理器102与一个或多个接口总线110耦合,以在处理器102与系统100中的其它组件之间传送通信信号,诸如地址、数据或控制信号。接口总线110在一个实施例中可以是处理器总线,诸如某一版本的直接媒体接口(DMI)总线。然而,处理器总线不限于DMI总线,并且可包含一个或多个外设组件互连总线(PeripheralComponent Interconnect bus)(例如,PCI、PCI Express)、存储器总线或其它类型的接口总线。在一个实施例中,(一个或多个)处理器102包含集成的存储器控制器116和平台控制器集线器130。存储器控制器116促进存储器装置与系统100的其它组件之间的通信,而平台控制器集线器(PCH)130经由本地I/O总线提供到I/O装置的连接。
存储器装置120可以是动态随机存取存储器(DRAM)装置、静态随机存取存储器(SRAM)装置、闪速存储器装置、相变存储器装置或具有适合性能以充当进程存储器的某一其它存储器装置。在一个实施例中,存储器装置120可作为用于系统100的系统存储器进行操作,以存储数据122和指令121以供在一个或多个处理器102执行应用或进程时使用。存储器控制器116还与可选的外部图形处理器118耦合,所述外部图形处理器112可与处理器102中的一个或多个图形处理器108进行通信以执行图形和媒体操作。
在一些实施例中,显示装置111可连接到(一个或多个)处理器102。显示装置111可以是如在移动电子装置或膝上型装置中的内部显示装置或者经由显示接口(例如,DisplayPort等)附连的外部显示装置中的一个或多个。在一个实施例中,显示装置111可以是头戴式显示器(HMD),诸如供在虚拟现实(VR)应用或增强现实(AR)应用中使用的立体显示装置。
在一些实施例中,平台控制器集线器130使得外设能经由高速I/O总线连接到存储器装置120和处理器102。I/O外设包含但不限于音频控制器146、网络控制器134、固件接口128、无线收发器126、触摸传感器125、数据存储装置124(例如,硬盘驱动器、闪速存储器等)。数据存储装置124可经由存储接口(例如,SATA)或经由诸如外设组件互连总线(例如,PCI、PCI Express)之类的外设总线进行连接。触摸传感器125可包含触摸屏传感器、压力传感器或指纹传感器。无线收发器126可以是Wi-Fi收发器、蓝牙收发器或诸如3G、4G、或长期演进(LTE)收发器之类的移动网络收发器。固件接口128能够实现与系统固件通信,并且可以是例如统一可扩展固件接口(UEFI)。网络控制器134可能够实现到有线网络的网络连接。在一些实施例中,高性能网络控制器(未示出)与接口总线110耦合。在一个实施例中,音频控制器146是多通道高清晰度音频控制器。在一个实施例中,系统100包含用于将传统(legacy)(例如,个人系统2(PS/2))装置耦合到系统的可选的传统I/O控制器140。平台控制器集线器130还可连接到一个或多个通用串行总线(USB)控制器142连接输入装置,诸如键盘和鼠标143组合、相机144或其它USB输入装置。
将领会的是,示出的系统100是示例性的而不是限制性的,因为以不同方式配置的其它类型的数据处理系统也可被使用。例如,存储器控制器116和平台控制器集线器130的实例可被集成到分立的外部图形处理器(诸如,外部图形处理器112)中。在一个实施例中,平台控制器集线器130和/或存储器控制器116可在一个或多个处理器102的外部。例如,系统100可包含外部存储器控制器116和平台控制器集线器130,其可被配置为与(一个或多个)处理器102通信的系统芯片组内的存储器控制器集线器和外设控制器集线器。
图10是具有一个或多个处理器核202A-202N、集成存储器控制器214和集成图形处理器208的处理器200的实施例的框图。与本文中任何其他附图的元件具有相同参考标号(或名称)的图10的那些元件可以以与本文中其他地方所描述的方式类似的任何方式操作或起作用,但不限于这样。处理器200可包含另外的核,所述另外的核多达并且包含由虚线框表示的另外的核202N。处理器核202A-202N中的每个处理器核包含一个或多个内部高速缓存单元204A-204N。在一些实施例中,每个处理器核还可访问一个或多个共享高速缓存单元206。
内部高速缓存单元204A-204N和共享高速缓存单元206表示处理器200内的高速缓冲存储器层级。高速缓冲存储器层级可包含每个处理器核内的至少一级的指令和数据高速缓存,以及一级或多级的共享中间级高速缓存,诸如2级(L2)、3级(L3)、4级(L4)或其它级的高速缓存,其中在外部存储器前的最高级的高速缓存被分类为LLC。在一些实施例中,高速缓存一致性逻辑维持各种高速缓存单元206与204A-204N之间的一致性。
在一些实施例中,处理器200还可包含系统代理核210和一个或多个总线控制器单元216的集合。一个或多个总线控制器单元216管理外设总线的集合,诸如一个或多个PCI或PCI express总线。系统代理核210提供用于各种处理器组件的管理功能性。在一些实施例中,系统代理核210包含一个或多个集成存储器控制器214以管理对各种外部存储器装置(未示出)的访问。
在一些实施例中,处理器核202A-202N中的一个或多个处理器核包含对同时多线程的支持。在此类实施例中,系统代理核210包含用于在多线程的处理期间协调和操作核202A-202N的组件。系统代理核210可另外包含功率控制单元(PCU),所述功率控制单元(PCU)包含用于调节处理器核202A-202N和图形处理器208的功率状态的逻辑和组件。
在一些实施例中,处理器200另外包含用于执行图形处理操作的图形处理器208。在一些实施例中,图形处理器208与包含一个或多个集成存储器控制器214的系统代理核210和共享高速缓存单元206的集合耦合。在一些实施例中,系统代理核210还包含用于将图形处理器输出驱动到一个或多个耦合的显示器的显示控制器211。在一些实施例中,显示控制器211还可以是经由至少一个互连与图形处理器耦合的单独模块,或者可被集成在图形处理器208内。
在一些实施例中,基于环的互连单元212被用于耦合处理器200的内部组件。然而,可使用备选互连单元,诸如点对点互连、交换互连或其它技术,包含本领域中公知的技术。在一些实施例中,图形处理器208经由I/O链路213与环形互连212耦合。
示例性I/O链路213表示多个种类的I/O互连中的至少一个,包含促进各种处理器组件与诸如eDRAM模块的高性能嵌入式存储器模块218之间的通信的封装上I/O互连。在一些实施例中,处理器核202A-202N中的每个处理器核和图形处理器208使用嵌入式存储器模块218作为共享末级高速缓存。
在一些实施例中,处理器核202A-202N是执行相同指令集架构的同质核(homogenous core)。在另一实施例中,处理器核202A-202N在指令集架构(ISA)方面是异质的(heterogeneous),其中处理器核202A-202N中的一个或多个处理器核执行第一指令集,而其它核中的至少一个核执行第一指令集的子集或不同指令集。在一个实施例中,处理器核202A-202N在微架构方面是异质的,其中具有相对更高功耗的一个或多个核与具有更低功耗的一个或多个功率核耦合。另外,处理器200可在一个或多个芯片上被实现,或者被实现为除其它组件外还具有示出的组件的SoC集成电路。
图11是图形处理器300的框图,该图形处理器300可以是分立的图形处理单元,或者可以是与多个处理核集成的图形处理器。在一些实施例中,图形处理器经由到图形处理器上的寄存器的存储器映射I/O接口并且利用被放置到处理器存储器中的命令进行通信。在一些实施例中,图形处理器300包含用于访问存储器的存储器接口314。存储器接口314可以是到本地存储器、一个或多个内部高速缓存、一个或多个共享外部高速缓存和/或到系统存储器的接口。
在一些实施例中,图形处理器300还包含用于将显示输出数据驱动到显示装置320的显示控制器302。显示控制器302包含用于一个或多个覆盖平面的硬件,以用于显示和组合用户接口元素或视频的多个层。显示装置320可以是内部或外部显示装置。在一个实施例中,显示装置320是头戴式显示装置,诸如虚拟现实(VR)显示装置或增强现实(AR)显示装置。在一些实施例中,图形处理器300包含视频编解码器引擎306以将媒体编码成一个或多个媒体编码格式、从一个或多个媒体编码格式将媒体解码、或者在一个或多个媒体编码格式之间对媒体进行转码,所述编码格式包含但不限于运动图像专家组(MPEG)格式(诸如,MPEG-2)、高级视频编码(AVC)格式,诸如,H.264/MPEG-4 AVC、以及电影与电视工程师协会(SMPTE)421M/VC-1和联合图像专家组(JPEG)格式(诸如,JPEG)以及运动JPEG(MJPEG)格式。
在一些实施例中,图形处理器300包含用于执行二维(2D)栅格化器操作(包含例如位边界块传送)的块图像传送(BLIT)引擎304。然而,在一个实施例中,使用图形处理引擎(GPE)310的一个或多个组件来执行2D图形操作。在一些实施例中,GPE 310是用于执行包含三维(3D)图形操作和媒体操作的图形操作的计算引擎。
在一些实施例中,GPE 310包含用于执行3D操作的3D流水线312,所述3D操作诸如使用作用于3D图元形状(例如,矩形、三角形等)的处理功能来渲染三维图像和场景。3D流水线312包含可编程和固定功能元件,所述可编程和固定功能元件在元件内执行各种任务和/或派生(spawn)到3D/媒体子系统315的执行线程。虽然3D流水线312可被用于执行媒体操作,但GPE 310的实施例还包含特别用于执行媒体操作(诸如,视频后处理和图像增强)的媒体流水线316。
在一些实施例中,媒体流水线316包含固定功能或可编程逻辑单元以代替或者代表视频编解码器引擎306来执行一个或多个专用媒体操作,诸如视频解码加速、视频去交织和视频编码加速。在一些实施例中,媒体流水线316另外包含线程派生单元以派生用于在3D/媒体子系统315上执行的线程。派生的线程在3D/媒体子系统315中包含的一个或多个图形执行单元上执行用于媒体操作的计算。
在一些实施例中,3D/媒体子系统315包含用于执行由3D流水线312和媒体流水线316派生的线程的逻辑。在一个实施例中,流水线将线程执行请求发送到3D/媒体子系统315,所述3D/媒体子系统315包含线程分派逻辑,所述线程分派逻辑用于将各种请求仲裁(arbitrate)并分派到可用线程执行资源。执行资源包含用于处理3D和媒体线程的图形执行单元的阵列。在一些实施例中,3D/媒体子系统315包含用于线程指令和数据的一个或多个内部高速缓存。在一些实施例中,子系统还包含共享存储器,所述共享存储器包含寄存器和可寻址存储器,以在线程之间共享数据并且存储输出数据。
图形处理引擎
图12是根据一些实施例的图形处理器的图形处理引擎410的框图。在一个实施例中,图形处理引擎(GPE)410是图11中示出的GPE 310的某一版本。与本文中任何其它附图的元件具有相同参考标号(或名称)的图12的元件可以以与本文中其它地方所描述的方式类似的任何方式操作或起作用,但不限于这样。例如,示出了图11的3D流水线312和媒体流水线316。媒体流水线316在GPE 410的一些实施例中是可选的,并且可未被显式地包含在GPE410内。例如并且在至少一个实施例中,单独的媒体和/或图像处理器被耦合到GPE 410。
在一些实施例中,GPE 410与命令流转化器403耦合或者包含该命令流转化器403,该命令流转化器403将命令流提供到3D流水线312和/或媒体流水线316。在一些实施例中,命令流转化器403与存储器耦合,所述存储器可以是系统存储器,或内部高速缓冲存储器和共享高速缓冲存储器中的一个或多个。在一些实施例中,命令流转化器403接收来自存储器的命令,并且将命令发送到3D流水线312和/或媒体流水线316。命令是从存储用于3D流水线312和媒体流水线316的命令的环形缓冲器获取的指令(directive)。在一个实施例中,环形缓冲器可另外包含存储批量的多个命令的批量命令缓冲器。用于3D流水线312的命令还可包含对在存储器中存储的数据(诸如但不限于用于3D流水线312的顶点和几何数据和/或用于媒体流水线316的图像数据和存储器对象)的引用。3D流水线312和媒体流水线316通过经由相应流水线内的逻辑执行操作或者通过将一个或多个执行线程分派到图形核阵列414来处理命令和数据。在一个实施例中,图形核阵列414包含图形核(例如,(一个或多个)图形核415A、(一个或多个)图形核415B)的一个或多个块,每个块包含一个或多个图形核。每个图形核包含:图形执行资源的集合,其包含用于执行图形和计算操作的通用和图形特定执行逻辑;以及固定功能纹理处理和/或机器学习和人工智能加速逻辑。
在各种实施例中,3D流水线312包含用于通过处理指令并且将执行线程分派到图形核阵列414来处理一个或多个着色器程序(诸如,顶点着色器、几何着色器、像素着色器、片段着色器、计算着色器或其它着色器程序)的固定功能和可编程逻辑。图形核阵列414提供执行资源的统一块以供在处理这些着色器程序中使用。图形核阵列414的(一个或多个)图形核415A-415B内的多用途执行逻辑(例如,执行单元)包含对各种3D API着色器语言的支持,并且可执行与多个着色器相关联的多个同时执行线程。
在一些实施例中,图形核阵列414还包含用于执行媒体功能(诸如,视频和/或图像处理)的执行逻辑。在一个实施例中,执行单元另外包含通用逻辑,该通用逻辑可编程以除图形处理操作外还执行并行通用计算操作。该通用逻辑可与在图9的(一个或多个)处理器核107或如图10中的核202A-202N内的通用逻辑并行或结合地执行处理操作。
由在图形核阵列414上执行的线程生成的输出数据可将数据输出到在统一返回缓冲器(URB)418中的存储器。URB 418可存储用于多个线程的数据。在一些实施例中,URB 418可被用于在图形核阵列414上执行的不同线程之间发送数据。在一些实施例中,URB 418可另外被用于在图形核阵列上的线程与在共享功能逻辑420内的固定功能逻辑之间的同步。
在一些实施例中,图形核阵列414是可缩放的,使得该阵列包含可变数量的图形核,这些图形核各自基于GPE 410的目标功率和性能水平而具有可变数量的执行单元。在一个实施例中,执行资源是动态可缩放的,使得可按需要来启用或禁用执行资源。
图形核阵列414与共享功能逻辑420耦合,该共享功能逻辑420包含在图形核阵列中的图形核之间共享的多个资源。在共享功能逻辑420内的共享功能是硬件逻辑单元,所述硬件逻辑单元将专用补充功能性提供到图形核阵列414。在各种实施例中,共享功能逻辑420包含但不限于采样器421、数学422和线程间通信(ITC)423逻辑。另外,一些实施例在共享功能逻辑420内实现一个或多个高速缓存425。
实现共享功能,其中对给定专用功能的需求不足以包含在图形核阵列414内。相反,该专用功能的单个实例化被实现为在共享功能逻辑420中的独立实体,并且在图形核阵列414内的执行资源之间被共享。在图形核阵列414之间被共享并且包含在图形核阵列414内的功能的精确集合跨实施例而变化。在一些实施例中,由图形核阵列414广泛使用的共享功能逻辑420内的特定共享功能可被包含在图形核阵列414内的共享功能逻辑416内。在各种实施例中,图形核阵列414内的共享功能逻辑416可包含共享功能逻辑420内的一些或全部逻辑。在一个实施例中,可在图形核阵列414的共享功能逻辑416内重复共享功能逻辑420内的全部逻辑元件。在一个实施例中,排除了共享功能逻辑420以有利于图形核阵列414内的共享功能逻辑416。
图13是根据本文所述的一些实施例的图形处理器核500的硬件逻辑的框图。图13中具有与本文中任何其他附图的元件相同的参考标号(或名称)的元件能够以与本文其他部分所述相似的任何方式进行操作或者运作,但不限于此。在一些实施例中,所示图形处理器核500被包含在图12的图形核阵列414内。图形处理器核500(有时称作核切片)能够是模块化图形处理器内的一个或多个图形核。图形处理器核500是一个图形核切片的示例,并且如本文所述的图形处理器可包括基于目标功率和性能包络的多个图形核切片。每个图形处理器核500能够包括固定功能块530,该固定功能块530与多个子核501A-501F(又称作子切片)相耦合,其包括通用和固定功能逻辑块的模块化块。
在一些实施例中,固定功能块530包括几何/固定功能流水线536,该几何/固定功能流水线536能够由例如较低性能和/或较低功率图形处理器实现中的图形处理器核500中的全部子核来共享。在各个实施例中,几何/固定功能流水线536包括3D固定功能流水线(例如,如图11和图12中的3D流水线312)、视频前端单元、线程派生器和线程分派器和统一返回缓冲器管理器,该统一返回缓冲器管理器管理统一返回缓冲器,诸如图12中的统一返回缓冲器418。
在一个实施例中,固定功能块530还包括图形SoC接口537、图形微控制器538和媒体流水线539。图形SoC接口537提供图形处理器核500与片上系统集成电路内的其他处理器核之间的接口。图形微控制器538是可编程子处理器,该可编程子处理器可配置成管理图形处理器500的各种功能,包括线程分派、调度和预占。媒体流水线539(例如图11和图12的媒体流水线316)包括促进多媒体数据(包括图像和视频数据)的解码、编码、预处理和/或后处理的逻辑。媒体流水线539经由对子核501-501F内的计算或采样逻辑的请求来实现媒体操作。
在一个实施例中,SoC接口537使图形核500能够与通用应用处理器核(例如CPU)和/或SoC内的其他组件通信,包括存储器层次结构元件,诸如共享最后一级高速缓冲存储器、系统RAM和/或嵌入式芯片上或封装上DRAM。SoC接口537还能够实现与SoC内的固定功能装置(诸如相机成像流水线)的通信,并且能够实现可在图形核500与SoC内的CPU之间所共享的全局存储器原子的使用和/或实现。SoC接口537还可实现图形处理器核500的电源管理控制,并且能够实现图形核500的时钟域与SoC内的其他时钟域之间的接口。在一个实施例中,SoC接口537能够实现来自命令流化器和全局线程分派器的命令缓冲器的接收,所述命令流化器和全局线程分派器配置成向图形处理器内的一个或多个图形核的每个提供命令和指令。命令和指令可在媒体操作将要执行时被分派给媒体流水线539,或者在图形处理操作将要执行时被分派给几何和固定功能流水线(例如几何和固定功能流水线536、几何和固定功能流水线514)。
图形微控制器538可配置成执行图形处理器核500的各种调度和管理任务。在一个实施例中,图形微控制器538能够对子核501A-501F内的执行单元(EU)阵列502A-502F、504A-504F内的各种图形并行引擎执行图形和/或计算工作负荷调度。在这个调度模型中,在包括图形处理器核500的SoC的CPU核上执行的主机软件能够在多个图形处理器门铃中的一个提交工作负荷,所述图形处理器门铃调用对适当图形引擎的调度操作。调度操作包括确定下面要运行哪一个工作负荷,向命令流化器提交工作负荷,预占引擎上运行的现有工作负荷,监测工作负荷的进度,以及在工作负荷完成时通知主软件。在一个实施例中,图形微控制器538还能够促进图形处理器核500的低功率或空闲状态,从而为图形处理器核500提供与系统上的操作系统和/或图形驱动程序软件无关地跨低功率状态转变来保存和恢复图形处理器核500内的寄存器的能力。
图形处理器500可具有比所示子核501A-501F更多或更少的、多达N个模块化子核。对于N个子核中的每个集合,图形处理器核500还能够包括共享功能逻辑510、共享和/或高速缓冲存储器512、几何/固定功能流水线514以及附加固定功能逻辑516,以加速各种图形和计算处理操作。共享功能逻辑510能够包括与图12的共享功能逻辑420相关联的逻辑单元(例如采样器、数学和/或线程间通信逻辑),所述共享功能逻辑510能够由图形处理器核500内的每个N个子核来共享。共享和/或高速缓冲存储器512能够是图形处理器核500内的N个子核501A-501F的集合的最后一级高速缓存,并且还能够充当由多个子核可访问的共享存储器。几何/固定功能流水线514能够代替几何/固定功能流水线536来包含在固定功能块530内,并且能够包括相同或相似逻辑单元。
在一个实施例中,图形处理器核500包括附加功能逻辑516,该附加功能逻辑516能够包括供图形处理器核500使用的各种固定功能加速逻辑。在一个实施例中,附加固定功能逻辑516包括供仅位置着色中使用的附加几何流水线。在仅位置着色中,存在两个几何流水线:几何/固定功能流水线516、536内的完全几何流水线,和挑选(cull)流水线,该挑选流水线是可包含在附加固定功能逻辑516内的附加几何流水线。在一个实施例中,挑选流水线是完全几何流水线的裁减(trimmed down)版本。完全流水线和挑选流水线能够执行相同应用的不同实例,每个实例具有独立上下文。仅位置着色能够隐藏被丢弃三角形的长挑选运行,从而使着色能够在一些情况下更早完成。例如并且在一个实施例中,附加固定功能逻辑516内的挑选流水线逻辑能够与主应用并行地执行位置着色器,并且一般比完全流水线更快地生成关键结果,因为挑选流水线仅对顶点的位置属性进行提取和着色,而无需执行像素对帧缓冲器的光栅化和渲染。挑选流水线能够使用所生成的关键结果来计算全部三角形的可见性信息,而不管那些三角形是否被挑选。完全流水线(在这种情况下可称作重放流水线)能够消耗可见性信息,以跳过被挑选的三角形,以便仅对最终被传递给光栅化阶段的可见三角形着色。
在一个实施例中,附加固定功能逻辑516还能够包括机器学习加速逻辑,诸如固定功能矩阵乘法逻辑,以用于包括机器学习训练或推理的优化的实现。
在每个图形子核501A-501F内包括执行资源的集合,所述执行资源的集合可用于响应通过图形流水线、媒体流水线或着色器程序的请求而执行图形、媒体和计算操作。图形子核501A-501F包括多个EU阵列502A-502F、504A-504F、线程分派和线程间通信(TD/IC)逻辑503A-503F、3D(例如纹理)采样器505A-505F、媒体采样器506A-506F、着色器处理器507A-507F以及共享本地存储器(SLM)508A-228F。EU阵列502A-502F、504A-504F各自包括多个执行单元,所述执行单元是通用图形处理单元,能够在服务于图形、媒体或计算操作(包括图形、媒体或计算着色器程序)中执行浮点和整数/定点逻辑操作。TD/IC逻辑503A-503F执行子核内的执行单元的本地线程分派和线程控制操作,并且促进子核的执行单元上执行的线程之间的通信。3D采样器505A-505F能够将纹理或其他3D图形相关数据读入存储器中。3D采样器能够基于所配置的样本状态以及与给定纹理相关联的纹理格式以不同方式来读取纹理数据。媒体采样器506A-506F能够基于与媒体数据相关联的类型和格式来执行类似读操作。在一个实施例中,每个图形子核501A-501F备选地能够包括统一3D和媒体采样器。在子核501A-501F的每个内的执行单元上执行的线程能够利用每个子核内的共享本地存储器508A-508F,以使线程组内执行的线程能够使用公共芯片上存储器池执行。
执行单元
图14A-14B示出了根据本文描述的实施例的线程执行逻辑600,其包含在图形处理器核中采用的处理元件的阵列。与本文中任何其他附图的元件具有相同参考标号(或名称)的图14A-14B的元件可以以本文中其他地方所描述的方式类似的任何方式操作或起作用,但不限于此。图14A示出了线程执行逻辑600的概述,该线程执行逻辑600可包括利用图13的每个子核501A-501F示出的硬件逻辑的变体。图14B示出了执行单元的示例性内部细节。
如在图14A中所示出的,在一些实施例中,线程执行逻辑600包含着色器处理器602、线程分派器604、指令高速缓存606、包含多个执行单元608A-608N的可缩放执行单元阵列、采样器610、数据高速缓存612和数据端口614。在一个实施例中,可缩放执行单元阵列可通过基于工作负载的计算要求来启用或禁用一个或多个执行单元(例如,执行单元608A、608B、608C、608D到608N-1和608N中的任何执行单元)来动态地进行缩放。在一个实施例中,被包含的组件经由链接到组件中的每个组件的互连组构被互连。在一些实施例中,线程执行逻辑600包含通过指令高速缓存606、数据端口614、采样器610和执行单元608A-608N中的一个或多个到存储器(诸如,系统存储器或高速缓冲存储器)的一个或多个连接。在一些实施例中,每个执行单元(例如,608A)是独立可编程通用计算单元,其能执行多个同时硬件线程,同时为每个线程并行处理多个数据元素。在各种实施例中,执行单元608A-608N的阵列是可缩放的,以包含任何数量的各个执行单元。
在一些实施例中,执行单元608A-608N主要被用于执行着色器程序。着色器处理器602可处理各种着色器程序,并且经由线程分派器604分派与着色器程序相关联的执行线程。在一个实施例中,线程分派器包含用于对来自图形和媒体流水线的线程发起请求进行仲裁并且在执行单元608A-608N中的一个或多个执行单元上实例化所请求的线程的逻辑。例如,几何流水线可将顶点、曲面细分或几何着色器分派到线程执行逻辑以用于处理。在一些实施例中,线程分派器604还可处理来自在执行的着色器程序的运行时间线程派生请求。
在一些实施例中,执行单元608A-608N支持指令集,所述指令集包含对许多标准3D图形着色器指令的本机支持,使得来自图形库(例如,Direct 3D和OpenGL)的着色器程序以最小的转换被执行。执行单元支持顶点和几何处理(例如,顶点程序、几何程序、顶点着色器)、像素处理(例如,像素着色器、片段着色器)和通用处理(例如,计算和媒体着色器)。执行单元608A-608N中的每个执行单元能进行多发布(multi-issue)单指令多数据(SIMD)执行,并且多线程操作在面临更高时延存储器访问时能够实现高效的执行环境。每个执行单元内的每个硬件线程具有专用高带宽寄存器堆和相关联的独立线程状态。执行是对能进行整数、单精度和双精度浮点操作、SIMD分支能力、逻辑操作、超越操作和其它杂项操作的流水线的每时钟多发布。在等待来自存储器或共享功能中的一个的数据时,执行单元608A-608N内的依赖性逻辑促使在等待的线程进行休眠,直到所请求的数据已被返回为止。当在等待的线程正在休眠时,硬件资源可专用于处理其它线程。例如,在与顶点着色器操作相关联的延迟期间,执行单元可执行用于像素着色器、片段着色器或另一类型的着色器程序(包含不同顶点着色器)的操作。
执行单元608A-608N中的每个执行单元对数据元素的阵列进行操作。数据元素的数量是“执行大小”或指令的通道的数量。执行通道是用于指令内的数据元素访问、掩蔽(masking)和流控制的执行的逻辑单元。通道的数量可独立于特定图形处理器的物理算术逻辑单元(ALU)或浮点单元(FPU)的数量。在一些实施例中,执行单元608A-608N支持整数和浮点数据类型。
执行单元指令集包含SIMD指令。各种数据元素可作为打包数据类型存储在寄存器中,并且执行单元将基于元素的数据大小来处理各种元素。例如,在对256位宽向量进行操作时,向量的256位被存储在寄存器中,并且执行单元对作为四个单独的64位打包数据元素(四字(QW)大小数据元素)、八个单独的32位打包数据元素(双字(DW)大小数据元素)、十六个单独的16位打包数据元素(字(W)大小数据元素)或三十二个单独的8位数据元素(字节(B)大小数据元素)的向量进行操作。然而,不同向量宽度和寄存器大小是可能的。
在一个实施例中,一个或多个执行单元可被组合成具有线程控制逻辑(607A-607N)的融合的执行单元609A-609N,该线程控制逻辑(607A-607N)对于融合的EU是公共的。多个EU可被融合成EU群组。融合的EU群组中的每个EU可被配置成执行单独的SIMD硬件线程。融合的EU群组中EU的数量可根据实施例而变化。另外,可每EU执行各种SIMD宽度,包含但不限于SIMD8、SIMD16和SIMD32。每个融合的图形执行单元609A-609N包含至少两个执行单元。例如,融合的执行单元609A包含第一EU 608A、第二EU 608B以及线程控制逻辑607A,该线程控制逻辑607A对第一EU 608A和第二EU 608B是公共的。线程控制逻辑607A控制在融合的图形执行单元609A上执行的线程,允许融合的执行单元609A-609N内的每个EU使用公共指令指针寄存器来执行。
线程执行逻辑600中包含一个或多个内部指令高速缓存(例如,606)以对用于执行单元的线程指令进行高速缓存。在一些实施例中,包含一个或多个数据高速缓存(例如,612)以在线程执行期间对线程数据进行高速缓存。在一些实施例中,包含采样器610以提供3D操作的纹理采样和媒体操作的媒体采样。在一些实施例中,采样器610包含专用纹理或媒体采样功能性,以在向执行单元提供采样的数据前在采样过程期间处理纹理或媒体数据。
在执行期间,图形和媒体流水线经由线程派生和分派逻辑向线程执行逻辑600发送线程发起请求。一旦几何对象的群组已被处理并且栅格化成像素数据,着色器处理器602内的像素处理器逻辑(例如,像素着色器逻辑、片段着色器逻辑等)便被调用于进一步计算输出信息,并且使结果被写入到输出表面(例如,颜色缓冲器、深度缓冲器、模板缓冲器等)。在一些实施例中,像素着色器或片段着色器计算要跨栅格化对象内插的各种顶点属性的值。在一些实施例中,着色器处理器602内的像素处理器逻辑然后执行应用编程接口(API)供应的像素或片段着色器程序。为了执行着色器程序,着色器处理器602经由线程分派器604向执行单元(例如,608A)分派线程。在一些实施例中,着色器处理器602使用采样器610中的纹理采样逻辑来访问存储在存储器中的纹理映射中的纹理数据。对纹理数据和输入几何数据的算术操作为每个几何片段计算像素颜色数据,或者丢弃一个或多个像素而不进行进一步处理。
在一些实施例中,数据端口614提供存储器访问机制,以便线程执行逻辑600将经处理的数据输出至存储器以用于在图形处理器输出流水线上进一步处理。在一些实施例中,数据端口614包含或者耦合到一个或多个高速缓冲存储器(例如,数据高速缓存612)来对数据进行高速缓存以用于经由数据端口的存储器访问。
如在图14B所示,图形执行单元608可包含指令提取单元637、通用寄存器堆阵列(GRF)624、架构寄存器堆阵列(ARF)626、线程仲裁器622、发送单元630、分支单元632、SIMD浮点单元(FPU)634的集合以及在一个实施例中包含专用整数SIMD ALU 635的集合。GRF624和ARF 626包含与可在图形执行单元608中是活动的每个同时硬件线程相关联的通用寄存器堆和架构寄存器堆的集合。在一个实施例中,在ARF 626中维持每线程架构状态,而在线程执行期间使用的数据被存储在GRF 624中。每个线程的执行状态(包含用于每个线程的指令指针)可被保持在ARF 626中的线程特定寄存器中。
在一个实施例中,图形执行单元608具有这样的架构,该架构是同时多线程(SMT)和细粒度交错多线程(IMT)的组合。该架构具有模块化配置,可在设计时基于每执行单元的寄存器的数量和同时线程的目标数量来对所述模块化配置进行微调,其中执行单元资源跨用于执行多个同时线程的逻辑被划分。
在一个实施例中,图形执行单元608可共同发布(co-issue)多个指令,所述多个指令各自可以是不同的指令。图形执行单元线程608的线程仲裁器622可将指令分派给发送单元630、分支单元632或(一个或多个)SIMD FPU 634中的一个以用于执行。每个执行线程可访问GRF 624内的128个通用寄存器,其中每个寄存器可存储32个字节,可作为32位数据元素的SIMD 8元素向量访问。在一个实施例中,每个执行单元线程可访问GRF 624内的4Kbyte,尽管实施例不限于此,并且在其他实施例中可提供更多或更少的寄存器资源。在一个实施例中,多达七个线程可同时执行,虽然每执行单元的线程的数量还可根据实施例而变化。在其中七个线程可访问4 Kbyte的实施例中,GRF 624可存储总共28 Kbyte。灵活的寻址模式可允许对寄存器一起进行寻址以有效地构建更宽的寄存器或者表示跨步矩形块数据结构(strided rectangular block data structure)。
在一个实施例中,经由通过消息传递发送单元630执行的“发送”指令来分派存储器操作、采样器操作和其他较长时延系统通信。在一个实施例中,将分支指令分派给专用分支单元632以促进SIMD发散和最终收敛。
在一个实施例中,图形执行单元608包含一个或多个SIMD浮点单元((一个或多个)FPU)634以执行浮点操作。在一个实施例中,(一个或多个)FPU 634还支持整数计算。在一个实施例中,(一个或多个)FPU 634可SIMD执行多达M个数量的32位浮点(或整数)操作,或者SIMD执行多达2M个16位整数或16位浮点操作。在一个实施例中,(一个或多个)FPU中的至少一个提供扩展的数学能力以支持高吞吐量超越数学函数和双精度64位浮点。在一些实施例中,还存在8位整数SIMD ALU 635的集合,并且该组8位整数SIMD ALU 635可被特别地优化以执行与机器学习计算相关联的操作。
在一个实施例中,图形执行单元608的多个实例的阵列可在图形子核分组(例如,子切片)中被实例化。为了可缩放性,产品架构师可选定每子核分组的执行单元的确切数量。在一个实施例中,执行单元608可跨多个执行通道执行指令。在另外的实施例中,在图形执行单元608上执行的每个线程是在不同的通道上被执行的。
图15是示出根据一些实施例的图形处理器指令格式700的框图。在一个或多个实施例中,图形处理器执行单元支持具有采用多种格式的指令的指令集。实线框示出了一般被包含在执行单元指令中的组成部分,而虚线包含可选的或者仅被包含在指令的子集中的组成部分。在一些实施例中,描述和示出的指令格式700是宏指令,因为它们是供应给执行单元的指令,而与一旦指令被处理后由指令解码产生的微操作相反。
在一些实施例中,图形处理器执行单元本机地支持采用128位指令格式710的指令。基于所选择的指令、指令选项和操作数的数量,64位压缩指令格式730可用于一些指令。本机128位指令格式710提供对所有指令选项的访问,而采用64位格式730,一些选项和操作被限制。采用64位格式730的可用的本机指令随实施例而变化。在一些实施例中,使用索引字段713中索引值的集合来部分地压缩指令。执行单元硬件基于索引值来引用压缩表的集合,并且使用压缩表输出来重构采用128位指令格式710的本机指令。
对于每种格式,指令操作码712定义执行单元要执行的操作。执行单元跨每个操作数的多个数据元素并行执行每个指令。例如,响应于相加指令,执行单元跨表示纹理元素或图片元素的每个颜色通道来执行同时加法操作。默认情况下,执行单元跨操作数的所有数据通道来执行每个指令。在一些实施例中,指令控制字段714能够实现对诸如通道选择(例如,断定(predication))和数据通道次序(例如,搅混(swizzle))之类的某些执行选项的控制。对于采用128位指令格式710的指令,执行大小字段716限制将被并行执行的数据通道的数量。在一些实施例中,执行大小字段716不可供64位压缩指令格式730中使用。
一些执行单元指令具有多达三个操作数,这三个操作数包含两个源操作数src0720、src1 722和一个目的地718。在一些实施例中,执行单元支持双目的地指令,其中目的地中的一个是隐含的。数据操纵指令可具有第三源操作数(例如,SRC2 724),其中指令操作码712确定源操作数的数量。指令的最后源操作数可以是利用指令传递的立即(例如,硬编码的)值。
在一些实施例中,128位指令格式710包含访问/寻址模式字段726,该访问/寻址模式字段726指定例如使用直接寄存器寻址模式还是间接寄存器寻址模式。在使用直接寄存器寻址模式时,由指令中的位来直接提供一个或多个操作数的寄存器地址。
在一些实施例中,128位指令格式710包含访问/寻址模式字段726,该访问/寻址模式字段726指定指令的地址模式和/或访问模式。在一个实施例中,访问模式被用于定义指令的数据访问对齐。一些实施例支持包含16字节对齐的访问模式和1字节对齐的访问模式的访问模式,其中访问模式的字节对齐确定指令操作数的访问对齐。例如,当处于第一模式中时,指令可将字节对齐的寻址用于源操作数和目的地操作数,并且当处于第二模式中时,指令可将16字节对齐的寻址用于所有源操作数和目的地操作数。
在一个实施例中,访问/寻址模式字段726的地址模式部分确定指令要使用直接寻址还是间接寻址。在使用直接寄存器寻址模式时,指令中的位直接提供一个或多个操作数的寄存器地址。在使用间接寄存器寻址模式时,可基于指令中的地址立即字段和地址寄存器值来计算一个或多个操作数的寄存器地址。
在一些实施例中,基于操作码712位字段对指令进行分组,以简化操作码解码740。对于8位操作码,4、5和6位允许执行单元确定操作码的类型。所示出的精确操作码分组仅是示例。在一些实施例中,移动和逻辑操作码群组742包含数据移动和逻辑指令(例如,移动(mov)、比较(cmp))。在一些实施例中,移动和逻辑群组742共享五个最高有效位(MSB),其中移动(mov)指令采用0000xxxxb的形式,并且逻辑指令采用0001xxxxb的形式。流控制指令群组744(例如调用、跳(jmp))包含采用0010xxxxb(例如,0x20)形式的指令。杂项指令群组746包含指令的混合,包含采用0011xxxxb(例如,0x30)形式的同步指令(例如等待、发送)。并行数学指令群组748包含采用0100xxxxb(例如,0x40)的形式的逐组成部分的算术指令(例如,加、乘(mul))。并行数学群组748跨数据通道并行执行算术操作。向量数学群组750包含采用0101xxxxb(例如,0x50)形式的算术指令(例如,dp4)。向量数学群组对向量操作数执行诸如点积计算的算术。
图形流水线
图16是图形处理器800的另一实施例的框图。与本文中任何其他附图的元件具有相同参考标号(或名称)的图16的元件可以以与本文中其他地方所描述的方式类似的任何方式操作或起作用,但不限于这样。
在一些实施例中,图形处理器800包含几何流水线820、媒体流水线830、显示引擎840、线程执行逻辑850和渲染输出流水线870。在一些实施例中,图形处理器800是包含一个或多个通用处理核的多核处理系统内的图形处理器。通过对一个或多个控制寄存器(未示出)的寄存器写入或者经由通过环形互连802发布至图形处理器800的命令来控制图形处理器。在一些实施例中,环形互连802将图形处理器800耦合到其他处理组件,诸如其他图形处理器或通用处理器。来自环形互连802的命令由命令流化器803解译,该命令流化器803将指令供应至几何流水线820或媒体流水线830的各个组件。
在一些实施例中,命令流化器803指导顶点提取器805的操作,该顶点提取器805从存储器读取顶点数据,并执行由命令流化器803提供的顶点处理命令。在一些实施例中,顶点提取器805将顶点数据提供给顶点着色器807,该顶点着色器807对每个顶点执行坐标空间变换和照明操作。在一些实施例中,顶点提取器805和顶点着色器807通过经由线程分派器831向执行单元852A-852B分派执行线程来执行顶点处理指令。
在一些实施例中,执行单元852A-852B是具有用于执行图形和媒体操作的指令集的向量处理器的阵列。在一些实施例中,执行单元852A-852B具有附连的L1高速缓存851,所述L1高速缓存851对于每个阵列是特定的,或者在阵列之间被共享。高速缓存能被配置为数据高速缓存、指令高速缓存或被分区以在不同分区中含有数据和指令的单个高速缓存。
在一些实施例中,几何流水线820包含曲面细分组件以执行3D对象的硬件加速的曲面细分。在一些实施例中,可编程外壳着色器(programmable hull shader)811配置曲面细分操作。可编程域着色器817提供曲面细分输出的后端评估。曲面细分器813在外壳着色器811的指导下进行操作,并且含有专用逻辑以基于作为到几何流水线820的输入而提供的粗略几何模型来生成详细的几何对象的集合。在一些实施例中,如果未使用曲面细分,则可绕过曲面细分组件(例如,外壳着色器811、曲面细分器813和域着色器817)。
在一些实施例中,完整几何对象可由几何着色器819经由分派给执行单元852A-852B的一个或多个线程来处理,或者可直接行进至裁剪器(clipper)829。在一些实施例中,几何着色器对整个几何对象进行操作,而不是如在图形流水线的先前阶段中对顶点或顶点的补片(patch)进行操作。如果曲面细分被禁用,则几何着色器819接收来自顶点着色器807的输入。在一些实施例中,几何着色器819可由几何着色器程序编程以在曲面细分单元被禁用时执行几何曲面细分。
在栅格化前,裁剪器829处理顶点数据。裁剪器829可以是具有裁剪和几何着色器功能的可编程裁剪器或固定功能裁剪器。在一些实施例中,渲染输出流水线870中的栅格化器和深度测试组件873分派像素着色器以将几何对象转换成逐像素表示。在一些实施例中,像素着色器逻辑被包含在线程执行逻辑850中。在一些实施例中,应用可绕过栅格化器和深度测试组件873,并且经由流出单元823访问未栅格化的顶点数据。
图形处理器800具有允许数据和消息在处理器的主要组件之间传递的互连总线、互连组构或某种其他互连机构。在一些实施例中,执行单元852A-852B和相关联的逻辑单元(例如,L1高速缓存851、采样器854、纹理高速缓存858等)经由数据端口856互连,以执行存储器访问并且与处理器的渲染输出流水线组件进行通信。在一些实施例中,采样器854、高速缓存851、858和执行单元852A-852B各自具有单独的存储器访问路径。在一个实施例中,纹理高速缓存858还可被配置为采样器高速缓存。
在一些实施例中,渲染输出流水线870含有栅格化器和深度测试组件873,该栅格化器和深度测试组件873将基于顶点的对象转换成相关联的基于像素的表示。在一些实施例中,栅格化器逻辑包含用于执行固定功能三角形和线栅格化的窗口化器(windower)/掩蔽器单元。相关联的渲染高速缓存878和深度高速缓存879在一些实施例中也是可用的。像素操作组件877对数据执行基于像素的操作,尽管在一些实例中,与2D操作相关联的像素操作(例如,带有混合(blending)的位块图像传送)由2D引擎841执行,或者在显示时由显示控制器843使用覆盖显示平面代替。在一些实施例中,共享L3高速缓存875对于全部图形组件是可用的,从而允许在不使用主系统存储器的情况下共享数据。
在一些实施例中,图形处理器媒体流水线830包含媒体引擎837和视频前端834。在一些实施例中,视频前端834接收来自命令流化器803的流水线命令。在一些实施例中,媒体流水线830包含单独的命令流化器。在一些实施例中,视频前端834在将命令发送至媒体引擎837之前处理媒体命令。在一些实施例中,媒体引擎837包含线程派生功能性来派生线程,以便经由线程分派器831分派到线程执行逻辑850。
在一些实施例中,图形处理器800包含显示引擎840。在一些实施例中,显示引擎840在处理器800的外部,并且经由环形互连802或某一其他互连总线或组构与图形处理器耦合。在一些实施例中,显示引擎840包含2D引擎841和显示控制器843。在一些实施例中,显示引擎840含有能独立于3D流水线操作的专用逻辑。在一些实施例中,显示控制器843与显示装置(未示出)耦合,该显示装置可以是系统集成的显示装置(如在膝上型计算机中),或者可以是经由显示装置连接器附连的外部显示装置。
在一些实施例中,几何流水线820和媒体流水线830可配置成基于多个图形和媒体编程接口执行操作,并且不特定于任何一个应用编程接口(API)。在一些实施例中,用于图形处理器的驱动器软件将特定于特定图形或媒体库的API调用转换成可由图形处理器处理的命令。在一些实施例中,为全部来自Khronos Group的开放图形库(OpenGL)、开放计算语言(OpenCL)和/或Vulkan图形和计算API提供支持。在一些实施例中,还可为来自微软公司的Direct3D库提供支持。在一些实施例中,可支持这些库的组合。还可为开源计算机视觉库(OpenCV)提供支持。如果可进行从未来API的流水线到图形处理器的流水线的映射,则具有兼容3D流水线的未来API也将被支持。
图形流水线编程
图17A是示出根据一些实施例的图形处理器命令格式900的框图。图17B是示出根据实施例的图形处理器命令序列910的框图。图17A中的实线框示出了一般被包含在图形命令中的组成部分,而虚线包含可选的或者仅被包含在图形命令的子集中的组成部分。图17A的示例性图形处理器命令格式900包含用于标识命令的客户端902、命令操作代码(操作码)904和数据906的数据字段。一些命令中还包含子操作码905和命令大小908。
在一些实施例中,客户端902指定处理命令数据的图形装置的客户端单元。在一些实施例中,图形处理器命令解析器检查每个命令的客户端字段以调节命令的进一步处理,并且将命令数据路由到适当的客户端单元。在一些实施例中,图形处理器客户端单元包含存储器接口单元、渲染单元、2D单元、3D单元和媒体单元。每个客户端单元具有处理命令的对应处理流水线。一旦由客户端单元接收到命令,客户端单元便读取操作码904和子操作码905(如果子操作码905存在的话),以确定要执行的操作。客户端单元使用数据字段906中的信息来执行命令。对于一些命令,预期显式命令大小908来指定命令的大小。在一些实施例中,命令解析器基于命令操作码来自动确定至少一些命令的大小。在一些实施例中,经由双字的倍数来对齐命令。
图17B中的流程示出了示例性图形处理器命令序列910。在一些实施例中,以图形处理器的实施例为特征的数据处理系统的软件或固件使用所示出的命令序列的版本来设定、执行和终止图形操作的集合。仅出于示例的目的示出并描述了样本命令序列,因为实施例不限于这些特定命令或此命令序列。另外,命令可作为命令序列中的整批命令被发布,使得图形处理器将至少部分并发地处理命令的序列。
在一些实施例中,图形处理器命令序列910可以以流水线转储清除命令(pipelineflush command)912开始,以促使任何活动的图形流水线完成该流水线的当前未决命令。在一些实施例中,3D流水线922和媒体流水线924不并发地操作。执行流水线转储清除以促使活动的图形流水线完成任何未决命令。响应于流水线转储清除,图形处理器的命令解析器将暂停命令处理,直至活动的绘图引擎完成未决操作并且相关的读取高速缓存失效。可选地,可将渲染高速缓存中标记为“脏”的任何数据转储清除到存储器。在一些实施例中,流水线转储清除命令912可被用于流水线同步,或者在将图形处理器置于低功率状态前被使用。
在一些实施例中,在命令序列要求图形处理器在流水线之间显式地切换时,使用流水线选择命令913。在一些实施例中,除非上下文要为两个流水线发布命令,否则在发布流水线命令前,在执行上下文内仅要求一次流水线选择命令913。在一些实施例中,紧接经由流水线选择命令913的流水线切换之前,要求流水线转储清除命令912。
在一些实施例中,流水线控制命令914配置图形流水线以用于操作,并且被用于对3D流水线922和媒体流水线924进行编程。在一些实施例中,流水线控制命令914配置活动的流水线的流水线状态。在一个实施例中,流水线控制命令914被用于流水线同步,并且在处理一批命令前从活动的流水线内的一个或多个高速缓冲存储器中清除数据。
在一些实施例中,返回缓冲器状态命令916被用于为相应流水线配置返回缓冲器的集合以写入数据。一些流水线操作要求分配、选择或配置一个或多个返回缓冲器,在处理期间这些操作将中间数据写入到所述一个或多个返回缓冲器。在一些实施例中,图形处理器还使用一个或多个返回缓冲器来存储输出数据并且执行跨线程通信。在一些实施例中,返回缓冲器状态916包含选择要用于流水线操作的集合的返回缓冲器的大小和数量。
命令序列中的剩余命令基于用于操作的活动流水线而不同。基于流水线确定920,将命令序列定制到以3D流水线状态930开始的3D流水线922或者从媒体流水线状态940开始的媒体流水线924。
用于配置3D流水线状态930的命令包含3D状态设置命令,所述3D状态设置命令用于在处理3D图元命令之前要配置的顶点缓冲器状态、顶点元素状态、恒定颜色状态、深度缓冲器状态以及其他状态变量。至少部分基于使用中的特定3D API来确定这些命令的值。在一些实施例中,如果将不使用某些流水线元件,则3D流水线状态930命令还能够选择性地禁用或绕过那些元件。
在一些实施例中,3D图元932命令被用于提交要由3D流水线处理的3D图元。经由3D图元932命令传递到图形处理器的命令和相关联的参数被转发到图形流水线中的顶点获取功能。顶点获取功能使用3D图元932命令数据来生成顶点数据结构。顶点数据结构被存储在一个或多个返回缓冲器中。在一些实施例中,3D图元932命令被用于经由顶点着色器对3D图元执行顶点操作。为处理顶点着色器,3D流水线922将着色器执行线程分派到图形处理器执行单元。
在一些实施例中,经由执行934命令或事件来触发3D流水线922。在一些实施例中,寄存器写入触发命令执行。在一些实施例中,经由命令序列中的“go”或“kick”命令来触发执行。在一个实施例中,使用流水线同步命令来触发命令执行以转储清除通过图形流水线的命令序列。3D流水线将执行3D图元的几何处理。一旦操作完成,所得到的几何对象便被栅格化,并且像素引擎对所得到的像素进行上色。对于那些操作,还可包含用于控制像素着色和像素后端操作的另外的命令。
在一些实施例中,在执行媒体操作时,图形处理器命令序列910沿着媒体流水线924路径。一般而言,用于媒体流水线924的编程的特定使用和方式取决于要执行的媒体或计算操作。可在媒体解码期间将特定媒体解码操作卸载到媒体流水线。在一些实施例中,还可绕过媒体流水线,并且可使用由一个或多个通用处理核提供的资源来全部或部分地执行媒体解码。在一个实施例中,媒体流水线还包含用于通用图形处理器单元(GPGPU)操作的元件,其中图形处理器被用于使用计算着色器程序来执行SIMD向量操作,所述计算着色器程序与图形图元的渲染不是显式相关的。
在一些实施例中,以与3D流水线922类似的方式对媒体流水线924进行配置。将用于配置媒体流水线状态940的命令的集合分派或放置到在媒体对象命令942之前的命令队列中。在一些实施例中,用于媒体流水线状态940的命令包含用于配置媒体流水线元件的数据,所述媒体流水线元件将被用于处理媒体对象。这包含用于配置媒体流水线内的视频解码和视频编码逻辑的数据,诸如编码和解码格式。在一些实施例中,用于媒体流水线状态940的命令还支持使用到含有整批状态设置的“间接”状态元素的一个或多个指针。
在一些实施例中,媒体对象命令942将指针供应到媒体对象以便由媒体流水线处理。媒体对象包含存储器缓冲器,所述存储器缓冲器含有要处理的视频数据。在一些实施例中,在发布媒体对象命令942之前,所有媒体流水线状态必须是有效的。一旦配置了流水线状态,并且将媒体对象命令942排队,便经由执行命令944或等效执行事件(例如,寄存器写入)来触发媒体流水线924。然后可通过由3D流水线922或媒体流水线924提供的操作对来自媒体流水线924的输出进行后处理。在一些实施例中,以与媒体操作类似的方式配置和执行GPGPU操作。
图形软件架构
图18示出了根据一些实施例的用于数据处理系统1000的示例性图形软件架构。在一些实施例中,软件架构包含3D图形应用1010、操作系统1020和至少一个处理器1030。在一些实施例中,处理器1030包含图形处理器1032和一个或多个通用处理器核1034。图形应用1010和操作系统1020各自在数据处理系统的系统存储器1050中执行。
在一些实施例中,3D图形应用1010含有一个或多个着色器程序,该一个或多个着色器程序包含着色器指令1012。着色器语言指令可采用高级着色器语言,诸如高级着色器语言(HLSL)或OpenGL着色器语言(GLSL)。应用还包含采用适合由通用处理器核1034执行的机器语言的可执行指令1014。应用还包含由顶点数据定义的图形对象1016。
在一些实施例中,操作系统1020是来自微软公司的Microsoft® Windows®操作系统、专有的类UNIX操作系统或使用Linux内核的变体的开源类UNIX操作系统。操作系统1020可支持图形API 1022,诸如Direct3D API、OpenGL API或Vulkan API。Direct3D API在使用中时,操作系统1020使用前端着色器编译器1024来将采用HLSL的任何着色器指令1012编译成更低级着色器语言。编译可以是即时(JIT)编译或者应用可执行着色器预编译。在一些实施例中,在3D图形应用1010的编译期间将高级着色器编译成低级着色器。在一些实施例中,以中间形式(诸如,由Vulkan API使用的标准可移植中间表示(SPIR)的版本)提供着色器指令1012。
在一些实施例中,用户模式图形驱动器1026含有用于将着色器指令1012转换成硬件特定表示的后端着色器编译器1027。OpenGL API在使用中时,将采用GLSL高级语言的着色器指令1012传递到用户模式图形驱动器1026以用于编译。在一些实施例中,用户模式图形驱动器1026使用操作系统内核模式功能1028来与内核模式图形驱动器1029通信。在一些实施例中,内核模式图形驱动器1029与图形处理器1032通信以分派命令和指令。
IP核实现
至少一个实施例的一个或多个方面可由存储在机器可读介质上的代表性代码来实现,该代表性代码表示和/或定义诸如处理器的集成电路内的逻辑。例如,机器可读介质可包含表示处理器内的各种逻辑的指令。在由机器读取时,指令可促使机器制作逻辑以执行本文中描述的技术。称为“IP核”的此类表示是用于集成电路的逻辑的可重复使用单元,该可重复使用单元可作为对集成电路的结构进行描述的硬件模型而被存储在有形机器可读介质上。可将硬件模型供应至各种客户或制造设施,所述客户或制造设施将硬件模型加载在制造集成电路的制作机器上。可制作集成电路,使得电路执行与本文中描述的实施例中的任何实施例相关联的所描述的操作。
图19A是示出根据实施例的可被用于制造集成电路以执行操作的IP核开发系统1100的框图。IP核开发系统1100可被用于生成可被并入到更大的设计中或被用于构造整个集成电路(例如,SOC集成电路)的模块化、可重复使用设计。设计设施1130可生成采用高级编程语言(例如,C/C++)的IP核设计的软件仿真1110。软件仿真1110可被用于使用仿真模型1112来设计、测试和验证IP核的行为。仿真模型1112可包含功能、行为和/或时序仿真。然后可从仿真模型1112创建或合成寄存器传送级(RTL)设计1115。RTL设计1115是对硬件寄存器之间的数字信号流进行建模的集成电路的行为的抽象,包含使用建模的数字信号执行的相关联的逻辑。除RTL设计1115外,还可创建、设计或合成处于逻辑级或晶体管级的较低级设计。因此,初始设计和仿真的特定细节可变化。
可由设计设施将RTL设计1115或等效物进一步合成为硬件模型1120,该硬件模型1120可采用硬件描述语言(HDL)或物理设计数据的某种其他表示。可进一步对HDL进行仿真或测试以验证IP核设计。可使用非易失性存储器1140(例如,硬盘、闪速存储器或任何非易失性存储介质)来存储IP核设计以用于递送到第三方制作设施1165。备选的是,可通过有线连接1150或无线连接1160(例如,经由因特网)来传送IP核设计。制作设施1165然后可制作至少部分基于IP核设计的集成电路。制作的集成电路可被配置成执行根据本文中描述的至少一个实施例的操作。
图19B示出了根据本文中描述的一些实施例的集成电路封装组装件1170的截面侧视图。集成电路封装组装件1170示出了如本文中描述的一个或多个处理器或加速器装置的实现。封装组装件1170包含连接到衬底1180的硬件逻辑1172、1174的多个单元。逻辑1172、1174可至少部分地以可配置逻辑或固定功能性逻辑硬件实现,并且可包含本文中描述的(一个或多个)处理器核、(一个或多个)图形处理器或其他加速器装置中的任何装置的一个或多个部分。逻辑1172、1174的每个单元可在半导体管芯内被实现,并且经由互连结构1173与衬底1180耦合。互连结构1173可被配置成在逻辑1172、1174与衬底1180之间路由电信号,并且可包含互连,该互连诸如但不限于凸块(bump)或柱。在一些实施例中,互连结构1173可被配置成路由电信号,诸如,例如与逻辑1172、1174的操作相关联的输入/输出(I/O)信号和/或功率或接地信号。在一些实施例中,封装衬底1180是环氧基层压衬底(epoxy-basedlaminate substrate)。在其他实施例中,衬底1180可包含其他合适类型的衬底。封装组装件1170可经由封装互连1183被连接到其他电气装置。封装互连1183可被耦合到衬底1180的表面,以将电信号路由到其他电气装置,诸如主板、其他芯片组或多芯片模块。
在一些实施例中,逻辑1172、1174的单元与桥1182电耦合,该桥1182被配置成在逻辑1172、1174之间路由电信号。桥1182可以是为电信号提供路线(route)的密集互连结构。桥1182可包含由玻璃或合适的半导体材料构成的桥衬底。可在桥衬底上形成电路由部件(electrical routing feature),以在逻辑1172、1174之间提供芯片到芯片连接。
虽然示出了逻辑1172、1174的两个单元和桥1182,但是本文中描述的实施例可包含在一个或多个管芯上的更多或更少逻辑单元。由于当逻辑被包含在单个管芯上时可排除桥1182,因此可通过零个或多于零个桥来连接一个或多个管芯。备选的是,可通过一个或多个桥来连接多个管芯或逻辑单元。另外,在其他可能配置(包含三维配置)中可将多个逻辑单元、管芯和桥连接在一起。
示例性片上系统集成电路
图20-22B示出了根据本文中描述的各种实施例的示例性集成电路以及可使用一个或多个IP核来制作的相关联的图形处理器。除了所示出的内容外,还可包含其他逻辑和电路,包含另外的图形处理器/核、外设接口控制器或通用处理器核。
图20是示出了根据实施例的可使用一个或多个IP核来制作的示例性片上系统集成电路1200的框图。示例性集成电路1200包含一个或多个应用处理器1205(例如,CPU)、至少一个图形处理器1210,并且可另外包含图像处理器1215和/或视频处理器1220,以上处理器中的任何处理器可以是来自相同或多个不同设计设施的模块化IP核。集成电路1200包含外设或总线逻辑,所述外设或总线逻辑包含USB控制器1225、UART控制器1230、SPI/SDIO控制器1235和I2S/I2C控制器1240。另外,集成电路可包含耦合到高清晰度多媒体接口(HDMI)控制器1250和移动工业处理器接口(MIPI)显示接口1255中的一个或多个的显示装置1245。可通过包含闪速存储器和闪速存储器控制器的闪速存储器子系统1260来提供存储。可经由存储器控制器1265提供存储器接口以便访问SDRAM或SRAM存储器装置。一些集成电路另外包含嵌入式安全引擎1270。
图21A-21B是示出了根据本文中描述的实施例的供SoC内使用的示例性图形处理器的框图。图21A示出了根据实施例的可使用一个或多个IP核来制作的片上系统集成电路的示例性图形处理器1310。图21B示出了根据实施例的可使用一个或多个IP核来制作的片上系统集成电路的另外的示例性图形处理器1340。图21A的图形处理器1310是低功率图形处理器核的示例。图21B的图形处理器1340是更高性能图形处理器核的示例。图形处理器1310、1340中的每个图形处理器可以是图20的图形处理器1210的变体。
如图21A中所示出的,图形处理器1310包含顶点处理器1305和一个或多个片段处理器1315A-1315N(例如,1315A、1315B、1315C、1315D到1315N-1和1315N)。图形处理器1310可经由单独的逻辑执行不同着色器程序,使得顶点处理器1305被优化以执行用于顶点着色器程序的操作,而一个或多个片段处理器1315A-1315N执行用于片段或像素着色器程序的片段(例如,像素)着色操作。顶点处理器1305执行3D图形流水线的顶点处理阶段,并且生成图元和顶点数据。(一个或多个)片段处理器1315A-1315N使用由顶点处理器1305生成的图元和顶点数据来产生在显示装置上显示的帧缓冲(framebuffer)。在一个实施例中,(一个或多个)片段处理器1315A-1315N被优化以执行如OpenGL API中提供的片段着色器程序,所述片段着色器程序可被用于执行与如针对在Direct 3D API中提供的像素着色器程序类似的操作。
图形处理器1310另外包含一个或多个存储器管理单元(MMU)1320A-1320B、(一个或多个)高速缓存1325A-1325B和(一个或多个)电路互连1330A-1330B。一个或多个MMU1320A-1320B为图形处理器1310(包含为顶点处理器1305和/或(一个或多个)片段处理器1315A-1315N)提供虚拟地址到物理地址映射,这些处理器除了引用在一个或多个高速缓存1325A-1325B中存储的顶点或图像/纹理数据之外还可引用在存储器中存储的顶点或图像/纹理数据。在一个实施例中,一个或多个MMU 1320A-1320B可与系统内的其他MMU同步,所述其他MMU包含与图20的一个或多个应用处理器1205、图像处理器1215和/或视频处理器1220相关联的一个或多个MMU,使得每个处理器1205-1220可参与到共享或统一的虚拟存储器系统中。根据实施例,一个或多个电路互连1330A-1330B使得图形处理器1310能够经由SoC的内部总线或者经由直接连接来与SoC内的其他IP核通过接口连接。
如图21B中所示出的,图形处理器1340包含图21A的图形处理器1310的一个或多个MMU 1320A-1320B、高速缓存1325A-1325B和电路互连1330A-1330B。图形处理器1340包含提供统一的着色器核架构的一个或多个着色器核1355A-1355N(例如,1455A、1355B、1355C、1355D、1355E、1355F直到1355N-1和1355N),在该统一的着色器核架构中单个核或类型或核可执行全部类型的可编程着色器代码,所述可编程着色器代码包含用于实现顶点着色器、片段着色器和/或计算着色器的着色器程序代码。存在的着色器核的确切数量可在实施例和实现之间变化。另外,图形处理器1340包含:核间任务管理器1345,该核间任务管理器1345充当用于将执行线程分派给一个或多个着色器核1355A-1355N的线程分派器;以及用于为基于拼贴的渲染加速拼贴操作(tiling operation)的拼贴单元(tiling unit)1358,在该基于拼贴的渲染中,用于场景的渲染操作在图像空间中被细分,例如以利用场景内的局部空间相干性或优化内部高速缓存的使用。
图22A-22B示出了根据本文描述的实施例的另外的示例性图形处理器逻辑。图22A示出了图形核1400,该图形核1400可以包含在图20的图形处理器1210内,并且如图21B所示可以是统一着色器核1355A-1355N。图22B示出了另外的通用图形处理单元1430,其是适合于部署在多芯片模块上的高度并行的通用图形处理单元。
如图22A所示,图形核1400包括共享指令高速缓存1402,纹理单元1418和高速缓存/共享存储器1420,它们对于图形核1400内的执行资源是公共的。图形核1400可以包括多个切片1401A-1401N或每个核的分区,并且图形处理器可以包括图形核1400的多个实例。切片1401A-1401N可以包括支持逻辑,该支持逻辑包括本地指令缓存1404A-1404N、线程调度器1406A-1406N、线程分派器1408A-1408N、以及一组寄存器1410A-1440N。为了执行逻辑操作,切片1401A-1401N可以包括一组附加功能单元(AFU 1412A-1412N)、浮点单元(FPU1414A-1414N)、整数算术逻辑单元(ALU 1416-1416N)、地址计算单元(ACU 1413A-1413N)、双精度浮点单元(DPFPU 1415A-1415N)和矩阵处理单元(MPU 1417A-1417N)。
计算单元中的一些以特定的精度操作。例如,FPU 1414A-1414N可以执行单精度(32位)和半精度(16位)浮点操作,而DPFPU 1415A-1415N执行双精度(64位)浮点操作。ALU1416A-1416N可以8位、16位和32位精度执行可变精度整数操作,并且可以配置用于混合精度操作。MPU 1417A-1417N也可以配置用于混合精度矩阵操作,包括半精度浮点操作和8位整数操作。MPU 1417-1417N可以执行各种矩阵操作来加速机器学习应用框架,包括能够实现支持加速的通用矩阵到矩阵乘法(GEMM)。AFU 1412A-1412N可以执行由浮点或整数单元不支持的附加逻辑操作,包括三角操作(例如正弦、余弦等)。
如图22B所示,通用处理单元(GPGPU)1430可以被配置成使得高度并行的计算操作能够由图形处理单元的阵列执行。另外,GPGPU 1430可以直接链接到GPGPU的其他实例,以创建多GPU集群,以改进特定深度神经网络的训练速度。GPGPU 1430包括主机接口1432,以能够实现与主机处理器的连接。在一个实施例中,主机接口1432是PCI Express接口。然而,主机接口也可以是供应商特定的通信接口或通信组构。GPGPU 1430从主机处理器接收命令,并且使用全局调度器1434将与那些命令相关联的执行线程分配给一组计算集群1436A-1436H。计算集群1436A-1436H共享高速缓冲存储器1438。高速缓冲存储器1438可以充当计算集群1436A-1436H内的高速缓冲存储器的更高级别的高速缓冲存储器。
GPGPU 1430包括存储器1444A-1444B,其经由一组存储器控制器1442A-1442B与计算集群1436A-1436H耦合。在各种实施例中,存储器1434A-1434B可以包括各种类型的存储器装置,包括动态随机存取存储器(DRAM)或图形随机存取存储器,诸如同步图形随机存取存储器(SGRAM),包括图形双倍数据速率(GDDR)存储器。
在一个实施例中,计算集群1436A-1436H各自包括一组图形核,诸如图22的图形核1400,所述图形核1400可以包括多种类型的整数和浮点逻辑单元,其可以包括适合于机器学习计算的精度范围来执行计算操作。例如,并且在一个实施例中,计算集群1436A-1436H中的每个的浮点单元的至少子集可以配置成执行16位或32位浮点操作,而浮点单元的不同子集可以配置成执行64位浮点操作。
GPGPU 1430的多个实例可以配置成作为计算集群操作。由计算集群用于同步和数据交换的通信机制跨实施例变化。在一个实施例中,GPGPU 1430的多个实例通过主机接口1432通信。在一个实施例中,GPGPU 1430包括I/O集线器1439,其将GPGPU 1430与GPU链路1440耦合,该GPU链路1440使得能够直接连接到GPGPU的其他实例。在一个实施例中,GPU链路1440耦合到专用GPU到GPU桥,其使得能够在GPGPU 1430的多个实例之间进行通信和同步。在一个实施例中,GPU链路1440与高速互连耦合,以将数据传送和接收到其他GPGPU或并行处理器。在一个实施例中,GPGPU 1430的多个实例位于单独的数据处理系统中,并且经由可经由主机接口1432访问的网络装置进行通信。在一个实施例中,GPU链路1440可被配置成使得能够连接到主机处理器作为主机接口1432的补充或备选。
尽管GPGPU 1430的所示配置能配置成训练神经网络,但是一个实施例提供了可以配置用于在高性能或低功率推理平台内部署的GPGPU 1430的备选配置。在推理配置中,相对于训练配置,GPGPU 1430包括更少的计算集群1436A-1436H。另外,与存储器1434A-1434B相关联的存储器技术可以在推理和训练配置之间有所不同,其中更高带宽的存储器技术专用于训练配置。在一个实施例中,GPGPU 1430的推理配置可以支持推理特定指令。例如,推理配置可以提供对一个或多个8位整数点积指令的支持,所述指令通常在已部署的神经网络的推理操作期间使用。
有利地,以上系统、处理器、图形处理器、设备和/或方法中的任何可以集成或配置有本文描述的各种实施例(例如,或其部分)中的任何,包括例如下面的附加注释和示例中描述的那些。
在一个示例中,(一个或多个)处理器102(图9)和/或图形处理器108(图9)从多个相机144(图9)接收图像数据,并且实现方法42(图2A)和/或方法48(图2B)的一个或多个方面,以实现更高的成本效益、更多的可伸缩性、减少的时延和/或改进的用户体验。另外,逻辑1172(图20B)和/或逻辑1174(图20B)可以实现方法42(图2A)和/或方法48(图2B)的一个或多个方面。此外,在一些实施例中,图形处理器指令格式700可以适合于供系统150(图8)中使用,其具有用于实现那些实施例的一个或多个方面的适当指令。因此,本文所述的技术使得能够自动选择可能从观看的观众的角度具有“非凡”或“卓越”性质的高亮时刻周围的相机路径。
附加的注释和示例
示例1可包括一种沉浸式内容计算系统,包括:网络控制器;处理器,所述处理器耦合到所述网络控制器;以及存储器,所述存储器耦合到所述处理器,所述存储器包括指令集,所述指令当由所述处理器执行时使所述计算系统:基于相机校准数据和与比赛中的投射物相关联的轨迹数据来自动确定多个相机角度;以及基于所述多个相机角度来自动生成用于在所述比赛中的高亮时刻周围感兴趣的三维(3D)区域的体积式内容回放的相机路径。
示例2包括根据示例1所述的系统,其中,所述指令在被执行时使所述计算系统基于所述高亮时刻,将所述轨迹数据分区为高亮前轨迹数据和高亮后轨迹数据。
示例3包括根据示例2所述的系统,其中,所述多个相机角度将包括高亮前相机角度,并且其中,基于所述相机校准数据和所述高亮前轨迹数据来确定所述高亮前相机角度。
示例4包括根据示例2所述的系统,其中,所述多个相机角度将包括高亮后相机角度,并且其中,基于所述相机校准数据和所述高亮后轨迹数据来确定所述高亮后相机角度。
示例5包括根据示例2所述的系统,其中,所述多个相机角度将包括高亮前相机角度和高亮后相机角度之间的一个或多个中间相机角度,并且其中,基于所述相机校准数据、所述高亮前相机角度和所述高亮后相机角度来确定所述一个或多个中间相机角度。
示例6包括根据示例1至5中的任一项所述的系统,其中,所述指令在被执行时使所述计算系统:基于所述多个相机角度、投射物位置数据、选手位置数据和目标区数据来选择所述感兴趣的3D区域;以及将所述感兴趣的3D区域重新投影到所述多个相机角度。
示例7包括一种半导体设备,包括:一个或多个衬底;以及耦合到所述一个或多个衬底的逻辑,其中,所述逻辑至少部分地采用可配置逻辑或固定功能性硬件逻辑中的一个或多个来实现,耦合到所述一个或多个衬底的所述逻辑用于:基于相机校准数据和与比赛中的投射物相关联的轨迹数据来自动确定多个相机角度;以及基于所述多个相机角度来自动生成用于在所述比赛中的高亮时刻周围感兴趣的三维(3D)区域的体积式内容回放的相机路径。
示例8包括根据示例7所述的半导体设备,其中,耦合到所述一个或多个衬底的所述逻辑用于:基于所述高亮时刻,将所述轨迹数据分区为高亮前轨迹数据和高亮后轨迹数据。
示例9包括根据示例8所述的半导体设备,其中,所述多个相机角度将包括高亮前相机角度,并且其中,基于所述相机校准数据和所述高亮前轨迹数据来确定所述高亮前相机角度。
示例10包括根据示例8所述的半导体设备,其中,所述多个相机角度将包括高亮后相机角度,并且其中,基于所述相机校准数据和所述高亮后轨迹数据来确定所述高亮后相机角度。
示例11包括根据示例8所述的半导体设备,其中,所述多个相机角度将包括高亮前相机角度和高亮后相机角度之间的一个或多个中间相机角度,并且其中,基于所述相机校准数据、所述高亮前相机角度和所述高亮后相机角度来确定所述一个或多个中间相机角度。
示例12包括根据示例7至11中的任一项所述的半导体设备,其中,耦合到所述一个或多个衬底的所述逻辑用于:基于所述多个相机角度、投射物位置数据、选手位置数据和目标区数据来选择所述感兴趣的3D区域;以及将所述感兴趣的3D区域重新投影到所述多个相机角度。
示例13包括至少一个计算机可读存储介质,包括指令集,所述指令当由计算系统执行时使所述计算系统:基于相机校准数据和与比赛中的投射物相关联的轨迹数据来自动确定多个相机角度;以及基于所述多个相机角度来自动生成用于在所述比赛中的高亮时刻周围感兴趣的三维(3D)区域的体积式内容回放的相机路径。
示例14根据示例13所述的至少一个计算机可读存储介质,其中,所述指令在被执行时使所述计算系统:基于所述高亮时刻,将所述轨迹数据分区为高亮前轨迹数据和高亮后轨迹数据。
示例15根据示例14所述的至少一个计算机可读存储介质,其中,所述多个相机角度将包括高亮前相机角度,并且其中,基于所述相机校准数据和所述高亮前轨迹数据来确定所述高亮前相机角度。
示例16根据示例14所述的至少一个计算机可读存储介质,其中,所述多个相机角度将包括高亮后相机角度,并且其中,基于所述相机校准数据和所述高亮后轨迹数据来确定所述高亮后相机角度。
示例17根据示例14所述的至少一个计算机可读存储介质,其中,所述多个相机角度将包括高亮前相机角度和高亮后相机角度之间的一个或多个中间相机角度,并且其中,基于所述相机校准数据、所述高亮前相机角度和所述高亮后相机角度来确定所述一个或多个中间相机角度。
示例18包括根据示例13至17中的任一项所述的至少一个计算机可读存储介质,其中,所述指令在被执行时使所述计算系统:基于所述多个相机角度、投射物位置数据、选手位置数据和目标区数据来选择所述感兴趣的3D区域;以及将所述感兴趣的3D区域重新投影到所述多个相机角度。
示例19包括一种操作沉浸式内容计算系统的方法,包括:基于相机校准数据和与比赛中的投射物相关联的轨迹数据来自动确定多个相机角度;以及基于所述多个相机角度来自动生成用于在所述比赛中的高亮时刻周围感兴趣的三维(3D)区域的体积式内容回放的相机路径。
示例20包括根据示例19所述的方法,还包括:基于所述高亮时刻,将所述轨迹数据分区为高亮前轨迹数据和高亮后轨迹数据。
示例21包括根据示例19所述的方法,其中,所述多个相机角度包括高亮前相机角度,并且其中,基于所述相机校准数据和所述高亮前轨迹数据来确定所述高亮前相机角度。
示例22包括根据示例20所述的方法,其中,所述多个相机角度包括高亮后相机角度,并且其中,基于所述相机校准数据和所述高亮后轨迹数据来确定所述高亮后相机角度。
示例23包括根据示例20所述的方法,其中,所述多个相机角度包括高亮前相机角度和高亮后相机角度之间的一个或多个中间相机角度,并且其中,基于所述相机校准数据、所述高亮前相机角度和所述高亮后相机角度来确定所述一个或多个中间相机角度。
示例24根据示例19至23中的任一项所述的方法,还包括:基于所述多个相机角度、投射物位置数据、选手位置数据和目标区数据来选择所述感兴趣的3D区域;以及将所述感兴趣的3D区域重新投影到所述多个相机角度。
实施例适用于供所有类型的半导体集成电路(“IC”)芯片使用。这些IC芯片的示例包括但不限于处理器、控制器、芯片集组件、可编程逻辑阵列(PLA)、存储器芯片、网络芯片、片上系统(SoC)、SSD/NAND控制器ASIC等。另外,在附图的一些中,信号导体线利用线表示。一些可能不同,以指示更多的组成信号路径,具有数字标签,以指示多个组成信号路径,和/或在一个或多个末端具有箭头,以指示主要信息流方向。然而,这不应以限制性方式来解释。相反,可结合一个或多个示例性实施例使用此添加的细节以促进对电路的更容易的理解。任何表示的信号线,无论是否具有附加信息,实际上都可以包括可以在多个方向行进的一个或多个信号,并且可以利用任何合适类型的信号方案来实现,例如利用差分对实现的数字或模拟线、光纤线和/或单端线。
可以已经给出了示例尺寸/模型/值/范围,尽管实施例不限于相同的大小/模型/值/范围。随着制造技术(例如,光刻)随着时间而成熟,要期望可以制造更小尺寸的装置。另外,为了简化图示和讨论,并且以便不混淆实施例的某些方面,在图内可以或可以不示出与IC芯片和其他组件的众所周知的电源/接地连接。此外,可以采用框图形式示出布置,以便避免混淆实施例,并且也鉴于以下事实:关于这种框图布置的实现的细节高度取决于要在其中实现该实施例的平台,即,这样的细节应该恰好在本领域技术人员的范围内。在阐述特定细节(例如,电路)以便描述示例实施例的情况下,本领域技术人员应明白,可以在没有这些特定细节或在这些特定细节的变化的情况下实践实施例。因此,本描述应被认为是说明性的而不是限制性的。
术语“耦合”在本文中可以用来指讨论中的组件之间的任何类型的直接或间接的关系,并且可以应用于电、机械、流体、光、电磁、机电或其他连接。另外,术语“第一”、“第二”等在本文中仅可用于促进讨论,并且除非另外指出,否则不承载特定的时间或时间顺序意义。
如在本申请和权利要求书中使用的,由术语“的一个或多个”连接的项目的列表可以表示所列出术语的任何组合。例如,短语“A、B和C中的一个或多个”和短语“A、B或C中的一个或多个”两者都可以表示A;B;C;A和B;A和C;B和C;或A、B和C。
本领域技术人员根据前面的描述将理解,可采用各种形式来实现实施例的广泛技术。因此,虽然实施例已经结合其特定示例来描述了,但是实施例的真实范围不应这样限制,因为对本领域技术人员在研究附图、说明书和所附权利要求书时将变得明白其他修改。
Claims (24)
1.一种沉浸式内容计算系统,包括:
网络控制器;
处理器,所述处理器耦合到所述网络控制器;以及
存储器,所述存储器耦合到所述处理器,所述存储器包括指令集,所述指令当由所述处理器执行时使所述计算系统:
基于相机校准数据和与比赛中的投射物相关联的轨迹数据来自动确定多个相机角度;以及
基于所述多个相机角度来自动生成用于在所述比赛中的高亮时刻周围感兴趣的三维(3D)区域的体积式内容回放的相机路径。
2.根据权利要求1所述的系统,其中,所述指令在被执行时使所述计算系统基于所述高亮时刻,将所述轨迹数据分区为高亮前轨迹数据和高亮后轨迹数据。
3.根据权利要求2所述的系统,其中,所述多个相机角度将包括高亮前相机角度,并且其中,基于所述相机校准数据和所述高亮前轨迹数据来确定所述高亮前相机角度。
4.根据权利要求2所述的系统,其中,所述多个相机角度将包括高亮后相机角度,并且其中,基于所述相机校准数据和所述高亮后轨迹数据来确定所述高亮后相机角度。
5.根据权利要求2所述的系统,其中,所述多个相机角度将包括高亮前相机角度和高亮后相机角度之间的一个或多个中间相机角度,并且其中,基于所述相机校准数据、所述高亮前相机角度和所述高亮后相机角度来确定所述一个或多个中间相机角度。
6.根据权利要求1至5中的任一项所述的系统,其中,所述指令在被执行时使所述计算系统:
基于所述多个相机角度、投射物位置数据、选手位置数据和目标区数据来选择所述感兴趣的3D区域;以及
将所述感兴趣的3D区域重新投影到所述多个相机角度。
7.一种半导体设备,包括:
一个或多个衬底;以及
耦合到所述一个或多个衬底的逻辑,其中,所述逻辑至少部分地采用可配置逻辑或固定功能性硬件逻辑中的一个或多个来实现,耦合到所述一个或多个衬底的所述逻辑用于:
基于相机校准数据和与比赛中的投射物相关联的轨迹数据来自动确定多个相机角度;以及
基于所述多个相机角度来自动生成用于在所述比赛中的高亮时刻周围感兴趣的三维(3D)区域的体积式内容回放的相机路径。
8.根据权利要求7所述的半导体设备,其中,耦合到所述一个或多个衬底的所述逻辑用于:基于所述高亮时刻,将所述轨迹数据分区为高亮前轨迹数据和高亮后轨迹数据。
9.根据权利要求8所述的半导体设备,其中,所述多个相机角度将包括高亮前相机角度,并且其中,基于所述相机校准数据和所述高亮前轨迹数据来确定所述高亮前相机角度。
10.根据权利要求8所述的半导体设备,其中,所述多个相机角度将包括高亮后相机角度,并且其中,基于所述相机校准数据和所述高亮后轨迹数据来确定所述高亮后相机角度。
11.根据权利要求8所述的半导体设备,其中,所述多个相机角度将包括高亮前相机角度和高亮后相机角度之间的一个或多个中间相机角度,并且其中,基于所述相机校准数据、所述高亮前相机角度和所述高亮后相机角度来确定所述一个或多个中间相机角度。
12.根据权利要求7至11中的任一项所述的半导体设备,其中,耦合到所述一个或多个衬底的所述逻辑用于:
基于所述多个相机角度、投射物位置数据、选手位置数据和目标区数据来选择所述感兴趣的3D区域;以及
将所述感兴趣的3D区域重新投影到所述多个相机角度。
13.至少一个计算机可读存储介质,包括指令集,所述指令当由计算系统执行时使所述计算系统:
基于相机校准数据和与比赛中的投射物相关联的轨迹数据来自动确定多个相机角度;以及
基于所述多个相机角度来自动生成用于在所述比赛中的高亮时刻周围感兴趣的三维(3D)区域的体积式内容回放的相机路径。
14.根据权利要求13所述的至少一个计算机可读存储介质,其中,所述指令在被执行时使所述计算系统:基于所述高亮时刻,将所述轨迹数据分区为高亮前轨迹数据和高亮后轨迹数据。
15.根据权利要求14所述的至少一个计算机可读存储介质,其中,所述多个相机角度将包括高亮前相机角度,并且其中,基于所述相机校准数据和所述高亮前轨迹数据来确定所述高亮前相机角度。
16.根据权利要求14所述的至少一个计算机可读存储介质,其中,所述多个相机角度将包括高亮后相机角度,并且其中,基于所述相机校准数据和所述高亮后轨迹数据来确定所述高亮后相机角度。
17.根据权利要求14所述的至少一个计算机可读存储介质,其中,所述多个相机角度将包括高亮前相机角度和高亮后相机角度之间的一个或多个中间相机角度,并且其中,基于所述相机校准数据、所述高亮前相机角度和所述高亮后相机角度来确定所述一个或多个中间相机角度。
18.根据权利要求13至17中的任一项所述的至少一个计算机可读存储介质,其中,所述指令在被执行时使所述计算系统:基于所述多个相机角度、投射物位置数据、选手位置数据和目标区数据来选择所述感兴趣的3D区域;以及
将所述感兴趣的3D区域重新投影到所述多个相机角度。
19.一种操作沉浸式内容计算系统的方法,包括:
基于相机校准数据和与比赛中的投射物相关联的轨迹数据来自动确定多个相机角度;以及
基于所述多个相机角度来自动生成用于在所述比赛中的高亮时刻周围感兴趣的三维(3D)区域的体积式内容回放的相机路径。
20.根据权利要求19所述的方法,还包括:基于所述高亮时刻,将所述轨迹数据分区为高亮前轨迹数据和高亮后轨迹数据。
21.根据权利要求19所述的方法,其中,所述多个相机角度包括高亮前相机角度,并且其中,基于所述相机校准数据和所述高亮前轨迹数据来确定所述高亮前相机角度。
22.根据权利要求20所述的方法,其中,所述多个相机角度包括高亮后相机角度,并且其中,基于所述相机校准数据和所述高亮后轨迹数据来确定所述高亮后相机角度。
23.根据权利要求20所述的方法,其中,所述多个相机角度包括高亮前相机角度和高亮后相机角度之间的一个或多个中间相机角度,并且其中,基于所述相机校准数据、所述高亮前相机角度和所述高亮后相机角度来确定所述一个或多个中间相机角度。
24.根据权利要求19至23中的任一项所述的方法,还包括:基于所述多个相机角度、投射物位置数据、选手位置数据和目标区数据来选择所述感兴趣的3D区域;以及
将所述感兴趣的3D区域重新投影到所述多个相机角度。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/CN2018/108375 WO2020062041A1 (en) | 2018-09-28 | 2018-09-28 | Automated generation of camera paths |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112292852A true CN112292852A (zh) | 2021-01-29 |
Family
ID=69949488
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201880094842.4A Pending CN112292852A (zh) | 2018-09-28 | 2018-09-28 | 相机路径的自动生成 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11451757B2 (zh) |
CN (1) | CN112292852A (zh) |
WO (1) | WO2020062041A1 (zh) |
Family Cites Families (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6995788B2 (en) | 2001-10-10 | 2006-02-07 | Sony Computer Entertainment America Inc. | System and method for camera navigation |
US10360685B2 (en) * | 2007-05-24 | 2019-07-23 | Pillar Vision Corporation | Stereoscopic image capture with performance outcome prediction in sporting environments |
US8409024B2 (en) * | 2001-09-12 | 2013-04-02 | Pillar Vision, Inc. | Trajectory detection and feedback system for golf |
GB2400513B (en) * | 2003-03-14 | 2005-10-05 | British Broadcasting Corp | Video processing |
EP2479991A3 (en) * | 2006-12-04 | 2014-01-08 | Lynx System Developers, Inc. | Autonomous systems and methods for still and moving picture production |
US8786596B2 (en) * | 2008-07-23 | 2014-07-22 | Disney Enterprises, Inc. | View point representation for 3-D scenes |
US9186548B2 (en) * | 2009-07-20 | 2015-11-17 | Disney Enterprises, Inc. | Play sequence visualization and analysis |
EP2413286A1 (en) * | 2010-07-29 | 2012-02-01 | LiberoVision AG | Image processing method and device for instant replay |
WO2012070010A1 (en) * | 2010-11-24 | 2012-05-31 | Stergen High-Tech Ltd. | Improved method and system for creating three-dimensional viewable video from a single video stream |
US20120142421A1 (en) * | 2010-12-03 | 2012-06-07 | Kennedy Jr Thomas William | Device for interactive entertainment |
US9813610B2 (en) * | 2012-02-24 | 2017-11-07 | Trace Optics Pty Ltd | Method and apparatus for relative control of multiple cameras using at least one bias zone |
JP5998829B2 (ja) * | 2012-10-15 | 2016-09-28 | 凸版印刷株式会社 | カメラワーク制御装置、及びカメラワーク制御プログラム |
US8948457B2 (en) * | 2013-04-03 | 2015-02-03 | Pillar Vision, Inc. | True space tracking of axisymmetric object flight using diameter measurement |
CN103679809B (zh) * | 2013-12-24 | 2016-08-17 | 中山大学 | 一种基于数据并行处理的虚拟现实的3d仿真方法及系统 |
JP6030712B1 (ja) | 2015-06-15 | 2016-11-24 | 株式会社コナミデジタルエンタテインメント | ゲームシステム、及びそれに用いられるコンピュータプログラム |
US10791285B2 (en) * | 2015-10-05 | 2020-09-29 | Woncheol Choi | Virtual flying camera system |
US9782678B2 (en) * | 2015-12-06 | 2017-10-10 | Sliver VR Technologies, Inc. | Methods and systems for computer video game streaming, highlight, and replay |
GB2552316A (en) * | 2016-07-15 | 2018-01-24 | Sony Corp | Information processing apparatus, method and computer program product |
EP3499897B1 (en) * | 2016-08-10 | 2021-05-19 | Panasonic Intellectual Property Corporation of America | Camerawork generating method and video processing device |
CN106131536A (zh) | 2016-08-15 | 2016-11-16 | 万象三维视觉科技(北京)有限公司 | 一种裸眼3d增强现实互动展示系统及其展示方法 |
US10269133B2 (en) * | 2017-01-03 | 2019-04-23 | Qualcomm Incorporated | Capturing images of a game by an unmanned autonomous vehicle |
JP7086522B2 (ja) * | 2017-02-28 | 2022-06-20 | キヤノン株式会社 | 画像処理装置、情報処理方法及びプログラム |
US11093025B2 (en) * | 2017-04-11 | 2021-08-17 | Bascule Inc. | Virtual-reality provision system, three-dimensional-display-data provision device, virtual-space provision system, and program |
CA3003526A1 (en) * | 2017-05-02 | 2018-11-02 | Interactive Sports Technologies Inc. | Sports simulation system |
US10380409B2 (en) * | 2017-11-16 | 2019-08-13 | Blast Motion Inc. | Method for estimating a 3D trajectory of a projectile from 2D camera images |
GB2570472A (en) * | 2018-01-26 | 2019-07-31 | Sony Europe Ltd | Sporting display device and method |
US10902676B2 (en) * | 2018-03-13 | 2021-01-26 | Canon Kabushiki Kaisha | System and method of controlling a virtual camera |
US11740630B2 (en) * | 2018-06-12 | 2023-08-29 | Skydio, Inc. | Fitness and sports applications for an autonomous unmanned aerial vehicle |
US11064221B2 (en) * | 2018-11-24 | 2021-07-13 | Robert Bradley Burkhart | Multi-camera live-streaming method and devices |
US11045705B2 (en) * | 2019-03-19 | 2021-06-29 | NEX Team Inc. | Methods and systems for 3D ball trajectory reconstruction |
JP7366611B2 (ja) * | 2019-07-05 | 2023-10-23 | キヤノン株式会社 | 画像処理装置、画像処理方法、及び、プログラム |
-
2018
- 2018-09-28 US US17/253,188 patent/US11451757B2/en active Active
- 2018-09-28 WO PCT/CN2018/108375 patent/WO2020062041A1/en active Application Filing
- 2018-09-28 CN CN201880094842.4A patent/CN112292852A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
WO2020062041A1 (en) | 2020-04-02 |
US20210281810A1 (en) | 2021-09-09 |
US11451757B2 (en) | 2022-09-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10628910B2 (en) | Vertex shader with primitive replication | |
CN110784714A (zh) | 用于沉浸式视频的选择性补片打包 | |
US10424043B1 (en) | Efficiently enqueuing workloads from user mode to hardware across privilege domains | |
US11250616B2 (en) | View-dependent carving of reconstructed data from segmentation masks | |
CN112561774A (zh) | 图形处理单元及其中的方法 | |
CN112801849A (zh) | 用于调度线程顺序以改进高速缓存效率的方法和设备 | |
CN113094298A (zh) | 对共享本地存储器进行分区的机制 | |
CN113052746A (zh) | 用于多适配器编码的装置和方法 | |
WO2021026797A1 (en) | Automatic generation of 3d bounding boxes from multi-camera 2d image data | |
US20220157005A1 (en) | Method and apparatus for viewport shifting of non-real time 3d applications | |
WO2020097750A1 (en) | Automated field of view estimation from game participant perspectives | |
US10839597B2 (en) | Apparatus and method for multi-frequency vertex shading | |
CN110969684A (zh) | 用于多速率像素着色的多期架构 | |
WO2020206672A1 (en) | Technology to automatically identify the frontal body orientation of individuals in real-time multi-camera video feeds | |
EP3618007A1 (en) | Apparatus and method for runtime training of a denoising machine learning engine | |
US11610399B2 (en) | Highlight moment identification technology in volumetric content creation systems | |
US11861907B2 (en) | Technology to automatically locate ball-holding players in multi-camera video feeds | |
WO2020061898A1 (en) | Apparatus and method for graphics virtualization with late synchronization | |
CN111861855A (zh) | 动态启用在3d工作负载中的铺块 | |
US11451757B2 (en) | Automated generation of camera paths | |
CN110889093A (zh) | 用于图形或视频子系统中的内容保护的系统和方法 | |
US20200349769A1 (en) | Apparatus and method for optimized image stitching based on optical flow | |
US20220312052A1 (en) | Video streaming for cloud gaming | |
CN113935885A (zh) | 片定序机制 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |