CN110415158B

CN110415158B - 可缩放gpu中的数据分布组构

Info

Publication number: CN110415158B
Application number: CN201910463455.XA
Authority: CN
Inventors: A.科克; L.斯特里拉马萨马; A.阿利
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2014-06-30
Filing date: 2015-05-13
Publication date: 2023-05-30
Anticipated expiration: 2035-05-13
Also published as: SG10201906287SA; BR112016028116B1; EP3161783B1; US20160284046A1; CN110415158A; EP3161783A1; EP3576044B1; KR102218332B1; BR112016028116A2; EP3576044A1; EP4283950A3; US9330433B2; KR101913357B1; KR20170005032A; JP2017517810A; US20190272615A1; KR20180129856A; BR122019013525A2; JP7000643B2; EP4283950A2

Abstract

在一个实施例中，混合组构互连处理器内的多个图形处理器核。混合组构互连包含多个数据通道，其包含可编程虚拟数据通道。虚拟数据通道携带基于分组的消息的多个业务类别。虚拟数据通道和多个业务类别可被指配多个优先级中的一个优先级。虚拟数据通道可以独立仲裁。混合组构是可缩放的，并且能支持多个拓扑，包含多个堆叠式集成电路拓扑。

Description

可缩放GPU中的数据分布组构

技术领域

实施例一般涉及信息处理，并且更具体地说，涉及用在可缩放图形处理器中的数据分布组构（fabric）。

背景技术

多核图形处理单元在从片上系统(SOC)集成电路到高端（high-end）离散图形处理器的范围的计算系统之间已经变得规范化。在高端图形的真实情况下，多核解决方案是增大图形处理性能的主要方法。对于SOC解决方案，多核图形处理器的使用允许降低系统功率，同时允许在高图形处理器工作载荷周期(period)期间的高性能。

然而，当开发跨越多个功率和性能段的图形处理解决方案时，在组分（component）内的图形核的数量上的增大造成了可缩放性问题。在高端图形产品中使用的多核通信解决方案不适合由于成本和功耗的问题引起的低功率产品。在低功率图形中使用的通信解决方案一般未提供高端图形解决方案的充足性能。例如，一个图形核通信解决方案要经由唯一数据分布通道耦合各种图形处理器。然而，使用唯一通信通道呈现出用于设计意图跨越多个功率和性能段的图形处理器的困难。

附图说明

如下描述包含具有作为实现各种实施例的示例给出的说明的附图的论述。附图应该作为示例而非作为限制进行理解，附图中：

图1是带有具有一个或多个处理器核和图形处理器的处理器的计算机系统的实施例的框图；

图2是具有一个或多个处理器核、集成存储器控制器和集成图形处理器的处理器一个实施例的框图；

图3是可以是分立图形处理单元或者可以是与多个处理核集成的图形处理器的图形处理器的一个实施例的框图；

图4是图形处理器的图形处理引擎的实施例的框图；

图5是图形处理器的另一实施例的框图；

图6是包含处理元素阵列的线程执行逻辑的框图；

图7图示了根据实施例的图形处理器执行单元指令格式；

图8是包含图形流水线、媒体流水线、显示器引擎、线程执行逻辑和渲染输出流水线的图形处理器的另一实施例的框图；

图9A是图示根据实施例的图形处理器命令格式的框图；

图9B是图示根据实施例的图形处理器命令序列的框图；

图10图示了根据实施例的数据处理系统的示范图形软件架构；

图11是图形核组构装配（assembly）的实施例的框图；

图12A-B图示了多个示范图形核拓扑；

图13是包含数据分布组构的堆叠式(stacked)集成电路的实施例的框图；

图14是根据实施例在虚拟通道上携带的多个业务类别的说明；以及

图15是根据实施例的数据传送序列的流程图。

具体实施方式

如下描述描述了用在包含在处理器、计算机系统或其它处理设备内或与之关联的可缩放图形处理单元中的数据分布组构的处理逻辑。为了解释的目的，阐述了大量特定细节以提供下面描述的各种实施例的透彻理解。然而，对本领域技术实践人员将是显而易见的是，实施例可在没有这些特定细节的情况下实践。在其它实例中，众所周知的结构和装置以框图形式示出以避免模糊了基础原则，并且提供了实施例的更透彻理解。

尽管其中一些如下实施例参考处理器进行描述，但对其它类型的电路或半导体装置可施加类似的技术和教导，因为这些教导适用于执行数据操纵的任何处理器或机器。

概览——图1-3

图1是根据实施例的数据处理系统100的框图。数据处理系统100包含一个或多个处理器102和一个或多个图形处理器108，并且可以是单个处理器台式系统、多处理器工作站系统或具有大量处理器102或处理器核107的服务器系统。在一个实施例中，数据处理系统100是用在移动、手持或嵌入式装置中的片上系统集成电路（SOC）。

数据处理系统100的实施例可包含基于服务器的游戏平台或游戏控制台（包含游戏和媒体控制台、移动游戏控制台、手持游戏控制台或在线游戏控制台）或结合在其内。在一个实施例中，数据处理系统100是移动电话、智能电话、平板计算装置或移动因特网装置。数据处理系统100还可包含可穿戴装置（诸如智能手表可穿戴装置、智能眼镜装置、增强现实装置或虚拟现实装置）、与其耦合或集成在其内。在一个实施例中，数据处理系统100是具有一个或多个处理器102以及由一个或多个图形处理器108生成的图形界面的电视或机顶盒装置。

一个或多个处理器102各包含用于处理指令的一个或多个处理器核107，所述指令当执行时执行用于系统和用户软件的操作。在一个实施例中，一个或多个处理器核107中的每个都配置成处理特定指令集109。指令集109可促进复杂指令集计算（CISC）、缩减指令集计算（RISC）或经由超长指令字(VLIW)的计算。多个处理器核107各可处理不同指令集109，其可包含用于促进其它指令集仿真的指令。处理器核107还可包含其它处理装置，诸如数字信号处理器(DSP)。

在一个实施例中，一个或多个处理器102中的每个都包含高速缓冲存储器104。取决于架构，处理器102可具有单个内部高速缓存或多级内部高速缓存。在一个实施例中，高速缓冲存储器在处理器102的各种组分之间共享。在一个实施例中，处理器102还使用外部高速缓存（例如3级（L3）高速缓存或末级高速缓存（LLC））（未示出），其可使用已知高速缓存一致性技术在处理器核107之间共享。寄存器文件106此外被包含在处理器102中，其可包含用于存储不同类型数据的不同类型寄存器（例如整数寄存器、浮点寄存器、状况(status)寄存器和指令指针寄存器）。一些寄存器可以是通用寄存器，而其它寄存器可以是对处理器102的设计特定的。

处理器102耦合到处理器总线110，以在处理器102与系统100中的其它组分之间传送数据信号。系统100使用示范“集线器”系统架构，包含存储器控制器集线器116和输入输出（I/O）控制器集线器130。存储器控制器集线器116促进存储器装置与系统100的其它组分之间的通信，同时I/O控制器集线器（ICH）130提供了经由本地I/O总线到I/O装置的连接。

存储器装置120可以是动态随机存取存储器（DRAM）装置、静态随机存取存储器（SRAM）装置、闪存装置或具有充当过程存储器的适合性能的某一其它存储器装置。存储器120可存储当处理器102执行过程时供使用的数据122和指令121。存储器控制器集线器116还与可选的外部图形处理器112耦合，其可与处理器102中的一个或多个图形处理器108通信以执行图形和媒体操作。

ICH 130使外围设备能够经由高速I/O总线连接到存储器120和处理器102。I/O外围设备包含音频控制器146、固件接口128、无线收发器126（例如Wi-Fi、蓝牙）、数据存储装置124（例如硬盘驱动器、闪存等）以及用于将传统（例如个人系统2(PS/2)）装置耦合到系统的传统I/O控制器。一个或多个通用串行总线（USB）控制器142连接输入装置，诸如键盘和鼠标144组合。网络控制器134还可耦合到ICH 130。在一个实施例中，高性能网络控制器（未示出）耦合到处理器总线110。

图2是具有一个或多个处理器核202A-N、集成存储器控制器214和集成图形处理器208的处理器200的实施例的框图。处理器200可包含附加核（多达且包含由虚线框表示的附加核202N）。核202A-N中的每个核都包含一个或多个内部高速缓存单元204A-N。在一个实施例中，每个核还可以使用一个或多个共享高速缓存单元206。

内部高速缓存单元204A-N和共享高速缓存单元206表示处理器200内的高速缓冲存储器层级。高速缓冲存储器层级可包含每个核内的至少一级指令和数据高速缓存和一级或多级共享中级高速缓存，诸如2级(L2)、3级(L3)、4级(L4)或其它级高速缓存，其中在外部存储器前面的最高级高速缓存被分类为末级高速缓存(LLC)。在一个实施例中，高速缓存一致性逻辑保持各种高速缓存单元206与204A-N之间的一致性。

处理器200还可包含一组一个或多个总线控制器单元216和系统代理210。一个或多个总线控制器单元管理一组外围设备总线，诸如一个或多个外围组件互连总线（例如PCI、PCI Express）。系统代理210提供各种处理器组分的管理功能性。在一个实施例中，系统代理210包含一个或多个集成存储器控制器214以管理对各种外部存储器装置（未示出）的存取。

在一个实施例中，核202A-N中的一个或多个包含对于同时多线程的支持。在此类实施例中，系统代理210包含用于在多线程处理期间协调和操作核202A-N的组分。系统代理210此外可包含功率控制单元（PCU），其包含用于调节核202A-N和图形处理器208的功率状态的逻辑和组分。

处理器200此外包含用于执行图形处理操作的图形处理器208。在一个实施例中，图形处理器208与该组共享高速缓存单元206以及包含一个或多个集成存储器控制器214的系统代理单元210耦合。在一个实施例中，显示器控制器211与图形处理器208耦合以驱动到一个或多个耦合显示器的图形处理器输出。显示器控制器211可以是经由至少一个互连与图形处理器耦合的单独模块，或者可集成在图形处理器208或系统代理210内。

在一个实施例中，使用基于环的互连单元212耦合处理器200的内部组分，然而可使用备选互连单元，诸如点对点互连、切换的（switched）互连或其它技术，包含本领域众所周知的技术。在一个实施例中，图形处理器208经由I/O链路213与环（ring）互连212耦合。

示范I/O链路213表示I/O互连的多个种类中的至少一个，包含促进各种处理器组分与高性能嵌入式存储器模块218（诸如eDRAM模块）之间通信的封装I/O互连。在一个实施例中，核202-N和图形处理器208中的每个都使用嵌入式存储器模块218作为共享末级高速缓存。

在一个实施例中，核202A-N是执行相同指令集架构的同质核。在另一实施例中，核202A-N就指令集架构(ISA)而言是异质的，其中核202A-N中的一个或多个执行第一指令集，而至少一个其它核执行第一指令集的子集或不同指令集。

处理器200可以是一个或多个衬底的一部分，或使用若干处理技术（例如互补金属氧化物半导体(CMOS)、双极结型/互补金属氧化物半导体(BiCMOS)或N型金属氧化物半导体逻辑(NMOS)）中的任何技术实现在其上。此外，处理器200可实现在一个或多个芯片上或作为片上系统（SOC）集成电路（除其它组分之外还具有所图示的组分）。

图3是可以是分立图形处理单元或者可以是与多个处理核集成的图形处理器的图形处理器300的一个实施例的框图。在一个实施例中，图形处理器通过经由到图形处理器上寄存器的存储器映射的I/O接口并经由置入处理器存储器中的命令进行通信。图形处理器300包含存储器接口314以存取存储器。存储器接口314可以是到本地存储器、一个或多个内部高速缓存、一个或多个共享外部高速缓存和/或系统存储器的接口。

图形处理器300还包含显示器控制器302以将显示器输出数据驱动到显示器装置320。显示器控制器302包含用于用户界面元素或视频的多层的合成和显示器的一个或多个覆盖平面的硬件。在一个实施例中，图形处理器300包含视频编解码器引擎306以对媒体进行编码、解码或代码转换到一个或多个媒体编码格式、从一个或多个媒体编码格式进行编码、解码或代码转换或在一个或多个媒体编码格式之间进行编码、解码或代码转换，所述编码格式包含但不限于运动画面专家组（MPEG）格式（诸如MPEG-2）、高级视频译码（AVC）格式（诸如H.264/MPEG-4 AVC）以及电影与电视工程师协会(SMPTE)421M/VC-1和联合影像专家组(JPEG)格式（诸如JPEG）以及运动JPEG (MJPEG)格式。

在一个实施例中，图形处理器300包含块图像传输（BLIT）引擎304以执行二维(2D)光栅化器（rasterizer）操作，例如包含位边界块传输。然而，在一个实施例中，使用图形处理引擎(GPE)310的一个或多个组分执行2D图形操作。图形处理引擎310是用于执行图形操作的计算引擎，包含三维（3D）图形操作和媒体操作。

GPE 310包含用于执行3D操作的3D流水线312，诸如使用作用在3D原语形状（例如长方形、三角形等）的处理功能渲染三维图像和场景。3D流水线312包含可编程和固定功能元素，它们在元素内执行各种任务和/或产生到3D/媒体子系统315的执行线程。虽然3D流水线312可用于执行媒体操作，但GPE 310的实施例还包含具体地说用于执行诸如视频后处理和图像增强的媒体操作的媒体流水线316。

在一个实施例中，媒体流水线316包含固定功能或可编程逻辑单元以代替或代表视频编解码器引擎306执行一个或多个专用媒体操作，诸如视频解码加速、视频去交织（deinterlace）和视频编码加速。在一个实施例中，媒体流水线316此外包含线程产生单元以产生线程以便在3D/媒体子系统315上执行。产生的线程在包含在3D/媒体子系统中的一个或多个图形执行单元上执行媒体操作的计算。

3D/媒体子系统315包含用于执行由3D流水线312和媒体流水线316产生的线程的逻辑。在一个实施例中，流水线将线程执行请求发送到3D/媒体子系统315，其包含线程分派逻辑以便仲裁(arbitrate)和分派各种请求给可用的线程执行资源。执行资源包含用于处理3D和媒体线程的图形执行单元的阵列。在一个实施例中，3D/媒体子系统315包含用于线程指令和数据的一个或多个内部高速缓存。在一个实施例中，子系统还包含共享存储器，包含寄存器和可寻址存储器，以在线程之间共享数据并存储输出数据。

媒体处理-图4

图4是图形处理器的图形处理引擎410的实施例的框图。在一个实施例中，图形处理引擎(GPE)410是在图3中示出的GPE 310的版本。GPE 410包含3D流水线412和媒体流水线416，它们中的每个都可不同于或类似于图3的3D流水线312和媒体流水线316的实现。

在一个实施例中，GPE 410与命令流播器403耦合，命令流播器403向GPE 3D和媒体流水线412、416提供命令流播。命令流播器403耦合到存储器，其可以是系统存储器或内部高速缓冲存储器和共享高速缓冲存储器中的一个或多个。命令流播器403从存储器接收命令，并向3D流水线412和/或媒体流水线416发送命令。3D和媒体流水线通过经由相应流水线内的逻辑执行操作或通过向执行单元阵列414分派一个或多个执行线程来处理命令。在一个实施例中，执行单元阵列414是可缩放的，使得阵列基于GPE 410的目标功率和性能等级包含可变数量的执行单元。

采样引擎430与存储器（例如高速缓冲存储器或系统存储器）和执行单元阵列414耦合。在一个实施例中，采样引擎430提供了允许执行阵列414从存储器读取图形和媒体数据的可缩放执行单元阵列414的存储器存取机制。在一个实施例中，采样引擎430包含用于执行媒体的专用图像采样操作的逻辑。

采样引擎430中的专用媒体采样逻辑包含去噪声/去交织模块432、运动估计模块434和图像缩放和滤波模块436。去噪声/去交织模块432包含用于对解码的视频数据执行去噪声或去交织算法中的一个或多个的逻辑。去交织逻辑将交织的视频内容的交替（alternating）字段组合成单个帧视频。去交织逻辑降低或移除来自视频和图像数据中的数据噪声。在一个实施例中，去噪声逻辑和去交织逻辑是运动自适应的，并基于在视频数据中检测的运动的量使用空间或时间滤波。在一个实施例中，去噪声/去交织模块432包含专用运动检测逻辑（例如在运动估计引擎434内）。

运动估计引擎434通过对视频数据执行视频加速功能（诸如运动向量估计和预测）来提供视频操作的硬件加速。运动估计引擎确定描述图像数据在接连视频帧之间的变换的运动向量。在一个实施例中，图形处理器媒体编解码器使用视频运动估计引擎434在宏块级对视频执行操作，其否则可能使用通用处理器对执行在计算上加强。在一个实施例中，运动估计引擎434一般可用于图形处理器组分以辅助视频解码和处理功能，这些功能对视频数据内的运动的方向或幅度是敏感的或自适应的。

图像缩放和滤波模块436执行图像处理操作以增强所生成的图像和视频的视觉质量。在一个实施例中，缩放和滤波模块436在向执行单元阵列414提供数据之前的采样操作期间处理图像和视频数据。

在一个实施例中，图形处理引擎410包含数据端口444，其提供图形子系统存取存储器的附加机制。数据端口444促进对于包含渲染目标写、常量缓冲器读、临时（scratch）存储器空间读/写和媒体表面存取的操作的存储器存取。在一个实施例中，数据端口444包含高速缓冲存储器空间以对存储器高速缓存存取。高速缓冲存储器可以是单个数据高速缓存，或者对于经由数据端口存取存储器的多个子系统分成多个高速缓存（例如渲染缓冲器高速缓存、常量缓冲器高速缓存等）。在一个实施例中，在执行单元阵列414中的执行单元上执行的线程通过经由耦合图形处理引擎410的每一个子系统的数据分布互连来交换消息与数据端口通信。

执行单元——图5-7

图5是具有可缩放数量的图形核的图形处理器的另一实施例的框图。在一个实施例中，图形处理器包含环互连502、流水线前端504、媒体引擎537和图形核580A-N。环互连502将图形处理器耦合到其它处理单元，包含其它图形处理器或一个或多个通用处理器核。在一个实施例中，图形处理器是集成在多核处理系统内的许多处理器中的一个。

图形处理器经由环互连502接收批量命令。传入命令由流水线前端504中的命令流播器503解释。图形处理器包含缩放执行逻辑以经由一个或多个图形核580A-N执行3D几何处理和媒体处理。对于3D几何处理命令，命令流播器503向几何流水线536供应命令。对于至少一些媒体处理命令，命令流播器503将命令供应给视频前端534，其与媒体引擎537耦合。媒体引擎537包含用于视频和图像后处理的视频质量引擎(VQE) 530以及用于提供硬件加速的媒体数据编码和解码的多格式编码/解码(MFX)533引擎。几何流水线536和媒体引擎537各生成用于由至少一个图形核580A提供的线程执行资源的执行线程。

图形处理器包含以模块的核580A-N（有时称为核切片）为特征的可缩放线程执行资源，各具有多个子核550A-N、560A-N（有时称为核子切片）。图形处理器可具有任何数量的图形核580A至580N。在一个实施例中，图形处理器包含至少具有第一子核550A和第二核子核560A的图形核580A。在另一实施例中，图形处理器是具有单个子核（例如550A）的低功率处理器。在一个实施例中，图形处理器包含多个图形核580A-N，各包含一组第一子核550A-N和一组第二子核560A-N。该组第一子核550A-N中的每个子核都至少包含第一组执行单元552A-N和媒体/纹理采样器554A-N。该组第二子核560A-N中的每个子核都至少包含第二组执行单元562A-N和采样器564A-N。在一个实施例中，每个子核550A-N、560A-N共享一组共享资源570A-N。在一个实施例中，共享资源包含共享高速缓冲存储器和像素操作逻辑。

其它共享资源也可被包含在图形处理器的各种实施例中。

图6图示了包含处理元素阵列的线程执行逻辑600的实施例。在一个实施例中，线程执行逻辑600包含像素着色器602、线程分派器604、指令高速缓存606、包含多个执行单元608A-N的可缩放执行单元阵列、采样器610、数据高速缓存612和数据端口614。在一个实施例中，所包含的组分经由链接到每一个组分的互连组构互连。线程执行逻辑600包含通过指令高速缓存606、数据端口614、采样器610和执行单元阵列608A-N中的一个或多个到存储器（诸如系统存储器或高速缓冲存储器）的一个或多个连接。在一个实施例中，每个执行单元（例如608A）是能够执行多个同时线程并且对于每个线程并行处理多个数据元素的单独向量处理器。执行单元阵列608A-N包含任何数量的单独执行单元。

在一个实施例中，执行单元阵列608A-N主要用于执行“着色器”程序。在一个实施例中，阵列608A-N中的执行单元执行包含对于许多标准3D图形着色器指令的原生支持的指令集，使得用最小的转变执行来自图形库（例如Direct3D 和OpenGL）的着色器程序。执行单元支持顶点和几何处理（例如顶点程序、几何程序、顶点着色器）、像素处理（例如像素着色器、片段着色器）和通用处理（例如计算和媒体着色器）。

执行单元阵列608A-N中的每个执行单元都操作在数据元素阵列上。数据元素数量是“执行尺寸”，或者指令的通道数量。执行通道是用于数据元素存取、掩蔽和指令内流控制的执行的逻辑单元。通道数量可独立于具体图形处理器的物理ALU或FPU的数量。执行单元608 A-N支持整数和浮点数据类型。

执行单元指令集包含单指令多数据(SEVID)指令。各种数据元素可作为压缩数据类型存储在寄存器中，并且执行单元将基于元素的数据尺寸处理各种元素。例如，当操作在256位宽向量上时，向量的256位被存储在寄存器中，并且执行单元操作在向量上作为4个单独的64位压缩数据元素（四字（QW）尺寸数据元素）、8个单独的32位压缩数据元素（双字（DW）尺寸数据元素）、16个单独的16位压缩数据元素（字（W）尺寸数据元素）或32个单独的8位数据元素（字节（B）尺寸数据元素）。然而，不同的向量宽度和寄存器尺寸是可能的。

一个或多个内部指令高速缓存（例如606）被包含在线程执行逻辑600中以高速缓存执行单元的线程指令。在一个实施例中，包含一个或多个数据高速缓存（例如612）以在线程执行期间对线程数据高速缓存。包含采样器610以提供用于3D操作的纹理采样和用于媒体操作的媒体采样。在一个实施例中，采样器610包含专用纹理或媒体采样功能性，以在向执行单元提供采样数据之前的采样过程期间处理纹理或媒体数据。

在执行期间，图形和媒体流水线经由线程产生和分派逻辑向线程执行逻辑600发送线程发起请求。线程执行逻辑600包含本地线程分派器604，其仲裁来自图形和媒体流水线的线程发起请求，并在一个或多个执行单元608A-N上例示请求的线程。例如，几何流水线（例如图5的536）向线程执行逻辑600分派顶点处理、曲面细分或几何处理线程。线程分派器604还可处理来自正在执行的着色器程序的运行时间线程产生请求。

一旦一组几何对象已经被处理并且光栅化成像素数据，则调用像素着色器602以进一步计算输出信息，并使结果被写到输出表面（例如颜色缓冲器、深度缓冲器、模板缓冲器等）。在一个实施例中，像素着色器602计算要跨光栅化对象内插的各种顶点属性的值。像素着色器602然后执行API供应的像素着色器程序。为了执行像素着色器程序，像素着色器602经由线程分派器604向执行单元（例如608A）分派线程。像素着色器602使用采样器610中的纹理采样逻辑以存取存储在存储器中的纹理映射中的纹理数据。纹理数据和输入几何数据上的算术运算计算每个几何片段的像素颜色数据，或者从进一步处理中丢弃一个或多个像素。

在一个实施例中，数据端口614提供用于线程执行逻辑600将处理的数据输出到存储器以便在图形处理器输出流水线上进行处理的存储器存取机制。在一个实施例中，数据端口614包含或耦合到一个或多个高速缓冲存储器（例如数据高速缓存612）以高速缓存数据以便经由数据端口的存储器存取。

图7是图示根据实施例的图形处理器执行单元指令格式的框图。在一个实施例中，图形处理器执行单元支持具有以多种格式的指令的指令集。实线框图示了一般被包含在执行单元指令中的组分，而虚线包含可选的或者仅包含在指令子集中的组分。所图示和所描述的指令格式是宏指令，因为一旦指令被处理，它们则是供应给执行单元的指令，与从指令解码得到的微操作相对。

在一个实施例中，图形处理器执行单元原生（natively）支持128位格式710的指令。64位紧致（compact）指令格式730基于选择的指令、指令选项和若干操作数对于一些指令可用。原生128位格式710提供对所有指令选项的存取，而一些选项和操作被约束在64位格式730。在64位格式730中可用的原生指令按实施例变化。在一个实施例中，部分使用索引字段713中的一组索引值使指令紧致。执行单元硬件参考基于索引值的一组紧致表，并使用紧致表输出重构以128位格式710的原生指令。

对于每个格式，指令操作码712定义执行单元要执行的操作。执行单元跨每个操作数的多个数据元素并行执行每个指令。例如，响应于加指令，执行单元跨表示纹理元素或画面元素的每个颜色通道执行同时加操作。作为默认，执行单元跨操作数的所有数据通道执行每个指令。指令控制字段712实现了对某些执行选项（诸如通道选择（例如预测）和数据通道次序（例如拌和（swizzle）））的控制。对于128位指令710，执行尺寸字段716限制将并行执行的数据通道的数量。执行尺寸字段716对于在64位紧致指令格式730中的使用不可用。

一些执行单元指令具有多达3个操作数，包含2个源操作数、src0 722、src1 722和一个目的地718。在一个实施例中，执行单元支持双目的地指令，其中暗示了其中一个目的地。数据操纵指令可具有第三源操作数（例如SRC2 724），其中指令操作码JJ12确定源操作数的数量。指令的最后源操作数可以是用指令传递的立即（例如硬编码）值。

在一个实施例中，指令可基于操作码位字段进行编组以简化操作码解码740。对于8位操作码，位4、5和6允许执行单元确定操作码的类型。所示出的精确的操作码编组是示范性的。在一个实施例中，移动和逻辑操作码组742包含数据移动和逻辑指令（例如mov、cmp）。移动和逻辑组742共享5个最高有效位（MSB），其中移动指令以0000xxxxb(例如OxOx)形式，并且逻辑指令以0001xxxxb (例如0x01)形式。流控制指令组744（例如调用jmp）包含以0010xxxxb (例如0x20)形式的指令。混杂指令组746包含指令的混合，包含以0011xxxxb(例如0x30)形式的同步指令（例如等待、发送）。并行数学指令组748包含以0100xxxxb(例如0x40)形式的逐个分量的算术指令（例如加、乘）。并行数学组748跨数据通道并行执行算术运算。向量数学组750包含以0101xxxxb(例如0x50)形式的算术指令（例如dp4）。向量数学组执行算术，诸如在向量操作数上的点积计算。

图形流水线——图8

图8是包含图形流水线820、媒体流水线830、显示器引擎840、线程执行逻辑850和渲染输出流水线870的图形处理器的另一实施例的框图。在一个实施例中，图形处理器是包含一个或多个通用处理核的多核处理系统内的图形处理器。图形处理器通过寄存器写到一个或多个控制寄存器（未示出）或借助于经由环互连802向图形处理器发出的命令而控制。环互连802将图形处理器耦合到其它处理组分，诸如其它图形处理器或通用处理器。来自环互连的命令由命令流播器803解释，命令流播器803将指令供应给媒体流水线830或图形流水线820的各个组分。

命令流播器803指导顶点提取器（fetcher）805组分的操作，其从存储器读顶点数据，并执行由命令流播器803提供的顶点处理命令。顶点提取器805将顶点数据提供给顶点着色器807，其执行到每个顶点的协调空间变换和照亮（lighting）操作。顶点提取器805和顶点着色器807通过经由线程分派器831向执行单元852A、852B分派执行线程来执行顶点处理指令。

在一个实施例中，执行单元852A、852B是具有用于执行图形和媒体操作的指令集的向量处理器的阵列。执行单元825A、852B具有附连的L1高速缓存851，其对于每个阵列都是特定的，并且在阵列之间共享。高速缓存可配置为数据高速缓存、指令高速缓存或被分区成在不同分区中含有数据和指令的单个高速缓存。

在一个实施例中，图形流水线820包含曲面细分组分以执行3D对象的硬件加速曲面细分。可编程外壳着色器811配置曲面细分操作。可编程域着色器817提供曲面细分输出的后端评估。曲面细分器813在外壳着色器811的方向操作，并且含有专用逻辑以基于作为图形流水线820的输入提供的粗略几何模型生成一组详细的几何对象。如果未使用曲面细分，则可旁路曲面细分组分811、813、817。

完整几何对象可由几何着色器819经由分派给执行单元852A、852B的一个或多个线程处理，或者可直接前往修剪器（clipper）829。几何着色器操作在整个几何对象上，而不是与图形流水线的先前阶段一样操作在顶点或顶点的补丁上。如果曲面细分被禁用，则几何着色器819从顶点着色器807接收输入。如果曲面细分单元被禁用，则几何着色器819由几何着色器程序可编程来执行几何曲面细分。

在光栅化之前，顶点数据由修剪器829处理，其或者是固定功能修剪器，或者是具有修剪和几何着色器功能的可编程修剪器。在一个实施例中，渲染输出流水线870中的光栅化器873分派像素着色器以将几何对象转换成它们的每像素表示。在一个实施例中，像素着色器逻辑被包含在线程执行逻辑850中。

图形引擎具有互连总线、互连组构或允许数据和消息在图形引擎的主要组分之间传递的某一其它互连机制。在一个实施例中，执行单元852A、852B和关联的高速缓存（一个或多个）851、纹理和媒体采样器854以及纹理/采样器高速缓存858经由数据端口856互连以执行存储器存取，并与图形引擎的渲染输出流水线组分通信。在一个实施例中，采样器854、高速缓存851、858和执行单元852A、852B各具有单独的存储器存取路径。

在一个实施例中，渲染输出流水线870含有光栅化器和深度测试组分873，其将基于顶点的对象转换成它们关联的基于像素的表示。在一个实施例中，光栅化器逻辑包含视窗/掩蔽器单元以执行固定功能三角形或线光栅化。在一个实施例中，关联的渲染和深度缓冲器高速缓存878、879也是可用的。像素操作组分877在数据上执行基于像素的操作，尽管在一些实例中，与2D操作关联的像素操作（例如具有混合的位块图像传输）由2D引擎841执行，或者在显示时间由显示器控制器843使用覆盖显示器平面替代。在一个实施例中，共享L3高速缓存875对所有图形组分都可用，允许在不使用主要系统存储器的情况下共享数据。

图形处理器媒体流水线830包含媒体引擎337和视频前端834。在一个实施例中，视频前端834从命理流播器803接收流水线命令。然而，在一个实施例中，媒体流水线830包含单独的命令流播器。视频前端834在将命令发送到媒体引擎837之前处理媒体命令。在一个实施例中，媒体引擎包含线程产生功能性以产生经由线程分派器831分派到线程执行逻辑850的线程。

在一个实施例中，图形引擎包含显示器引擎840。在一个实施例中，显示器引擎840在图形处理器的外部，并经由环互连802或某一其它互连总线或组构与图形处理器耦合。显示器引擎840包含2D引擎841和显示器控制器843。显示器引擎840含有能够独立于3D流水线操作的专用逻辑。显示器控制器843与显示器装置（未示出）耦合，显示器装置可与膝上型计算中一样是系统集成的显示器装置，或者是经由显示器装置连接器附连的外部显示器装置。

图形流水线820和媒体流水线830可配置成基于多个图形和媒体编程接口执行操作，并且对任一个应用编程接口（API）都不是特定的。在一个实施例中，用于图形处理器的驱动软件将对具体图形或媒体库特定的API调用翻译成可由图形处理器处理的命令。在各种实施例中，对于由Khronos组织支持的开放图形库(OpenGL)和开放计算语言(OpenCL)、来自微软公司的Direct3D库或者在一个实施例中OpenGL和D3D两者提供支持，也可对于开放源计算机视觉库(OpenCV)提供支持。如果可进行从将来API的流水线映射到图形处理器的流水线，则也会支持具有可兼容3D流水线的将来API。

图形流水线编程——图9A-8

图9A是图示根据实施例的图形处理器命令格式的框图，并且图9B是图示根据实施例的图形处理器命令序列的框图。图9A中的实线框图示了一般被包含在图形命令中的组分，而虚线包含可选的或者仅包含在图形命令的子集中的组分。图9A的示范性图形处理器命令格式900包含数据字段以标识命令的目标客户端902、命令操作代码（操作码）904以及针对命令的相关数据906。在一些命令中还包含子操作码905和命令尺寸908。

客户端902规定处理命令数据的图形装置的客户端单元。在一个实施例中，图形处理器命令解析器检查每个命令的客户端字段，以调节命令的进一步处理，并将命令数据路由到适当客户端单元。在一个实施例中，图形处理器客户端单元包含存储器接口单元、渲染单元、2D单元、3D单元和媒体单元。每个客户端单元具有处理命令的对应处理流水线。一旦客户端单元接收到命令，客户端单元则读操作码904，如果存在的话，还有子操作码905，以确定要执行的操作。客户端单元使用命令的数据906字段中的信息执行命令。对于一些命令，期望明确命令尺寸908以规定命令的尺寸。在一个实施例中，命令解析器基于命令操作码自动确定至少一些命令的尺寸。在一个实施例中，命令经由双字的倍数对准。

图9B中的流程图示出了样本命令序列910。在一个实施例中，以图形处理器的实施例为特征的数据处理系统的软件或固件使用所示出的命令序列的版本设立、执行和终止一组图形操作。为了示范目的示出并描述了样本命令序列，然而，实施例不限于这些命令或者这个命令序列。而且，命令可作为命令序列中的成批命令发出，使得图形处理器将以至少部分同时发生的方式处理命令序列。

样本命令序列910可开始于流水线刷新命令912，以使任何活动图形流水线都完成流水线的当前未决的命令。在一个实施例中，3D流水线922和媒体流水线924不同时操作。执行流水线刷新以使活动图形流水线完成任何未决的命令。响应于流水线刷新，图形处理器的命令解析器将暂停命令处理，直到活动绘图引擎完成未决的操作，并且相关读高速缓存无效。可选地，可对存储器刷新被标记为“脏（dirty）”的渲染高速缓存中的任何数据。流水线刷新命令912可用于流水线同步或在使图形处理器置于低功率状态之前使用。

流水线选择命令913被用在命令序列要求图形处理器在流水线之间明确地切换时。流水线选择命令913在执行上下文内在发出流水线命令之前仅要求一次，除非上下文是发出用于两个流水线的命令。在一个实施例中，就在经由流水线选择命令913的流水线切换之前要求流水线刷新命令912。

流水线控制命令914配置图形流水线以便操作，并且用于对3D流水线922和媒体流水线924编程。流水线控制命令914配置活动流水线的流水线状态。在一个实施例中，流水线控制命令914用于流水线同步，并在活动流水线内在处理一批命令之前从一个或多个高速缓冲存储器中清除数据。

返回缓冲器状态命令916用于将相应流水线的一组返回缓冲器配置成写数据。一些流水线操作要求分配、选择或配置操作在处理期间将中间数据写入的一个或多个返回缓冲器。图形处理器还使用一个或多个返回缓冲器来存储输出数据，并执行交叉线程通信。返回缓冲器状态916包含选择要用于一组流水线操作的返回缓冲器的尺寸和数量。

命令序列中的剩余命令基于用于操作的活动流水线而不同。基于流水线确定920，命令序列被调整成开始于3D流水线状态930的3D流水线922，或者开始于媒体流水线状态940的媒体流水线924。

用于3D流水线状态930的命令包含用于顶点缓冲器状态、顶点元素状态、恒定颜色状态、深度缓冲器状态以及在处理3D原语命令之前配置的其它状态变量的3D状态设置命令。这些命令的值至少部分基于使用中的具体3D API而确定。3D流水线状态930命令也能够有选择地禁用或旁路某些流水线元素，如果那些元素将不使用的话。

3D原语932命令用于提交3D原语以由3D流水线处理。经由3D原语932命令传递到图形处理器的命令以及关联参数被转发到图形流水线中的顶点提取功能。顶点提取功能使用3D原语932命令数据生成顶点数据结构。顶点数据结构被存储在一个或多个返回缓冲器中。3D原语932命令用于经由顶点着色器对3D原语执行顶点操作。为了处理顶点着色器，3D流水线922将着色器执行线程分派给图形处理器执行单元。

3D流水线922经由执行934命令或事件触发。在一个实施例中，寄存器写触发命令执行。在一个实施例中，经由命令序列中的“go”或“kick”命令触发执行。在一个实施例中，使用流水线同步命令通过图形流水线刷新命令序列来触发命令执行。3D流水线将执行3D原语的几何处理。一旦操作完成，得到的几何对象被光栅化，并且像素引擎给得到的像素上色。对于那些操作还可包含控制像素着色和像素后端操作的附加命令。

当执行媒体操作时，样本命令序列910遵循媒体流水线924路径。一般而言，媒体流水线924的编程的特定使用和方式取决于要执行的媒体或计算操作。特定媒体解码操作可在媒体解码期间被卸载到媒体流水线。媒体流水线也可被旁路，并且媒体解码可使用由一个或多个通用处理核提供的资源全部或部分执行。在一个实施例中，媒体流水线还包含用于通用图形处理器单元(GPGPU)操作的元素，其中图形处理器用于使用与图形原语的渲染不明确相关的计算着色器程序执行SIMD向量操作。

媒体流水线924以与3D流水线922类似的方式配置。一组媒体流水线状态命令940被分派或置入命令队列中（在媒体对象命令942之前）。媒体流水线状态命令940包含用于配置将用于处理媒体对象的媒体流水线元素的数据。这包含用于配置媒体流水线内视频解码和视频编码逻辑（诸如编码和解码格式）的数据。媒体流水线状态命令940还支持将一个或多个指针用于“间接”状态元素，它们含有一批状态设置。

媒体对象命令942将指针供应给媒体对象以便由媒体流水线进行处理。媒体对象包含含有要处理的视频数据的存储器缓冲器。在一个实施例中，在发出媒体对象命令942之前，所有媒体流水线状态都必须是有效的。一旦配置了流水线状态并对媒体对象命令942排队了，就经由执行934命令或等效执行事件（例如寄存器写）触发媒体流水线924。来自媒体流水线924的输出然后就可通过由3D流水线922或媒体流水线924提供的操作进行后处理。在一个实施例中，GPGPU操作以与媒体操作类似的方式配置和执行。

图形软件架构——图10

图10图示了根据实施例的数据处理系统的示范图形软件架构。软件架构包含3D图形应用1010、操作系统1020和至少一个处理器1030。处理器1030包含图形处理器1032和一个或多个通用处理器核1034。图形应用1010和操作系统1020各在数据处理系统的系统存储器1050中执行。

在一个实施例中，3D图形应用1010含有包含着色器指令1012的一个或多个着色器程序。着色器语言指令可以采用高级着色器语言，诸如高级着色器语言(HLSL)或OpenGL着色器语言(GLSL)。应用还包含用适合于由通用处理器核1034执行的机器语言的可执行指令1014。应用还包含由顶点数据定义的图形对象1016。

操作系统1020可以是从华盛顿雷蒙德的微软公司可得到的WINDOWS™操作系统、专有UNIX操作系统或使用Linux内核的变形的开源UNIX样的操作系统。当Direct3D API在使用时，操作系统1020使用前端着色器编译器1024将HLSL中的任何着色器指令1012编译成较低级着色器语言。编译可以是及时编译，或者应用可执行共享预先编译。在一个实施例中，高级着色器在编译3D图形应用1010期间被编译成低级着色器。

用户模式图形驱动1026可含有后端着色器编译器1027以将着色器指令1012转换成硬件特定表示。当OpenGL API在使用时，用GLSL高级语言中的着色器指令1012被传递到用户模式图形驱动1026进行编译。用户模式图形驱动使用操作系统内核模式功能1028与内核模式图形驱动1029通信。内核模式图形驱动1029与图形处理器1032通信以分派命令和指令。

某种程度上，本文描述了各种操作或功能，它们可描述或者定义为硬件电路、软件代码、指令、配置和/或数据。在用于特定处理器或图形核的指令集中，内容可用硬件逻辑实施，或者实施为直接可执行软件（“对象”或“可执行”形式）、源代码、对于在图形引擎上的执行设计的高级着色器代码或者低级汇编语言代码。本文描述的实施例的软件内容可经由制品（将要内容存储在其上）或经由操作通信接口以经由通信接口发送数据的方法提供。

非暂时性机器可读存储介质可使机器执行所描述的功能或操作，并且包含存储以机器（例如计算装置、电子系统等）可存取形式的信息的任何机制，诸如可记录/不可记录媒体（例如只读存储器（ROM）、随机存取存储器（RAM）、磁盘存储媒体、光存储媒体、闪存装置等）。通信接口包含与任何硬连线、无线、光等介质对接以与另一装置（诸如存储器总线接口、处理器总线接口、因特网连接、盘控制器等）通信的任何机制。通信接口通过提供配置参数或发送信号以准备通信接口提供描述软件内容的数据信号来配置。通信接口可经由发送到通信接口的一个或多个命令或信号存取。

数据分布组构——图11-14

混合数据分布组构可被用作以可缩放GPU为特征的图形处理器的实施例的互连逻辑。在一个实施例中，混合组构包含操作在共享总线上的一个或多个物理数据通道，在每个物理通道上都具有一个或多个可编程虚拟通道。虚拟通道可被独立仲裁，其中通道存取按虚拟通道单独协商。虚拟通道上的业务可被分类成一个或多个业务类别。在一个实施例中，优先化系统允许虚拟通道和业务类别被指配了相对优先级用于仲裁。在一个实施例中，业务均衡算法操作以对耦合到组构的每个节点保持基本上相等的带宽和吞吐量。在一个实施例中，相比节点耦合到组构，混合组构数据分布逻辑操作在更高的时钟速率，允许降低总线宽度同时保持总线吞吐量。在一个实施例中，在空闲时每个共享总线被单独时钟门控（gated），并发送即将到来的活动的早期指示以触发总线唤醒事件。

图11是包含图形核1102、图形核高速缓存1104和混合组构连接器1106的图形核组构装配1100的实施例的框图。混合组构连接器1106将图形核组构装配1100耦合到组构总线1108。混合数据分布组构装配1100的实施例可用于图形处理器内的多级抽象。图形核1102包含本文描述的任何图形执行逻辑，诸如图4的可缩放执行单元阵列414、图5的图形核580A或图6的执行单元608A。

图形核高速缓存1104包含本地图形核高速缓冲存储器，其存储来自组构连接器1106的传入数据。图形核高速缓存1104还可在由数据分布组构连接器1106传送之前存储传出数据。

组构连接器1106是可沿混合组构1108接收、缓冲、传送和重传数据分组的组构节点。混合组构连接器1106在一个实施例中在混合组构的一个通道上接收分组，并通过在不同通道上重传分组来切换分组。混合组构连接器1106的实施例与图形核高速缓存1104耦合。连接器1106将去往图形核1102的数据写到图形核高速缓存1104中，并从图形核高速缓存1104读数据以便传送到共享存储器或不同的图形核。每个图形核具有核标识符和散列标识符，它们用于在混合组构上寻址数据分组，并跨组构节点执行业务载荷均衡。

混合组构总线1108可包含单个总线线路或多个总线线路。在一个实施例中，混合组构总线1108包含多个可编程数据通道，在其上对于每个图形核1102传送基于分组的数据消息。混合组构总线1108的多个通道在多个图形核之间共享，并且支持数据的多个业务类别。通道数量基于图形核的数量、图形核工作载荷以及图形处理系统（例如本地/共享高速缓存、系统存储器等）中存储器的利用和容量可配置。

图12A-B图示了多个示范图形核拓扑。图12A示出了经由混合组构的实施例耦合9个图形核的树拓扑。图12B示出了经由混合组构的实施例耦合16个图形核的网格拓扑。混合组构可配置用于每个可能的图形核拓扑。图形核可布置在堆叠的3D集成电路中，其在多个垂直层中包含多个图形核。堆叠的集成电路可包含管芯上管芯（die-on-die）集成电路、晶片上晶片(wafer-on-wafer)集成电路和/或管芯上晶片或晶片上管芯电路的一个或多个组合。然而，也可使用其它3D电路制造方法。

图12A示出了以树拓扑耦合的9个图形核。第一层1200包含3个图形核，其中第一图形核1202经由第三图形核1206与第二图形核1204耦合。第三图形核1206经由一个或多个硅通孔（TSV）与第二层1210中的第六个图形核1216耦合。

此外，第六图形核1216将第四图形核1212与第五图形核1214耦合。第六图形核1216此外与第三层1220中的第九图形核1226耦合，第三层包含第七图形核1222和第八图形核1224。图形核经由混合组构与共享资源耦合和并与之通信，其包含共享存储器以及由图形核共享的其它公共资源，诸如共享像素后端硬件。混合组构可配置成向高业务混合组构连接器提供附加带宽或吞吐量，或者提供其它载荷均衡或业务管理技术以对于向每个图形核流动的数据、从每个图形核流动的数据和通过每个图形核流动的数据保持基本上相等的带宽。

在图12B的示范框图中，16个图形核被装配在网格拓扑中。在一个可能配置中，堆叠4个层，每层具有4个图形核。第一层1240包含4个图形核，其中每个图形核与第二层1250中的副本图形核耦合。接下来，第二层1250中的每个图形核与第三层1260中的副本图形核耦合。接下来，第三层1260中的每个图形核与第四层1270中的副本图形核耦合。最后，第四层1270中的每个图形核与共享资源1280耦合，其包含共享存储器。层的数量以及每层的核的数量是示范性的，并且实施例不如此限制，并且支持多个拓扑。混合组构可配置成基于管芯尺寸、带宽和吞吐量要求实现布置在不同拓扑中的多个图形核之间的通信。

图13是包含5个垂直堆叠的图形核的堆叠3D集成电路的实施例的框图。所图示的组构通道可以是单独总线，或者在共享总线上布线的。每个图形核可在任何通道上发送或接收数据。在混合组构上行进的数据分组在到达目标之前可通过多个核的组构连接器。虽然核可在单个通道上传导交叉核通信，但当经过核或者耦合到核的组构连接器时，分组可从通道切换到通道。可采用通道仲裁算法来均衡每个通道上的业务以对于每个核保持相等通信带宽。虽然图示了图形核，但耦合到图形核的组构连接器可执行至少一些所描述的功能性。

示例仲裁算法是用于存储器限定业务的“栈优化”算法。在图13中示出的图形处理器核1302-1310各与相应混合组构连接器（例如图11的混合组构连接器1106）耦合。混合组构连接器将互连的核与共享存储器1330的区域耦合。下面的表1图示了用于均衡5个图形核与共享存储器之间的存储器限定业务的示范通道仲裁算法的结果。

表1——栈优化算法

如在表1的通道0列中所示出的，每个核配置成在通道0上始发存储器限定数据，同时将通过业务从其它核切换到其它通道。例如，在通道0上从图形核0 1302传送存储器限定数据分组1312。核1 1304将分组1314切换到通道4，因为栈优化算法规定，来自核0 1302的存储器限定业务在通道4上通过。从而，核2 1306将分组1316切换到通道3。核3 1308将分组1318切换到通道2。核4 1310将分组1320切换到通道1。虽然图13和表1图示了用于混合组构上的示范类型业务的示范算法，但对于其它类型业务可使用其它算法。在一个实施例中，不同类型的业务可被编组成不同的业务类别以更好地促进业务管理。

图14是根据实施例的在虚拟通道上携带的多个业务类别的图示。第一组构连接器1402和第二组构连接器1404促进在具有多达“M”个虚拟通道1406A-M的组构通道1406上的通信。虚拟通道实现在一组固定物理通道上传输可变长度信息。虚拟通道可以是永久虚拟通道，或者虚拟通道可基于系统配置动态启用或禁用。使用永久虚拟通道允许固定通道ID，其最小化了虚拟通道管理的开销。动态配置通道以附加通道管理开销为代价增大了设计灵活性。

每个虚拟通道可被指配多个业务类别。业务类别是对于仲裁相关的业务的划分。每个虚拟通道可携带多达“N”个业务类别。每个业务类别通过编程（熔丝、配置寄存器等）指配给特定虚拟通道。多达“L”个业务类型类别可被指配到给定虚拟通道。

#	业务类别	虚拟通道
			1	类别1	1
2	类别2	0
			3	类别3	M
4	类别4	1
			5	类别5	0
...
			N	类别N	2

表2——业务类别指配

上面的表2示出了如图14中所图示的虚拟通道指配的示范业务类别。混合组构对传入业务的每个单元分类，并且可包含确保传入单元在其指配的虚拟通道内行进的逻辑。在一个实施例中，通道上的数据传送按先入先出(FIFO)次序发生，并且通道仲裁基于虚拟通道发生。虚拟通道内的业务可阻止在同一虚拟通道上传送附加业务。然而，给定虚拟通道不会阻止不同虚拟通道。因而，不同虚拟通道上的业务被独立仲裁。

在一个实施例中，在操作在图形核高速缓存和图形核的混合组构连接器节点处的图形核上的各个线程的数据传送期间保持一致性。混合组构节点路由始发自同一业务类别内的单个线程的业务，并且业务类别被指配给特定虚拟通道。单个虚拟通道上的单个业务类别内的数据按FIFO次序传送。从而，来自单个线程的数据当经由混合组构传送时被严格排序，并保持每线程的一致性以避免写后读或读后写的数据冲突。在一个实施例中，经由与共享存储器的全局同步机制保持线程组一致性。

#	业务类别	优先级
			1	类别1	2
2	类别2	1
			3	类别3	4
4	类别4	2
			5	类别5	1
...
			N	类别N	3

表3——业务类别优先化

上面的表3示出了示范业务类别优先化。优先级算法可被编程为确定指配给每一个业务类别的优先级。可编程业务类别优先级允许业务类别被用作仲裁业务编组机制，其中业务可仅编组在一类别以内以保持一致性，或者特定业务可被指配高优先级，并且专用于高优先级数据。例如，各指配给虚拟通道1 1406B的类别1和类别4可被指配优先级2。各指配给虚拟通道0 1406A的类别2和类别5可被指配优先级1。业务类别“N”可被指配给具有优先级3的虚拟通道2 1406C。类别2中的业务可以是应该尽可能快地传送或者不应该被其它业务类别阻止的延时敏感的数据，而类别1中的业务可能是来自被编组成保持一致性的单个线程的中等延时敏感的业务。

业务类别可相对于所有业务类别或相对于同一虚拟通道上的业务类别的优先级指配优先级。在一个实施例中，通过向业务类别指配权重来设计优先级方案，其中权重越高指示优先级越高。可采用公平优先级算法，其中每个参与方都被保证最小量的带宽以防止匮乏。在一个实施例中，在某些情形下使用绝对优先级算法，其中较高优先级业务总是阻止较低优先级。

其中绝对优先级在使用，附加算法适当地防止通信死锁。使用虚拟通道和业务类别组合降低了死锁的可能性，因为在给定虚拟通道上具有绝对优先级的单个业务类别不阻止不同虚拟通道上的业务。在一个实施例中，如果在一个虚拟通道上检测到匮乏条件或潜在死锁，则被阻止的业务类别可被重新指配给不同虚拟通道。

#	业务类别	优先级
			1	类别1	2
2	类别2	1
			3	类别3	3
...
			M	M	4

表4——虚拟通道优先化

下面的表4示出了示范虚拟通道优先化。与业务类别一样，每个虚拟通道还可接收优先级，并且通道仲裁可将虚拟通道的相对优先级作为因素。例如，虚拟通道2上的数据业务可比其它虚拟通道上的数据具有更高的相对优先级。对虚拟通道优先化可采用加权的优先级系统，其中权重越高指示优先级越高。可使用公平优先级系统或绝对优先级系统。

图15是根据实施例的数据传送序列的流程图。诸如耦合到图形处理器的混合组构连接器的源节点在通过通道在混合组构上传送消息分组之前确定通道的通道存取状况，如在框1502所示出的。消息可被分类成多个可能业务分类中的一个分类，每个分类在通道上都具有相对优先级。通道存取可经由任何适合的通道存取协议（诸如时分多址协议或载波侦听多路访问协议）确定。

已经确定了第一通道可用，源节点可从源节点朝目标节点传送消息，如在框1504所示出的。消息可由第一节点在混合组构的共享总线上接收，如在框1506所示出的。第一节点可耦合到由混合组构耦合的多个图形处理器之一。基于几个因素，诸如源节点、目标节点、业务类别和接收消息的通道，第一节点可在共享总线上将消息从第一节点切换到第二节点，如在框1508所示出的。第一节点可作为业务均衡协议的一部分（诸如表1的栈优化算法）或者作为有向路由选择协议的一部分切换消息，其取决于由混合组构服务的图形核拓扑。在一个实施例中，基于跨共享总线携带的多个虚拟通道确定通道存取，其中每个虚拟通道的通道存取与其它虚拟通道分开仲裁。

在一个实施例中，相比于由互连逻辑连接的节点，混合组构互连逻辑操作在更高的时钟频率。基于组构互连与节点之间的频率比，节点之间的单个消息可被划分成若干单独消息。组构节点可在每一个节点的时钟循环期间传送消息，并且消息被划分成多个消息以在时钟循环之间发送。消息的划分对组构节点是透明的，允许互连逻辑的物理层的宽度的减小，同时保持性能。

在一个实施例中，混合组构的互连逻辑是功率管理的并且时钟门控的。对于时钟门控可使用分布式方法，其中每个总线线路都使用本地门控时钟，其当总线空闲时被禁用。每个总线都发出传入活动的早期指示，其当要沿总线或者与总线关联的虚拟通道接收消息时启用。因而，仅在活动总线上耗散功率。当空闲时，总线仅消耗静态功率，并且否则处于低功率状态。

说明书和权利要求书中的术语“第一”、“第二”、“第三”、“第四”等如果有的话则用于区分类似元素，并不一定用于描述具体顺序或先后次序。要理解到，如此使用的术语在适当情境下可互换，使得本文描述的实施例例如能够按不同于本文图示或以其它方式描述的顺序操作。

如本文所使用的，对一个或多个“实施例”的提及要理解为描述包含在至少一个实现中的具体特征、结构或特性。从而，在本文中出现的诸如“在一个实施例中”或“在替换实施例中”的短语各描述了各种实施例和实现，并且不一定全都指的是同一实施例。然而，它们也不一定是相互排他的。

在一个实施例中，处理器包括一个或多个图形核以及具有至少一个数据通道的互连逻辑以互连一个或多个图形处理器核。在共享总线上可携带至少一个数据通道。互连逻辑将互连核与共享资源耦合。互连逻辑实现了通过在至少一个数据通道上携带的一个或多个虚拟通道在互连核与共享资源之间的数据分布。虚拟通道可包含具有多个业务分类的可编程业务分类系统。

多个业务分类可具有指配给每个分类的优先级。优先级可相对于同一虚拟通道上的其它业务分类进行仲裁。在一个实施例中，一个或多个图形处理器核包括3D集成电路堆叠，其包含多个图形处理器核。在一个实施例中，多个图形处理器核经由多个共享总线耦合，其中每个总线在空闲周期期间单独时钟门控。

在一个实施例中，系统包括包含多个核的处理器，其中至少一个核包含用于处理图形指令的指令集。至少一个图形处理核经由具有至少一个时钟门控物理数据通道和一个或多个虚拟通道的互连逻辑与处理器上的共享资源耦合，每个虚拟通道都携带具有多个业务分类的数据。多个业务分类可以是可编程的，并且多个业务分类中的每个都可被指配给虚拟通道。系统还可包含耦合到处理器的存储器。

表示用于执行本文描述的实施例的设计的数据可用若干方式表示该设计。首先，如在仿真上是有用的，硬件可使用硬件描述语言或另一功能描述语言表示。此外，在设计过程的某些阶段，可产生具有逻辑和/或晶体管门的电路级模型。更进一步说，大多数设计在某一阶段达到用硬件模型表示各种器件物理布局的数据级。在使用常规半导体制造技术的情况下，表示硬件模型的数据可以是规定在用于产生集成电路的掩模（mask）的不同掩模层上各种特征的存在或缺乏的数据。在设计的任何表示中，设计数据都可以以机器可读介质的形式存储。

在一个实施例中，机器可读介质存储数据，该数据如果由至少一个机器执行则使至少一个机器制造至少一个集成电路以执行一种方法，所述方法包括：确定消息从源节点到目标节点的多个节点共享总线上的通道存取状况，其中多个节点中的至少一个与图形处理器核耦合并且至少一个节点与共享资源耦合，在第一数据通道上将消息从消息源传送到消息目标，其中消息包含具有第一优先级的第一业务分类，在与图形处理器核耦合的第一数据总线连接器接收消息，以及至少基于源节点和目标节点，将消息从第一数据通道切换到第二数据通道。所制造的至少一个集成电路可以是包含多个图形处理器核的3D集成电路堆叠。

在一个实施例中，确定通道存取包括使用通道存取协议确定是否可在第三数据通道上传送消息，并且在确定在第三数据通道上的传送被阻止之后，在第一数据通道上传送消息。通道存取可由时分多址协议或载波侦听多路访问协议确定。

所描述的各种组分可以是用于执行所描述的操作或功能的部件。本文描述的每个部件都包含软件、硬件或这些的组合。组分可实现为软件模块、硬件模块、专用硬件（例如应用特定硬件、专用集成电路（ASIC）、数字信号处理器（DSP）等）、嵌入式控制器、硬连线电路等。除了本文所描述内容外，可对所公开的实施例和实现进行各种修改，而不脱离它们的范围。因此，本文的图示和示例应该以说明性的，而非约束性意义被解释。本发明的范围和精神应该仅参考随后的权利要求书来度量。

Claims

1.一种异构三维电路堆叠，包括：

第一处理器；

第二处理器，所述第二处理器通过一个或多个硅通孔与所述第一处理器通信地耦合，其中所述第一处理器或所述第二处理器中的至少一者是图形处理器；以及

互连逻辑，用于将所述第一处理器和所述第二处理器通信地耦合到共享资源，所述互连逻辑用于经由对应的片上互连与所述第一处理器和所述第二处理器耦合；

其中所述互连逻辑包括带宽共享逻辑用以调整到所述共享资源的带宽；以及

其中所述共享资源包括存储器用以高速缓存要经由所述互连逻辑接收的数据。

2.根据权利要求1所述的异构三维电路堆叠，其中，所述共享资源是共享存储器资源。

3.根据权利要求2所述的异构三维电路堆叠，其中所述共享存储器资源包括动态随机存取存储器。

4.根据权利要求2所述的异构三维电路堆叠，其中所述共享存储器资源包括非易失性存储器。

5.根据权利要求1所述的异构三维电路堆叠，其中所述互连逻辑将比所述第一处理器或所述第二处理器中的一个以更高的频率操作。

6.根据权利要求1所述的异构三维电路堆叠，其中所述第一处理器或所述第二处理器中的至少一个是加速器。

7.根据权利要求1所述的异构三维电路堆叠，另外包括第三处理器，其中所述第三处理器包含加速器或图形处理器。

8.根据权利要求7所述的异构三维电路堆叠，其中所述第三处理器包含加速器和图形处理器。

9.根据权利要求8所述的异构三维电路堆叠，其中所述互连逻辑实现针对所述图形处理器的执行线程对所述共享资源的一致访问。

10.根据权利要求9所述的异构三维电路堆叠，其中所述互连逻辑经由编程地分配的业务分类来实现一致访问。

11.一种用于数据处理的系统，包括：

异构三维电路堆叠，所述异构三维电路堆叠包含通过一或多个硅通孔与第二处理器通信地耦合的第一处理器，其中所述第一处理器或所述第二处理器中的至少一者是图形处理器；

与所述第一处理器通信地耦合的第一存储器；

互连逻辑，用于将所述第一处理器和所述第二处理器通信地耦合到共享资源，所述互连逻辑用于经由对应的片上互连与所述第一处理器和所述第二处理器耦合；以及

所述共享资源包括第二存储器用以高速缓存要经由所述互连逻辑接收的数据。

12.根据权利要求11所述的系统，其中所述第二处理器包括加速器或图形处理器。

13.根据权利要求12所述的系统，其中所述第二处理器包括加速器和图形处理器。

14.根据权利要求11所述的系统，其中所述共享资源是包括动态随机存取存储器的共享存储器资源。

15.根据权利要求11所述的系统，其中所述第一存储器包括动态随机存取存储器。

16.根据权利要求11所述的系统，其中所述互连逻辑将比所述第一处理器或所述第二处理器中的一个以更高的频率操作。

17.一种互连异构三维电路堆叠的方法，所述方法包括：

通过一个或多个硅通孔将第一处理器通信地耦合到第二处理器，其中所述第一处理器或所述第二处理器中的至少一者是图形处理器，所述第一处理器和所述第二处理器经由互连逻辑经由对应的片上互连通信地耦合到共享资源；

配置带宽共享逻辑以调整到所述共享资源的带宽；以及

配置存储器以高速缓存经由所述互连逻辑接收的数据。

18.如权利要求17所述的方法，还包括将第三处理器通信地耦合到所述互连逻辑，所述第三处理器包括加速器或图形处理器。

19.一种用于数据处理的设备，包括：

用于通过一个或多个硅通孔将第一处理器通信地耦合到第二处理器的部件，其中所述第一处理器或所述第二处理器中的至少一者是图形处理器，所述第一处理器和所述第二处理器经由互连逻辑经由对应的片上互连通信地耦合到共享资源；

用于配置带宽共享逻辑以调整到所述共享资源的带宽的部件；以及

用于配置存储器以高速缓存经由所述互连逻辑接收的数据的部件。

20.如权利要求19所述的设备，还包括用于将第三处理器通信地耦合到所述互连逻辑的部件，所述第三处理器包括加速器或图形处理器。