CN106575221A

CN106575221A - 用于simd执行引擎的非结构化控制流的方法和设备

Info

Publication number: CN106575221A
Application number: CN201580045748.6A
Authority: CN
Inventors: S.麦于兰; D.M.斯塔基
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2014-09-26
Filing date: 2015-09-10
Publication date: 2017-04-19
Anticipated expiration: 2035-09-10
Also published as: US9928076B2; EP3198404A1; CN106575221B; WO2016048672A1; EP3198404A4; US20160092239A1

Abstract

用于SIMD非结构化分支的设备和方法。例如，处理器的一个实施例包括：执行单元，具有多个通道（用以执行指令）；以及分支单元，用于处理非结构化控制流指令，并且保持每个通道的每通道计数值，分支单元将非结构化控制流指令的指令指针标签存储在存储器中，并且使用标签地址来识别指令指针标签，分支单元还至少基于每通道计数值来启用和禁用通道。

Description

用于SIMD执行引擎的非结构化控制流的方法和设备

技术领域

本发明一般涉及计算机处理器领域。更具体来说，本发明涉及用于执行单指令多数据(SIMD)非结构化分支的设备和方法。

背景技术

管理单指令多数据(SIMD)程序中的控制流是复杂问题。按传统，图形处理单元(GPU)使用标量代码和程序例程来控制每个SIMD通道的指令指针(IP)地址。这在性能和功率使用方面均是低效的。

在一些架构上通过为每个通道保持唯一IP地址来管理控制流。例如，当遇到控制流指令时，每个通道的IP采用基于指令的判定掩码(mask)的特定IP来更新。对于每个和每一个指令，将执行IP与通道的IP进行比较，以确定是否在当前IP对特定指令启用该通道。

另外，当前在硬件中不支持SIMD程序的非结构化控制流。现代编译器产生非结构化SIMD程序代码，其按传统由编译器转换回结构化程序代码，以及一些优化因转换回结构化流而丢失。

附图说明

从以下结合附图的详细描述中能够得到本发明更好的理解，在附图中：

图1是带有处理器(具有一个或多个处理器核)和图形处理器的计算机系统的实施例的框图。

图2是具有一个或多个处理器核的处理器、集成存储器控制器和集成图形处理器的一个实施例的框图；

图3是可作为分立图形处理单元或者可以是与多个处理核相集成的图形处理器的图形处理器的一个实施例的框图；

图4是图形处理器的图形处理引擎的实施例的框图；

图5是图形处理器的另一个实施例的框图；

图6是包括处理元件阵列的线程执行逻辑的框图；

图7示出按照实施例的图形处理器执行单元指令格式；

图8是包括图形流水线、媒体流水线、显示引擎、线程执行逻辑和渲染输出流水线的图形处理器的另一个实施例的框图；

图9A是示出按照实施例的图形处理器命令格式的框图；

图9B是示出按照实施例的图形处理器命令序列的框图；

图10示出按照实施例的数据处理系统的示范图形软件架构；

图11示出用于执行SIMD分支操作的系统架构的一个实施例；

图12示出按照本发明的一个实施例的分支单元；

图13示出按照本发明的一个实施例的用于处理分叉(diverging)_控制流指令的方法；

图14示出按照本发明的一个实施例的用于处理聚合（converging）控制流指令的方法；

图15示出具有非结构化控制流逻辑的分支单元的一个实施例；

图16示出分支单元的一个实施例的附加细节；

图17示出按照本发明的一个实施例的用于处理非结构化分叉控制流指令的方法；以及

图18示出按照本发明的一个实施例的用于处理非结构化聚合控制流指令的方法。

具体实施方式

为了说明的目的，以下描述中阐述大量具体细节，以便提供对以下所描述的本发明的实施例的透彻理解。然而对本领域的技术人员将显而易见的是，在没有这些具体细节的一部分的情况下可实践本发明的实施例。在其它实例中，众所周知的结构和装置通过框图形式示出，以避免模糊本发明的实施例的基本原理。

示范图形处理器架构和数据类型

概览——图1-3

图1是根据实施例的数据处理系统100的框图。数据处理系统100包含一个或多个处理器102和一个或多个图形处理器108，并且可以是单个处理器桌上型系统、多处理器工作站系统或具有大量处理器102或处理器核107的服务器系统。在一个实施例中，数据处理系统100是用在移动、手持或嵌入式装置中的片上系统（SOC）集成电路。

数据处理系统100的实施例可包含基于服务器的游戏平台或游戏控制台（包含游戏和媒体控制台、移动游戏控制台、手持游戏控制台或在线游戏控制台）或结合在其内。在一个实施例中，数据处理系统100是移动电话、智能电话、平板计算装置或移动因特网装置。数据处理系统100还可包含可穿戴装置（诸如智能手表可穿戴装置、智能眼镜装置、增强现实装置或虚拟现实装置）、与其耦合或集成在其内。在一个实施例中，数据处理系统100是具有一个或多个处理器102以及由一个或多个图形处理器108生成的图形界面的电视或机顶盒装置。

一个或多个处理器102各包含用于处理指令的一个或多个处理器核107，所述指令当执行时执行用于系统和用户软件的操作。在一个实施例中，一个或多个处理器核107中的每个都配置成处理特定指令集109。指令集109可促进复杂指令集计算（CISC）、缩减指令集计算（RISC）或经由超长指令字(VLIW)的计算。多个处理器核107各可处理不同指令集109（其可包含用于促进其它指令集仿真的指令）。处理器核107还可包含其它处理装置，诸如数字信号处理器(DSP)。

在一个实施例中，处理器102包含高速缓冲存储器104。取决于架构，处理器102可具有单个内部高速缓存或多级内部高速缓存。在一个实施例中，高速缓冲存储器在处理器102的各种组分之间共享。在一个实施例中，处理器102还使用外部高速缓存（例如3级（L3）高速缓存或末级高速缓存（LLC））（未示出），其可使用已知高速缓存一致性技术在处理器核107之间共享。寄存器文件106附加地被包含在处理器102中，其可包含用于存储不同类型数据的不同类型寄存器（例如整数寄存器、浮点寄存器、状况(status)寄存器和指令指针寄存器）。一些寄存器可以是通用寄存器，而其它寄存器可以是对处理器102的设计特定的。

处理器102耦合到处理器总线110，以在处理器102与系统100中的其它组分之间传送数据信号。系统100使用示范“集线器”系统架构，包含存储器控制器集线器116和输入输出（I/O）控制器集线器130。存储器控制器集线器116促进存储器装置与系统100的其它组分之间的通信，同时I/O控制器集线器（ICH）130提供了经由本地I/O总线到I/O装置的连接。

存储器装置120可以是动态随机存取存储器（DRAM）装置、静态随机存取存储器（SRAM）装置、闪存装置或具有充当过程存储器的适合性能的某一其它存储器装置。存储器120可存储当处理器102执行过程时供使用的数据122和指令121。存储器控制器集线器116还与可选的外部图形处理器112耦合，其可与处理器102中的一个或多个图形处理器108通信以执行图形和媒体操作。

ICH 130使外围设备能够经由高速I/O总线连接到存储器120和处理器102。I/O外围设备包含音频控制器146、固件接口128、无线收发器126（例如Wi-Fi、蓝牙）、数据存储装置124（例如硬盘驱动器、闪存等）以及用于将传统（例如个人系统2(PS/2)）装置耦合到系统的传统I/O控制器。一个或多个通用串行总线（USB）控制器142连接输入装置，诸如键盘和鼠标144组合。网络控制器134还可耦合到ICH 130。在一个实施例中，高性能网络控制器（未示出）耦合到处理器总线110。

图2是具有一个或多个处理器核202A-N、集成存储器控制器214和集成图形处理器208的处理器200的实施例的框图。处理器200可包含附加核（多达且包含由虚线框表示的附加核202N）。核202A-N中的每个核都包含一个或多个内部高速缓存单元204A-N。在一个实施例中，每个核还可以使用一个或多个共享高速缓存单元206。

内部高速缓存单元204A-N和共享高速缓存单元206表示处理器200内的高速缓冲存储器层级。高速缓冲存储器层级可包含每个核内的至少一级指令和数据高速缓存和一级或多级共享中级高速缓存，诸如2级(L2)、3级(L3)、4级(L4)或其它级高速缓存，其中在外部存储器前面的最高级高速缓存被归类为末级高速缓存(LLC)。在一个实施例中，高速缓存一致性逻辑保持各种高速缓存单元206与204A-N之间的一致性。

处理器200还可包含一组一个或多个总线控制器单元216和系统代理210。一个或多个总线控制器单元管理一组外围设备总线，诸如一个或多个外围组分互连总线（例如PCI、PCI Express）。系统代理210提供各种处理器组分的管理功能性。在一个实施例中，系统代理210包含一个或多个集成存储器控制器214以管理对各种外部存储器装置（未示出）的访问。

在一个实施例中，核202A-N中的一个或多个包含对于同时多线程的支持。在此类实施例中，系统代理210包含用于在多线程处理期间协调和操作核202A-N的组分。系统代理210附加地可包含功率控制单元（PCU），其包含用于调节核202A-N和图形处理器208的功率状态的逻辑和组分。

处理器200附加地包含用于执行图形处理操作的图形处理器208。在一个实施例中，图形处理器208与该组共享高速缓存单元206以及包含一个或多个集成存储器控制器214的系统代理单元210耦合。在一个实施例中，显示控制器211与图形处理器208耦合以驱动到一个或多个耦合显示器的图形处理器输出。显示控制器211可以是经由至少一个互连与图形处理器耦合的单独模块，或者可集成在图形处理器208或系统代理210内。

在一个实施例中，使用基于环的互连单元212耦合处理器200的内部组分，然而可使用备选互连单元，诸如点对点互连、切换的（switched）互连或其它技术，包含本领域众所周知的技术。在一个实施例中，图形处理器208经由I/O链路213与环（ring）互连212耦合。

示范I/O链路213表示I/O互连的多个种类中的至少一个，包含促进各种处理器组分与高性能嵌入式存储器模块218（诸如eDRAM模块）之间通信的包上(on package)I/O互连。在一个实施例中，核202-N和图形处理器208中的每个都使用嵌入式存储器模块218作为共享末级高速缓存。

在一个实施例中，核202A-N是执行相同指令集架构的同质核。在另一实施例中，核202A-N在指令集架构(ISA)方面是异质的，其中核202A-N中的一个或多个执行第一指令集，而至少一个其它核执行第一指令集的子集或不同指令集。

处理器200可以是一个或多个衬底的一部分，或使用若干处理技术（例如互补金属氧化物半导体(CMOS)、双极结型/互补金属氧化物半导体(BiCMOS)或N型金属氧化物半导体逻辑(NMOS)）中的任何技术实现在其上。附加地，处理器200可实现在一个或多个芯片上或作为片上系统（SOC）集成电路（除其它组分之外还具有所示的组分）。

图3是可以是分立图形处理单元或者可以是与多个处理核集成的图形处理器的图形处理器300的一个实施例的框图。在一个实施例中，图形处理器通过经由到图形处理器上寄存器的存储器映射的I/O接口并经由置入处理器存储器中的命令进行通信。图形处理器300包含存储器接口314（用以访问存储器）。存储器接口314可以是到本地存储器、一个或多个内部高速缓存、一个或多个共享外部高速缓存和/或系统存储器的接口。

图形处理器300还包含显示控制器302以将显示输出数据驱动到显示装置320。显示控制器302包含用于用户界面元素或视频的多层的合成和显示器的一个或多个覆盖平面的硬件。在一个实施例中，图形处理器300包含视频编解码器引擎306以对媒体进行编码、解码或代码转换到一个或多个媒体编码格式、从一个或多个媒体编码格式进行编码、解码或代码转换或在一个或多个媒体编码格式之间进行编码、解码或代码转换，所述编码格式包含但不限于运动画面专家组（MPEG）格式（诸如MPEG-2）、高级视频译码（AVC）格式（诸如H.264/MPEG-4 AVC）以及电影与电视工程师协会(SMPTE)421M/VC-1和联合影像专家组(JPEG)格式（诸如JPEG）以及运动JPEG (MJPEG)格式。

在一个实施例中，图形处理器300包含块图像传输（BLIT）引擎304以执行二维(2D)光栅化器（rasterizer）操作，例如包含位边界块传输。然而，在一个实施例中，使用图形处理引擎(GPE)310的一个或多个组分执行2D图形操作。图形处理引擎310是用于执行图形操作（包含三维（3D）图形操作和媒体操作）的计算引擎。

GPE 310包含用于执行3D操作的3D流水线312，诸如使用对3D原语形状（例如长方形、三角形等）起作用的处理功能渲染三维图像和场景。3D流水线312包含可编程和固定功能元素，它们在元素内执行各种任务和/或产生到3D/媒体子系统315的执行线程。虽然3D流水线312可用于执行媒体操作，但GPE 310的实施例还包含具体地说用于执行诸如视频后处理和图像增强的媒体操作的媒体流水线316。

在一个实施例中，媒体流水线316包含固定功能或可编程逻辑单元以代替或代表视频编解码器引擎306执行一个或多个专用媒体操作，诸如视频解码加速、视频去交织（deinterlace）和视频编码加速。在一个实施例中，媒体流水线316附加地包含线程产生单元以产生线程以便在3D/媒体子系统315上执行。产生的线程在包含在3D/媒体子系统中的一个或多个图形执行单元上执行媒体操作的计算。

3D/媒体子系统315包含用于执行由3D流水线312和媒体流水线316产生的线程的逻辑。在一个实施例中，流水线将线程执行请求发送到3D/媒体子系统315，其包含线程分派逻辑以便仲裁(arbitrate)和分派各种请求给可用的线程执行资源。执行资源包含用于处理3D和媒体线程的图形执行单元的阵列。在一个实施例中，3D/媒体子系统315包含用于线程指令和数据的一个或多个内部高速缓存。在一个实施例中，子系统还包含共享存储器(包含寄存器和可寻址存储器)以在线程之间共享数据并存储输出数据。

3D/媒体处理-图4

图4是图形处理器的图形处理引擎410的实施例的框图。在一个实施例中，图形处理引擎(GPE)410是在图3中示出的GPE 310的版本。GPE 410包含3D流水线412和媒体流水线416，它们中的每个都可不同于或类似于图3的3D流水线312和媒体流水线316的实现。

在一个实施例中，GPE 410与命令流播器403耦合，命令流播器403向GPE 3D和媒体流水线412、416提供命令流（command stream）。命令流播器403耦合到存储器，其可以是系统存储器或内部高速缓冲存储器和共享高速缓冲存储器中的一个或多个。命令流播器403从存储器接收命令，并向3D流水线412和/或媒体流水线416发送命令。3D和媒体流水线通过经由相应流水线内的逻辑执行操作或通过向执行单元阵列414分派一个或多个执行线程来处理命令。在一个实施例中，执行单元阵列414是可缩放的，使得阵列基于GPE 410的目标功率和性能等级包含可变数量的执行单元。

采样引擎430与存储器（例如高速缓冲存储器或系统存储器）和执行单元阵列414耦合。在一个实施例中，采样引擎430提供了允许执行阵列414从存储器读取图形和媒体数据的可缩放执行单元阵列414的存储器访问机制。在一个实施例中，采样引擎430包含用于执行媒体的专用图像采样操作的逻辑。

采样引擎430中的专用媒体采样逻辑包含去噪声/去交织模块432、运动估计模块434和图像缩放和滤波模块436。去噪声/去交织模块432包含用于对解码的视频数据执行去噪声或去交织算法中的一个或多个的逻辑。去交织逻辑将交织的视频内容的交替（alternating）字段组合成单个帧视频。去交织逻辑降低或移除来自视频和图像数据中的数据噪声。在一个实施例中，去噪声逻辑和去交织逻辑是运动自适应的，并基于在视频数据中检测的运动的量使用空间或时间滤波。在一个实施例中，去噪声/去交织模块432包含专用运动检测逻辑（例如在运动估计引擎434内）。

运动估计引擎434通过对视频数据执行视频加速功能（诸如运动向量估计和预测）来提供视频操作的硬件加速。运动估计引擎确定描述在接连视频帧之间的图像数据变换的运动向量。在一个实施例中，图形处理器媒体编解码器使用视频运动估计引擎434在宏块级对视频执行操作，其否则可能使用通用处理器对执行在计算上加强。在一个实施例中，运动估计引擎434一般可用于图形处理器组分以辅助视频解码和处理功能，这些功能对视频数据内的运动的方向或幅度是敏感的或自适应的。

图像缩放和滤波模块436执行图像处理操作以增强所生成的图像和视频的视觉质量。在一个实施例中，缩放和滤波模块436在向执行单元阵列414提供数据之前的采样操作期间处理图像和视频数据。

在一个实施例中，图形处理引擎410包含数据端口444，其提供图形子系统访问存储器的附加机制。数据端口444促进对于包含渲染目标写、常量缓冲器读、临时（scratch）存储器空间读/写和媒体表面访问的操作的存储器访问。在一个实施例中，数据端口444包含高速缓冲存储器空间（用以对存储器高速缓存存取）。高速缓冲存储器可以是单个数据高速缓存，或者对于经由数据端口访问存储器的多个子系统分成多个高速缓存（例如渲染缓冲器高速缓存、常量缓冲器高速缓存等）。在一个实施例中，在执行单元阵列414中的执行单元上执行的线程通过经由耦合图形处理引擎410的每一个子系统的数据分布互连来交换消息与数据端口通信。

执行单元——图5-7

图5是图形处理器的另一实施例的框图。在一个实施例中，图形处理器包含环互连502、流水线前端504、媒体引擎537和图形核580A-N。环互连502将图形处理器耦合到其它处理单元(包含其它图形处理器或一个或多个通用处理器核)。在一个实施例中，图形处理器是集成在多核处理系统内的许多处理器中的一个。

图形处理器经由环互连502接收批量命令。传入命令由流水线前端504中的命令流播器503解释。图形处理器包含可缩放执行逻辑以经由一个或多个图形核580A-N执行3D几何处理和媒体处理。对于3D几何处理命令，命令流播器503向几何流水线536供应命令。对于至少一些媒体处理命令，命令流播器503将命令供应给视频前端534，其与媒体引擎537耦合。媒体引擎537包含用于视频和图像后处理的视频质量引擎(VQE) 530以及用于提供硬件加速的媒体数据编码和解码的多格式编码/解码(MFX)533引擎。几何流水线536和媒体引擎537各生成用于由至少一个图形核580A提供的线程执行资源的执行线程。

图形处理器包含以模块的核580A-N（各具有多个子核550A-N、560A-N（有时称为核子切片））（有时称为核切片）为特征的可缩放线程执行资源。图形处理器可具有任何数量的图形核580A至580N。在一个实施例中，图形处理器包含至少具有第一子核550A和第二核子核560A的图形核580A。在另一实施例中，图形处理器是具有单个子核（例如550A）的低功率处理器。在一个实施例中，图形处理器包含多个图形核580A-N，各包含一组第一子核550A-N和一组第二子核560A-N。该组第一子核550A-N中的每个子核都至少包含第一组执行单元552A-N和媒体/纹理采样器554A-N。该组第二子核560A-N中的每个子核都至少包含第二组执行单元562A-N和采样器564A-N。在一个实施例中，每个子核550A-N、560A-N共享一组共享资源570A-N。在一个实施例中，共享资源包含共享高速缓冲存储器和像素操作逻辑。其它共享资源也可被包含在图形处理器的各种实施例中。

图6示出包含在图形处理引擎的一个实施例中采用的处理元素阵列的线程执行逻辑600。在一个实施例中，线程执行逻辑600包含像素着色器602、线程分派器604、指令高速缓存606、包含多个执行单元608A-N的可缩放执行单元阵列、采样器610、数据高速缓存612和数据端口614。在一个实施例中，所包含的组分经由链接到每一个组分的互连组构互连。线程执行逻辑600包含通过指令高速缓存606、数据端口614、采样器610和执行单元阵列608A-N中的一个或多个到存储器（诸如系统存储器或高速缓冲存储器）的一个或多个连接。在一个实施例中，每个执行单元（例如608A）是能够执行多个同时线程并且对于每个线程并行处理多个数据元素的单独向量处理器。执行单元阵列608A-N包含任何数量的单独执行单元。

在一个实施例中，执行单元阵列608A-N主要用于执行“着色器”程序。在一个实施例中，阵列608A-N中的执行单元执行包含对于许多标准3D图形着色器指令的本机（native）支持的指令集，使得用最小的转变执行来自图形库（例如Direct3D 和OpenGL）的着色器程序。执行单元支持顶点和几何处理（例如顶点程序、几何程序、顶点着色器）、像素处理（例如像素着色器、片段着色器）和通用处理（例如计算和媒体着色器）。

执行单元阵列608A-N中的每个执行单元都操作在数据元素阵列上。数据元素数量是“执行尺寸”，或者指令的通道数量。执行通道是用于数据元素访问、掩蔽（masking）和指令内流控制的执行的逻辑单元。通道数量可独立于具体图形处理器的物理ALU或FPU的数量。执行单元608 A-N支持整数和浮点数据类型。

执行单元指令集包含单指令多数据(SIMD)指令。各种数据元素可作为压缩数据类型存储在寄存器中，并且执行单元将基于元素的数据尺寸处理各种元素。例如，当操作在256位宽向量上时，向量的256位被存储在寄存器中，并且执行单元操作在向量上作为4个单独的64位压缩数据元素（四字（QW）尺寸数据元素）、8个单独的32位压缩数据元素（双字（DW）尺寸数据元素）、16个单独的16位压缩数据元素（字（W）尺寸数据元素）或32个单独的8位数据元素（字节（B）尺寸数据元素）。然而，不同的向量宽度和寄存器尺寸是可能的。

一个或多个内部指令高速缓存（例如606）被包含在线程执行逻辑600中以高速缓存执行单元的线程指令。在一个实施例中，包含一个或多个数据高速缓存（例如612）以在线程执行期间对线程数据高速缓存。包含采样器610以提供用于3D操作的纹理采样和用于媒体操作的媒体采样。在一个实施例中，采样器610包含专用纹理或媒体采样功能性，以在向执行单元提供采样数据之前的采样过程期间处理纹理或媒体数据。

在执行期间，图形和媒体流水线经由线程产生和分派逻辑向线程执行逻辑600发送线程发起请求。线程执行逻辑600包含本地线程分派器604，其仲裁来自图形和媒体流水线的线程发起请求，并在一个或多个执行单元608A-N上例示请求的线程。例如，几何流水线（例如图5的536）向线程执行逻辑600分派顶点处理、曲面细分或几何处理线程。线程分派器604还可处理来自正在执行的着色器程序的运行时间线程产生请求。

一旦一组几何对象已经被处理并且光栅化成像素数据，则调用像素着色器602以进一步计算输出信息，并使结果被写到输出表面（例如颜色缓冲器、深度缓冲器、模板缓冲器等）。在一个实施例中，像素着色器602计算要跨光栅化对象内插的各种顶点属性的值。像素着色器602然后执行API供应的像素着色器程序。为了执行像素着色器程序，像素着色器602经由线程分派器604向执行单元（例如608A）分派线程。像素着色器602使用采样器610中的纹理采样逻辑以访问存储在存储器中的纹理映射中的纹理数据。纹理数据和输入几何数据上的算术运算计算每个几何片段的像素颜色数据，或者从进一步处理中丢弃一个或多个像素。

在一个实施例中，数据端口614提供用于线程执行逻辑600将处理的数据输出到存储器以便在图形处理器输出流水线上进行处理的存储器访问机制。在一个实施例中，数据端口614包含或耦合到一个或多个高速缓冲存储器（例如数据高速缓存612）以高速缓存数据以便经由数据端口的存储器存取。

图7是示出根据实施例的图形处理器执行单元指令格式的框图。在一个实施例中，图形处理器执行单元支持具有以多种格式的指令的指令集。实线框示出一般被包含在执行单元指令中的组分，而虚线包含可选的或者仅包含在指令子集中的组分。所示出和所描述的指令格式是宏指令，因为一旦指令被处理，它们则是供应给执行单元的指令，与从指令解码得到的微操作相对。

在一个实施例中，图形处理器执行单元本机（natively）支持128位格式710的指令。64位紧致（compact）指令格式730基于选择的指令、指令选项和若干操作数对于一些指令可用。本机128位格式710提供对所有指令选项的访问，而一些选项和操作被约束在64位格式730。在64位格式730中可用的本机指令按实施例变化。在一个实施例中，部分使用索引字段713中的一组索引值使指令紧致。执行单元硬件参考基于索引值的一组紧致表，并使用紧致表输出重构以128位格式710的本机指令。

对于每个格式，指令操作码712定义执行单元要执行的操作。执行单元跨每个操作数的多个数据元素并行执行每个指令。例如，响应于加指令，执行单元跨表示纹理元素或画面元素的每个颜色通道执行同时加操作。作为默认，执行单元跨操作数的所有数据通道执行每个指令。指令控制字段712实现了对某些执行选项（诸如通道选择（例如预测）和数据通道次序（例如拌和（swizzle）））的控制。对于128位指令710，执行尺寸字段716限制将并行执行的数据通道的数量。执行尺寸字段716对于在64位紧致指令格式730中的使用不可用。

一些执行单元指令具有多达3个操作数，包含2个源操作数、src0 722、src1 722和一个目的地718。在一个实施例中，执行单元支持双目的地指令，其中暗示了其中一个目的地。数据操纵指令可具有第三源操作数（例如SRC2 724），其中指令操作码JJ12确定源操作数的数量。指令的最后源操作数可以是用指令传递的立即（例如硬编码）值。

在一个实施例中，指令可基于操作码位字段进行编组以简化操作码解码740。对于8位操作码，位4、5和6允许执行单元确定操作码的类型。所示出的精确的操作码编组是示范性的。在一个实施例中，移动和逻辑操作码组742包含数据移动和逻辑指令（例如mov、cmp）。移动和逻辑组742共享5个最高有效位（MSB），其中移动指令以0000xxxxb(例如0x0x)形式，并且逻辑指令以0001xxxxb (例如0x01)形式。流控制指令组744（例如调用，jmp）包含以0010xxxxb (例如0x20)形式的指令。混杂指令组746包含指令的混合，包含以0011xxxxb(例如0x30)形式的同步指令（例如等待、发送）。并行数学指令组748包含以0100xxxxb(例如0x40)形式的逐个分量的算术指令（例如加、乘）。并行数学组748跨数据通道并行执行算术运算。向量数学组750包含以0101xxxxb(例如0x50)形式的算术指令（例如dp4）。向量数学组执行算术，诸如在向量操作数上的点积计算。

图形流水线——图8

图8是包含图形流水线820、媒体流水线830、显示引擎840、线程执行逻辑850和渲染输出流水线870的图形处理器的另一实施例的框图。在一个实施例中，图形处理器是包含一个或多个通用处理核的多核处理系统内的图形处理器。图形处理器通过寄存器写到一个或多个控制寄存器（未示出）或借助于经由环互连802向图形处理器发出的命令而控制。环互连802将图形处理器耦合到其它处理组分，诸如其它图形处理器或通用处理器。来自环互连的命令由命令流播器803解释，命令流播器803将指令供应给媒体流水线830或图形流水线820的各个组分。

命令流播器803指导顶点提取器（fetcher）805组分的操作，其从存储器读顶点数据，并执行由命令流播器803提供的顶点处理命令。顶点提取器805将顶点数据提供给顶点着色器807，其执行到每个顶点的协调空间变换和照亮（lighting）操作。顶点提取器805和顶点着色器807通过经由线程分派器831向执行单元852A、852B分派执行线程来执行顶点处理指令。

在一个实施例中，执行单元852A、852B是具有用于执行图形和媒体操作的指令集的向量处理器的阵列。执行单元825A、852B具有附连的L1高速缓存851，其对于每个阵列都是特定的，并且在阵列之间共享。高速缓存可配置为数据高速缓存、指令高速缓存或被分割(partition)成在不同分区（partition）中含有数据和指令的单个高速缓存。

在一个实施例中，图形流水线820包含曲面细分组分以执行3D对象的硬件加速曲面细分。可编程外壳着色器811配置曲面细分操作。可编程域着色器817提供曲面细分输出的后端评估。曲面细分器813在外壳着色器811的方向操作，并且含有专用逻辑以基于作为图形流水线820的输入提供的粗略几何模型生成一组详细的几何对象。如果未使用曲面细分，则可旁路曲面细分组分811、813、817。

完整几何对象可由几何着色器819经由分派给执行单元852A、852B的一个或多个线程处理，或者可直接前往修剪器（clipper）829。几何着色器操作在整个几何对象上，而不是与图形流水线的先前阶段一样操作在顶点或顶点的补丁上。如果曲面细分被禁用，则几何着色器819从顶点着色器807接收输入。如果曲面细分单元被禁用，则几何着色器819由几何着色器程序可编程来执行几何曲面细分。

在光栅化之前，顶点数据由修剪器829处理，其或者是固定功能修剪器，或者是具有修剪和几何着色器功能的可编程修剪器。在一个实施例中，渲染输出流水线870中的光栅化器873分派像素着色器以将几何对象转换成它们的每像素表示。在一个实施例中，像素着色器逻辑被包含在线程执行逻辑850中。

图形引擎具有互连总线、互连组构或允许数据和消息在图形引擎的主要组分之间传递的某一其它互连机制。在一个实施例中，执行单元852A、852B和关联的高速缓存（一个或多个）851、纹理和媒体采样器854以及纹理/采样器高速缓存858经由数据端口856互连以执行存储器访问，并与图形引擎的渲染输出流水线组分通信。在一个实施例中，采样器854、高速缓存851、858和执行单元852A、852B各具有单独的存储器访问路径。

在一个实施例中，渲染输出流水线870含有光栅化器和深度测试组分873，其将基于顶点的对象转换成它们关联的基于像素的表示。在一个实施例中，光栅化器逻辑包含视窗/掩蔽器单元以执行固定功能三角形或线光栅化。在一个实施例中，关联的渲染和深度缓冲器高速缓存878、879也是可用的。像素操作组分877在数据上执行基于像素的操作，尽管在一些实例中，与2D操作关联的像素操作（例如具有混合的位块图像传输）由2D引擎841执行，或者在显示时间由显示控制器843使用覆盖显示平面替代。在一个实施例中，共享L3高速缓存875对所有图形组分都可用，允许在不使用主要系统存储器的情况下共享数据。

图形处理器媒体流水线830包含媒体引擎337和视频前端834。在一个实施例中，视频前端834从命理流播器803接收流水线命令。然而，在一个实施例中，媒体流水线830包含单独的命令流播器。视频前端834在将命令发送到媒体引擎837之前处理媒体命令。在一个实施例中，媒体引擎包含线程产生功能性以产生经由线程分派器831分派到线程执行逻辑850的线程。

在一个实施例中，图形引擎包含显示引擎840。在一个实施例中，显示引擎840在图形处理器的外部，并经由环互连802或某一其它互连总线或组构与图形处理器耦合。显示引擎840包含2D引擎841和显示控制器843。显示引擎840含有能够独立于3D流水线操作的专用逻辑。显示控制器843与显示装置（未示出）耦合，显示装置可与膝上型计算中一样是系统集成的显示装置，或者是经由显示装置连接器附连的外部显示装置。

图形流水线820和媒体流水线830可配置成基于多个图形和媒体编程接口执行操作，并且对任一个应用编程接口（API）都不是特定的。在一个实施例中，用于图形处理器的驱动软件将对具体图形或媒体库特定的API调用翻译成可由图形处理器处理的命令。在各种实施例中，对于由Khronos组织支持的开放图形库(OpenGL)和开放计算语言(OpenCL)、来自微软公司的Direct3D库或者在一个实施例中OpenGL和D3D两者提供支持，也可对于开放源计算机视觉库(OpenCV)提供支持。如果可进行从将来API的流水线映射到图形处理器的流水线，则也会支持具有可兼容3D流水线的将来API。

图形流水线编程——图9A-B

图9A是示出根据实施例的图形处理器命令格式的框图，并且图9B是示出根据实施例的图形处理器命令序列的框图。图9A中的实线框示出一般被包含在图形命令中的组分，而虚线包含可选的或者仅包含在图形命令的子集中的组分。图9A的示范性图形处理器命令格式900包含数据字段以识别命令的目标客户端902、命令操作代码（操作码）904以及针对命令的相关的数据906。在一些命令中还包含子操作码905和命令尺寸908。

客户端902规定处理命令数据的图形装置的客户端单元。在一个实施例中，图形处理器命令解析器检查每个命令的客户端字段，以调节命令的进一步处理，并将命令数据路由到适当客户端单元。在一个实施例中，图形处理器客户端单元包含存储器接口单元、渲染单元、2D单元、3D单元和媒体单元。每个客户端单元具有处理命令的对应处理流水线。一旦客户端单元接收到命令，客户端单元则读操作码904，如果存在的话，还有子操作码905，以确定要执行的操作。客户端单元使用命令的数据906字段中的信息执行命令。对于一些命令，期望明确命令尺寸908以规定命令的尺寸。在一个实施例中，命令解析器基于命令操作码自动确定至少一些命令的尺寸。在一个实施例中，命令经由双字的倍数对准。

图9B中的流程图示出采样命令序列910。在一个实施例中，以图形处理器的实施例为特征的数据处理系统的软件或固件使用所示出的命令序列的版本设立、执行和终止一组图形操作。为了示范目的示出并描述了采样命令序列，然而，实施例不限于这些命令或者这个命令序列。而且，命令可作为命令序列中的成批命令发出，使得图形处理器将以至少部分同时发生的方式处理命令序列。

采样命令序列910可开始于流水线刷新(flush)命令912，以使任何活动图形流水线都完成流水线的当前挂起的命令。在一个实施例中，3D流水线922和媒体流水线924不同时操作。执行流水线刷新以使活动图形流水线完成任何挂起的命令。响应于流水线刷新，图形处理器的命令解析器将暂停命令处理，直到活动绘图引擎完成挂起的操作，并且相关的读高速缓存无效。可选地，可对存储器刷新被标记为“脏（dirty）”的渲染高速缓存中的任何数据。流水线刷新命令912可用于流水线同步或在使图形处理器置于低功率状态之前使用。

流水线选择命令913被用在命令序列要求图形处理器在流水线之间明确地切换时。流水线选择命令913在执行上下文内在发出流水线命令之前仅要求一次，除非上下文是发出用于两个流水线的命令。在一个实施例中，就在经由流水线选择命令913的流水线切换之前要求流水线刷新命令912。

流水线控制命令914配置图形流水线以便操作，并且用于对3D流水线922和媒体流水线924编程。流水线控制命令914配置活动流水线的流水线状态。在一个实施例中，流水线控制命令914用于流水线同步，并在活动流水线内在处理一批命令之前从一个或多个高速缓冲存储器中清除数据。

返回缓冲器状态命令916用于将相应流水线的一组返回缓冲器配置成写数据。一些流水线操作要求分配、选择或配置操作在处理期间将中间数据写入的一个或多个返回缓冲器。图形处理器还使用一个或多个返回缓冲器来存储输出数据，并执行交叉线程通信。返回缓冲器状态916包含选择要用于一组流水线操作的返回缓冲器的尺寸和数量。

命令序列中的剩余命令基于用于操作的活动流水线而不同。基于流水线确定920，命令序列被调整成开始于3D流水线状态930的3D流水线922，或者开始于媒体流水线状态940的媒体流水线924。

用于3D流水线状态930的命令包含用于顶点缓冲器状态、顶点元素状态、恒定颜色状态、深度缓冲器状态以及在处理3D原语命令之前配置的其它状态变量的3D状态设置命令。这些命令的值至少部分基于使用中的具体3D API而确定。3D流水线状态930命令也能够有选择地禁用或旁路某些流水线元素，如果那些元素将不使用的话。

3D原语932命令用于提交3D原语以由3D流水线处理。经由3D原语932命令传递到图形处理器的命令以及关联参数被转发到图形流水线中的顶点提取功能。顶点提取功能使用3D原语932命令数据生成顶点数据结构。顶点数据结构被存储在一个或多个返回缓冲器中。3D原语932命令用于经由顶点着色器对3D原语执行顶点操作。为了处理顶点着色器，3D流水线922将着色器执行线程分派给图形处理器执行单元。

3D流水线922经由执行934命令或事件触发。在一个实施例中，寄存器写触发命令执行。在一个实施例中，经由命令序列中的“go”或“kick”命令触发执行。在一个实施例中，使用流水线同步命令通过图形流水线刷新命令序列来触发命令执行。3D流水线将执行3D原语的几何处理。一旦操作完成，得到的几何对象被光栅化，并且像素引擎给得到的像素上色。对于那些操作还可包含控制像素着色和像素后端操作的附加命令。

当执行媒体操作时，采样命令序列910遵循媒体流水线924路径。一般而言，媒体流水线924的编程的特定使用和方式取决于要执行的媒体或计算操作。特定媒体解码操作可在媒体解码期间被卸载到媒体流水线。媒体流水线也可被旁路，并且媒体解码可使用由一个或多个通用处理核提供的资源全部或部分执行。在一个实施例中，媒体流水线还包含用于通用图形处理器单元(GPGPU)操作的元素，其中图形处理器用于使用与图形原语的渲染不明确有关的计算着色器程序执行SIMD向量操作。

媒体流水线924以与3D流水线922类似的方式配置。一组媒体流水线状态命令940被分派或置入命令队列中（在媒体对象命令942之前）。媒体流水线状态命令940包含用于配置将用于处理媒体对象的媒体流水线元素的数据。这包含用于配置媒体流水线内视频解码和视频编码逻辑（诸如编码和解码格式）的数据。媒体流水线状态命令940还支持将一个或多个指针用于“间接”状态元素（state element），它们含有一批状态设置。

媒体对象命令942将指针供应给媒体对象以便由媒体流水线进行处理。媒体对象包含含有要处理的视频数据的存储器缓冲器。在一个实施例中，在发出媒体对象命令942之前，所有媒体流水线状态都必须是有效的。一旦配置了流水线状态并对媒体对象命令942排队了，就经由执行934命令或等效执行事件（例如寄存器写）触发媒体流水线924。来自媒体流水线924的输出然后就可通过由3D流水线922或媒体流水线924提供的操作进行后处理。在一个实施例中，GPGPU操作以与媒体操作类似的方式配置和执行。

图形软件架构——图10

图10示出根据实施例的数据处理系统的示范图形软件架构。软件架构包含3D图形应用1010、操作系统1020和至少一个处理器1030。处理器1030包含图形处理器1032和一个或多个通用处理器核1034。图形应用1010和操作系统1020各在数据处理系统的系统存储器1050中执行。

在一个实施例中，3D图形应用1010含有包含着色器指令1012的一个或多个着色器程序。着色器语言指令可以采用高级着色器语言，诸如高级着色器语言(HLSL)或OpenGL着色器语言(GLSL)。应用还包含用适合于由通用处理器核1034执行的机器语言的可执行指令1014。应用还包含由顶点数据定义的图形对象1016。

操作系统1020可以是来自微软公司的Microsoft® Windows®操作系统、专有UNIX样操作系统或使用Linux内核的变形的开源UNIX样的操作系统。当Direct3D API在使用时，操作系统1020使用前端着色器编译器1024将HLSL中的任何着色器指令1012编译成较低级着色器语言。编译可以是及时编译，或者应用可执行共享预先编译。在一个实施例中，高级着色器在编译3D图形应用1010期间被编译成低级着色器。

用户模式图形驱动1026可含有后端着色器编译器1027以将着色器指令1012转换成硬件特定表示。当OpenGL API在使用时，用GLSL高级语言中的着色器指令1012被传递到用户模式图形驱动1026进行编译。用户模式图形驱动使用操作系统内核模式功能1028与内核模式图形驱动1029通信。内核模式图形驱动1029与图形处理器1032通信以分派命令和指令。

某种程度上，本文描述了各种操作或功能，它们可描述或者定义为硬件电路、软件代码、指令、配置和/或数据。在用于特定处理器或图形核的指令集中，内容可用硬件逻辑实施，或者实施为直接可执行软件（“对象”或“可执行”形式）、源代码、对于在图形引擎上的执行设计的高级着色器代码或者低级汇编语言代码。本文描述的实施例的软件内容可经由制品（将要内容存储在其上）或经由操作通信接口以经由通信接口发送数据的方法提供。

非暂时性机器可读存储介质可使机器执行所描述的功能或操作，并且包含存储以机器（例如计算装置、电子系统等）可访问形式的信息的任何机制，诸如可记录/不可记录媒体（例如只读存储器（ROM）、随机存取存储器（RAM）、磁盘存储媒体、光存储媒体、闪存装置等）。通信接口包含与任何硬连线、无线、光学等介质对接以与另一装置（诸如存储器总线接口、处理器总线接口、因特网连接、盘控制器等）通信的任何机制。通信接口通过提供配置参数或发送信号以准备通信接口提供描述软件内容的数据信号来提供。通信接口可经由发送到通信接口的一个或多个命令或信号访问。

所描述的各种组分可以是用于执行所描述的操作或功能的部件。本文描述的每个部件都包含软件、硬件或这些的组合。组分可实现为软件模块、硬件模块、专用硬件（例如应用特定硬件、专用集成电路（ASIC）、数字信号处理器（DSP）等）、嵌入式控制器、硬连线电路等。除了本文所描述的内容以外，可对所公开的本发明的实施例和实现进行各种修改，而并不脱离它们的范围。因此，本文的说明和示例应该以说明性的，而非约束性意义来解释。本发明的范围应该仅参考如下权利要求进行度量。

用于SIMD结构化分支的设备和方法

本发明的一个实施例在硬件中执行SIMD控制流，由此增加性能并且降低功率。具体来说，描述一种SIMD处理器功能单元，其能够用于SIMD线程(其中通道使用结构化流来分叉和重新聚合)中。通道分叉的一个示例是IF/ELSE/END IF序列，其中如果满足“IF”条件，则指令流（instruction stream）分叉到第一指令序列，但是如果不满足“IF”条件，则指令流分叉到第二指令序列(通过“ELSE”条件所指定)。通道聚合响应ENDIF语句(例如当“IF”和/或“ELSE”语句所要求的所有分叉指令已经完成时)而发生。

在本发明的一个实施例中，通道分叉和聚合由响应性地启用和禁用每个通道的新分支单元(例如经由新指令)来检测。分支单元可跨执行单元(EU)中的所有线程来共享，并且可计算处理器中的所有通道的所有结构化控制流指令的结果。

分支单元的一个实施例计算通道掩码(每通道一位)，以便在结构化控制流处理期间启用或禁用通道。这移除了比较每一个指令的通道IP的必要性。在一个实施例中，通道掩码按原样用于所有非控制流指令，其由另一个单元来处理。

在一个实施例中，通道启用掩码从每通道的计数器来生成，其指示是否禁用通道，以及如果是的话，则通过什么控制流指令(即，IF/ELSE/ENDIF、CALL/RETURN等)。这与现有每通道IP解决方案相比节省门控（gate），并且节省每指令的计算周期。本发明的实施例可采用标准(例如c/c++)所支持的任何结构化控制流指令来实现。这作为举例而不是限制包括：IF/ELSE/ENDIF、DO/BREAK/CONTINUE/WHILE、CALL/RETURN、HALT、BRANCH，并且可与任何其它结构化控制流指令一起工作。

在一个实施例中还使用计数器(其区分控制流指令的出现)来支持递归。具体来说，在一个实施例中，对每个分支类型(IF/ELSE/ENDIF、DO/BREAK/CONTINUE/WHILE、CALL/RETURN等)保持“控制指令计数”，其提供该分支类型的当前嵌套等级。例如，IF分支类型的值2表示两个嵌套IF语句。在一个实施例中，如果当前IP处于任何分支条件块的外部，则控制指令计数为零。

一个实施例还保持“每通道计数”，以确定是否启用通道。如果每通道计数为0，则启用该通道。在一个实施例中，当禁用通道时，其对应计数包含禁用通道的控制指令计数的值连同表示分支类型的编码的ID(例如，IF, 2用于具有2个嵌套IF语句的IF分支类型)。

在一个实施例中，n通道入栈(entry stack)用来存储聚合指令的地址(IP)(例如，对于IF指令，存储END IF指令的IP)。为每个分支类型保持栈顶指针，以识别栈内的聚合指令的IP。

另外，在一个实施例中，每个指令包含判定掩码。判定掩码的每个位表示一个通道，并且用来确定通道是否采取该条件。(例如，对于IF，通道能够进入IF块或者跳转到ELSE块)。在一个实施例中，仅评估已启用通道供执行。

图11示出按照本发明的一个实施例的执行单元1100的架构（在其中实现分支单元1101）。多个通道0-2执行指令存储器1105(其可以是指令缓冲器、指令高速缓存或者适合于在执行之前存储指令的任何其它存储器)中存储的指令。虽然图11中示出3个通道，但是本发明的基本原理可采用任何数量的通道来实现。分别与每个通道0-2关联的指令指针1110-1112识别要通过其相应通道执行的下一个指令。指令分派逻辑1120-1122然后分派指令供在多个功能单元1130上执行，功能单元1130可包括例如向量功能单元、标量功能单元和逻辑功能单元(和/或设计成执行指令的任何其它类型的功能单元)。

图11所示的执行单元1100可在例如上面所描述的图形处理单元架构内实现(参见例如图6中所示的执行单元608)。然而，本发明的基本原理并不局限于图形处理实现。

如上面所描述的，通道分叉和聚合由分支单元1101(其响应性地启用和禁用每个通道)来检测。分支单元1101可跨EU 1100中的所有线程来共享，并且可计算处理器中的所有通道的所有结构化控制流指令的结果。在一个实施例中，每个线程在不同通道0-2上执行。

图12示出与分支单元1101的一个实施例关联的附加细节。如所示的，分支单元1101的这个实施例计算通道启用掩码1250(每通道一位)，以便在结构化控制流处理期间启用或禁用通道(由此移除比较每一个指令的通道IP的必要性)。在一个实施例中，通道掩码1250按原样用于所有非控制流指令，其由另一个单元来处理。

在一个实施例中，通道启用掩码1250从每通道的计数器1200-1202来生成，其指示是否禁用通道，以及如果是的话，则通过什么控制流指令(即，IF/ELSE/ENDIF、CALL/RETURN等)。控制指令计数器组1211采用为每个分支类型(IF/ELSE/ENDIF、DO/BREAK/CONTINUE/WHILE、CALL/RETURN等)所保持的“控制指令计数”来区分控制流指令的出现。在一个实施例中，控制指令计数指示该分支类型的当前嵌套等级。在图12中所示的示例中，对IF分支类型示出值2，表示两个嵌套IF语句。对指示1嵌套等级的CALL/RETURN和DO/BREAK/CONTINUE/WHILE指令示出值1。在一个实施例中，如果当前IP处于任何分支条件块的外部，则控制指令计数为零。

在一个实施例中，如果每通道计数在每通道计数器1200-1202中为0，则启用对应通道，如通过通道掩码1250中的0指示的。在一个实施例中，当禁用通道时，在其每通道计数器1200-1202中的对应计数包括禁用通道的控制指令计数连同表示分支类型的编码的ID(由控制指令计数器1211所提供的)。

图12还示出用来存储聚合指令的地址(IP)(例如，对于IF指令，存储END IF指令的IP)的n通道入栈1260。对每个分支类型保持栈顶指针1261，以识别栈1260内的聚合指令的IP 1250-1254。在一个实施例中，当执行对应分叉指令时，将聚合指令的IP添加到栈。

如所提到的，在一个实施例中，每个指令包含判定掩码，其中每个位表示一个通道，并且用来确定通道是否采取该条件(例如，对于IF，通道能够进入IF块或者跳转到ELSE块)。在一个实施例中，仅评估已启用通道供执行。

图13中阐述一种用于执行分叉指令的方法。该方法可在图11-12中所示的系统的上下文内实现，但是并不局限于任何特定系统架构。

开始于1301，对于每个通道n，在1302进行确定关于每通道计数是否为0。如所提到的，在一个实施例中，通道计数0指示启用对应通道（在1303所确定的）。如果每通道计数为非零，则不启用对应通道（在1304所确定的）。上面过程对每个通道n执行。

在1305，聚合IP的标签设置成等于当前IP + 聚合偏移(即，从当前IP到聚合IP的距离)。在1306，进行确定关于所有已启用通道是否具有与其关联的相同判定值(例如，指令的判定掩码是否相同)。如果不是的话，则在1307，对当前控制流指令类型将控制指令计数递增(例如，IF计数在对应控制指令计数器1211内递增)。

在1308，对于每个通道n，进行确定关于在1309是否启用通道。如果是的话，则在1310，基于判定启用字段来进行确定关于对当前指令是否启用通道。如果不是的话，则在1311每通道计数设置成等于控制流指令的控制指令计数(由此禁用该通道)。上面过程对每个通道n重复。在1312，使下一个指令指针递增(例如，下一个指令指针设置成等于当前指令指针+1)。

转回到判定框1306，如果所有已启用通道具有与其关联的相同判定值(即，指令的判定掩码相同)，则在1313，进行确定关于所有活动通道是否采取当前条件(例如，所有通道是否能够处理控制流指令)。如果是的话，则在1315，下一个指令指针设置成等于与跳转偏移相加的当前指令指针(即，分叉指令的IP位置)。如果不是的话，则在1314，下一个指令指针设置成等于与聚合偏移相加的当前指令指针(即，聚合指令的位置)。

由于前述方法，如果判定对于所有通道是均匀的，则不更新每通道计数，而是仅更新执行IP。如果判定掩码对于所有通道不是均匀的，则这称作分叉，并且在这种情况下，一些通道采取条件而一些通道不采取条件。在这种实例中，使控制指令计数递增，以及没有采取条件的每个通道的每通道计数采用当前分支类型的控制指令计数来更新。将标签推送到栈上(以存储聚合指令的IP)，并且更新栈顶指针。

图14示出用于处理聚合控制流指令的方法的一个实施例。该方法可在图11-12中所示处理器架构的上下文内实现，但是并不局限于任何特定架构。

在1401，标签设置成等于当前指令指针。在1402，如果标签等于栈(例如栈1260)顶的指令指针，则该过程移动到1403。对于每个通道n，如果每通道计数等于控制指令计数（在1404所确定的），则在1405每通道计数设置成等于0(启用通道)。

一旦该过程对每个通道完成，则在1406，进行确定关于任何通道计数是否等于控制指令计数。如果不是的话，则在1407，确定控制指令计数，并且从栈中弹出指令指针。在1408，进行确定关于是否启用任何通道。如果是的话，则在1409，使指令指针递增(即，下一个指令指针设置成当前指令指针+1)。如果不是的话，则在1410，下一个指令指针设置成等于与跳转偏移(即，到达分叉控制流指令的IP)相加的当前指令指针。

由于以上方法，将当前IP与栈顶IP进行比较。如果那些值匹配，则对于具有已启用判定掩码位的通道将每个每通道计数与分支类型的控制指令计数进行比较。如果这些值匹配，则每通道计数设置为0(指示活动通道)。如果启用与特定控制指令计数对应的所有通道，则使计数递减，并且弹出栈。使IP递增，并且程序如常继续进行。

用于SIMD执行引擎的非结构化控制流的设备和方法

如上面提到的，当前在硬件中不支持SIMD程序的非结构化控制流。现代编译器产生非结构化SIMD程序代码，其按传统由编译器转换回结构化程序代码，以及一些优化因转换回结构化流而丢失。

为了解决此局限性，本发明的一个实施例在硬件中支持SIMD程序的非结构化控制流指令，由此保持编译器优化，其改进性能并且降低功率。具体来说，分支单元可配备有实现结构化分支实施例(上面所描述的)以及非结构化分支实施例(以下所描述的)的逻辑。然而，应当注意，不要求上面描述的结构化分支技术以用于实现以下所描述的非结构化分支技术(即，非结构化分支技术可在具有或者没有结构化分支技术的分支单元中实现)。

如图15中所示的，在一个实施例中，分支单元1501包括非结构化控制流逻辑1500，以支持新的非结构化控制流指令。非结构化控制流逻辑1500可用于SIMD线程中，其中通道使用非结构化控制流来分叉和重新聚合。通道分叉和聚合可从新指令来检测，以及分支单元1501管理对每个通道的启用，如以下所描述的。

如同结构化控制流实施例中一样，多个通道0-2执行指令存储器1105(其可以是指令缓冲器、指令高速缓存或者适合于在执行之前存储指令的任何其它存储器)中存储的指令。虽然图15中示出三个通道，但是本发明的基本原理可采用任何数量的通道来实现。分别与每个通道0-2关联的指令指针1110-1112识别要通过其相应通道执行的下一个指令。指令分派逻辑1120-1122然后分派指令供在多个功能单元1130上执行，功能单元1130可包括例如向量功能单元、标量功能单元和逻辑功能单元(和/或设计成执行指令的任何其它类型的功能单元)。图15中所示的执行单元1100可在例如上面所描述的图形处理单元架构内实现(参见例如图6中所示的执行单元608)。然而，本发明的基本原理并不局限于图形处理实现。

如上面所提到的，通道分叉和聚合由分支单元1101(其响应性地启用和禁用每个通道)来检测。分支单元1101可跨EU 1100中的所有线程来共享，并且可计算处理器中的所有通道的所有非结构化控制流指令的结果。在一个实施例中，每个线程在不同通道0-2上执行。

图16提供用于实现包括通道掩码1250的非结构化控制流以启用和禁用通道的附加细节。通道掩码1250可由分支单元1501对于结构化和非结构化控制流指令来计算，并且可按原样用于所有非控制流指令，其由另一个单元来处理。在一个实施例中，添加两个新指令(TOTO和JOIN)以用于非结构化控制流，并且添加新计数器1605以处理这些新指令。在一个实施例中，GOTO引起跳转到指令流中的所指定位置，以及JOIN返回到指令流中的所指定位置(例如，均经由地址/指令指针所指定的)。

在上面所描述的与SIMD结构化分支有关的实施例中，分支单元1501已经定义每分支类型的控制指令计数(例如IF/THEN/END IF、BREAK/WHILE/CONTINUE、CALL/RETURN等)，其是该分支类型的当前嵌套等级的计数。在一个实施例中，这个机制修改成操控非结构化指令。代替将计数用作唯一标识符，这个实施例使用本地存储器中的IP标签的地址。虽然非结构化指令使用图12中所示的栈结构1260(栈顶是推送到栈上的最后一个地址)，但是新的非结构化指令使用分类链接列表(linked-list)结构1660将IP标签1650-1654存储在如与图6中所示的相同的存储器空间中。与栈结构1260的一个差别在于，在分类链接列表结构1660中，非结构化指令IP标签1650-1654通过硬件来分类(而在栈结构中，结构化IP通过定义来分类)。

在每通道计数器1200-1202中保持的现有每通道计数用来确定是否启用通道。如果每通道计数为0，则启用该通道。在一个实施例中，当通道通过非结构化指令来禁用时，其对应计数被更新成包含禁用通道的IP标签1650-1654的地址连同表示分支类型的编码的ID(例如，“GOTO2”识别链接列表存储器1660结构1660中的在条目#2的GOTO指令和IP标签)。

如同先前实施例中一样，每个指令可包括判定掩码。判定掩码中的每个位表示一个通道，并且由分支单元1501的非结构化控制流逻辑1500用来确定通道是否采取该条件。仅评估已启用通道供执行。

图17中阐述一种用于执行非结构化分叉指令的方法的一个实施例。该方法可在图15-16中所示系统的上下文内实现，但是并不局限于任何特定系统架构。

开始于1701，对于每个通道n，在1702进行确定关于每通道计数是否为0。如所提到的，在一个实施例中，通道计数0指示启用对应通道（在1703所确定的）。如果每通道计数为非零，则不启用对应通道（在1704所确定的）。上面过程对每个通道n执行。

在1705，聚合IP的标签设置成等于当前IP + 聚合偏移(即，从当前IP到聚合指令的IP的距离)。在1706，进行确定关于所有已启用通道是否具有与其关联的相同判定值(例如，指令的判定掩码是否相同)。如果不是的话，则在1707，搜索分类链接列表存储器结构(例如图16中的1660)，以确定是否在存储器中找到IP标签。如果没有的话，则在1708，将标签插入存储器中，并且保存标签地址(例如，保存到由非结构化控制流逻辑1500可访问的暂时存储，例如计数器1606中)。如果在存储器中找到IP标签，则在1709，保存标签地址。

开始于1710，对于每个通道n，进行确定关于在1711是否启用通道。如果是的话，则在1712，基于指令的判定启用字段来进行确定关于对当前指令启用通道。如果不是的话，则每通道计数设置成等于标签地址(识别存储器1660内的IP标签)。在一个实施例中，标签地址存储在当前通道n的对应每通道计数器1200-1202中(由此禁用该通道)。上面过程对每个通道n重复进行。在1714，通过将跳转偏移与当前指令指针相加来设置下一个指令指针(即，到达分叉指令的IP地址)。

转回到判定框1706，如果所有已启用通道具有与其关联的相同判定值(即，指令的判定掩码相同)，则在1715，进行确定关于所有活动通道是否采取当前条件(例如，所有通道是否能够处理控制流指令)。如果是的话，则在1717，下一个指令指针设置成等于与跳转偏移相加的当前指令指针(即，分叉指令的IP位置)。如果不是的话，则在1716，使指令指针递增，即，下一个指令指针设置成等于当前指令指针+1(即，不采取分叉指令)。

由于前述方法，如果判定对于所有通道是均匀的，则不更新每通道计数，而是仅更新执行IP。如果判定掩码对于所有通道不是均匀的，则这称作分叉，并且在这种情况下，一些通道采取条件而一些通道不采取条件。在这种情况下，使控制指令计数递增，以及没有采取条件的每个通道的每通道计数采用聚合IP的存储器地址来更新。将IP标签1650-1654插入存储器1660中。

图18示出用于处理非结构化聚合指令的方法的一个实施例。该方法可在图15-16中所示的处理器架构的上下文内实现，但是并不局限于任何特定架构。

在1801，标签设置成等于当前指令指针。在1802，使用标签来搜索包含IP标签的存储器(例如分类链接列表存储器1660)。如果找到匹配，则在1803保存标签地址(例如保存到由非结构化控制流逻辑可访问的暂时存储，例如计数器1606中)。在1804，对于每个通道n，如果设置判定启用位(在1805所确定的)并且每通道计数等于标签地址(在1806所确定的)，则在1807每通道计数设置成等于0(由此启用该通道)。

一旦该过程对每个通道完成，则在1808，进行确定关于任何通道计数是否等于标签地址。如果不是的话，则在1809，从存储器中删除IP标签。在1810，进行确定关于是否启用任何通道。如果是的话，则在1811，使指令指针递增(例如，下一个指令指针设置成等于当前指令指针+1)。如果不是的话，则在1812，下一个指令指针设置成等于当前指令指针与跳转偏移相加(即，到达下一个非结构化指令的IP)。

由于上述方法，在存储器中搜索当前IP。如果没有找到，则将每个每通道计数与具有已启用判定掩码位的通道的存储器地址进行比较。如果这些值匹配，则每通道计数设置为0(指示活动通道)。如果启用与特定控制指令计数对应的所有通道，则从存储器中移除标签。

本发明的实施例可包括上面已经描述的各种步骤。步骤可实施在机器可执行指令中，指令可用来使通用或专用处理器执行步骤。备选地，这些步骤可由包含用于执行步骤的硬连线逻辑的特定硬件组分来执行，或者由编程的计算机组分和定制硬件组分的任何组合来执行。

如本文所描述的，指令可表示诸如配置成执行某些操作或具有预定功能性的专用集成电路(ASIC)的硬件的特定配置或者非暂时性计算机可读介质中实施的存储器中存储的软件指令。因此，附图所示的技术能够使用在一个或多个电子装置(例如端站、网络元件等)上存储和执行的代码及数据来实现。此类电子装置使用诸如非暂时性计算机机器可读存储媒体(例如磁盘、光盘、随机存取存储器、只读存储器、闪存装置、相变存储器)和暂时性计算机机器可读通信媒体(例如电、光、声或其它形式的传播信号—如载波、红外信号、数字信号等)的计算机机器可读介质来存储和传递(内部和/或通过网络与其它计算装置)代码和数据。另外，此类电子装置通常包括一组一个或多个处理器，处理器耦合到诸如一个或多个存储装置(非暂时性机器可读存储媒体)、用户输入/输出装置(例如键盘、触摸屏和/或显示器)和网络连接的一个或多个其它组分。该组处理器和其它组分的耦合通常通过一个或多个总线和桥接器(又称作总线控制器)进行。携带网络业务的信号以及存储装置分别表示一个或多个机器可读存储媒体和机器可读通信媒体。因此，给定电子装置的存储装置通常存储代码和/或数据以供在该电子装置的该组一个或多个处理器上执行。当然，本发明的实施例的一个或多个部分可使用软件、固件和/或硬件的不同组合来实现。在本通篇详细描述中，为了说明的目的，阐述大量具体细节，以便提供本发明的透彻的理解。然而，对本领域的技术人员显而易见的是，本发明可在没有这些具体细节中的一部分的情况下实践，也可以实现本发明。在某些实例中，没有以详细细节描述众所周知的结构和功能，以避免模糊本发明的主题。相应地，本发明的范围和精神应当根据以下权利要求来判定。

Claims

1.一种处理器，包括：

执行单元，具有多个通道以执行指令；以及

分支单元，用于处理非结构化控制流指令，并且保持每个通道的每通道计数值，所述分支单元将所述非结构化控制流指令的指令指针标签存储在存储器中，并且使用标签地址来识别所述指令指针标签，所述分支单元还至少基于所述每通道计数值来启用和禁用所述通道。

2.如权利要求1所述的处理器，其中，所述分支单元要生成通道启用掩码，以指示是否启用所述通道的每个，所述每通道掩码基于与每个通道关联的多个每通道计数器的每个中存储的值来生成，所述每通道计数器存储每个通道的所述每通道计数值，其中在检测到特定通道没有特定条件时，所述每通道计数器要采用识别所述指令指针标签其中之一的标签地址来更新。

3.如权利要求2所述的处理器，其中，所述通道掩码包括每通道单个位，其中第一二进制值指示启用所述通道，以及第二二进制值指示禁用所述通道。

4.如权利要求3所述的处理器，其中，响应为每个通道所保持的所述每通道计数值而更新所述通道掩码位。

5.如权利要求4所述的处理器，其中，每通道计数值0指示启用所述通道，并且其中任何其它每通道计数值指示禁用所述通道。

6.如权利要求5所述的处理器，其中，所述存储器包括分类链接列表存储器结构，所述指令指针标签存储在所述存储器中。

7.如权利要求1所述的处理器，其中，每个非结构化控制流指令包括判定掩码，所述分支单元解释所述判定掩码，以确定每个通道是否采取所述非结构化控制流指令的条件。

8.如权利要求7所述的处理器，其中，如果所述判定掩码对所有通道是均匀的，则不更新所述每通道计数值，但是更新所述执行指令指针。

9.如权利要求7所述的处理器，其中，如果所述判定掩码对所有通道不是均匀的，以及如果在所述存储器中没有找到当前标签地址，则将所述当前指令指针标签插入所述存储器中。

10.如权利要求1所述的处理器，其中，所述非结构化控制流指令包括分叉指令和聚合指令。

11.如权利要求10所述的处理器，还包括：

分类链接列表存储器结构，用来存储聚合指令和/或分叉指令的指令指针。

12.如权利要求11所述的处理器，其中，所述非结构化控制流指令包括GOTO和JOIN指令。

13.一种方法，包括：

至少使用当前指令指针来生成与当前非结构化控制流指令关联的标签地址；

确定非结构化控制流指令的指令判定掩码是否对执行单元的所有通道是均匀的，所述判定掩码指示哪些通道能够处理所述非结构化控制流指令类型；以及

如果所述指令判定掩码对所有通道不是均匀的，则搜索存储器以确定其中是否存储与所述标签地址对应的所存储指令指针标签。

14.如权利要求13所述的方法，其中，如果在所述存储器中没有找到所述指令指针标签，则将与所述非结构化控制流指令关联的指令指针标签插入所述存储器中，并且保存与所述指令指针标签关联的标签地址。

15.如权利要求13所述的方法，其中，如果在所述存储器中找到所述指令指针标签，则保存与所述标签关联的标签地址。

16.如权利要求13所述的方法，还包括更新通道的每通道计数，以包括所述标签地址。

17.如权利要求13所述的方法，其中，如果所述指令判定掩码对所有通道是均匀的，则更新下一个指令指针。

18.如权利要求17所述的方法，其中，更新所述下一个指令指针包括如果所有活动通道能够处理所述非结构化控制流指令类型，则将所述下一个指令指针设置成等于当前指令指针和跳转偏移之和。

19.如权利要求17所述的方法，其中，更新所述下一个指令指针包括如果所有活动通道无法处理所述非结构化控制流指令类型，则使所述当前指令指针递增。

20.如权利要求16所述的方法，还包括：

确定是启用还是禁用每个通道，并且仅为被启用的那些通道更新所述每通道计数。

21.如权利要求20所述的方法，还包括：

确定判定值是否指示对所述控制流指令类型启用通道，并且仅为所述判定指示对该控制流指令类型没有被启用的那些通道更新所述每通道计数。

22.一种方法，包括：

将非结构化控制流指令的当前指令指针的指令指针地址与存储指令指针标签的存储器中的条目进行比较，以确定是否在所述存储器中存储了所述指令指针地址；

如果在所述存储器中存储了所述指令指针地址，则保存与所述当前指令指针关联的标签地址，并且将为执行单元的每个通道所保持的每个每通道计数与所述标签地址进行比较，以及如果所述每通道计数等于所述标签地址，则将所述每通道计数设置成指示已启用通道的第一值。

23.如权利要求22所述的方法，其中，所述第一值包括0。

24.如权利要求22所述的方法，其中，如果对所述非结构化控制流指令启用任何通道，则通过使当前指令指针递增来设置下一个指令指针。

25.如权利要求22所述的方法，其中，如果对所述非结构化控制流指令没有启用通道，则将下一个指令指针设置成等于当前指令指针与跳转偏移值相加。