CN106575240A - 促进用于计算装置上可变位长事务的动态线程安全操作 - Google Patents
促进用于计算装置上可变位长事务的动态线程安全操作 Download PDFInfo
- Publication number
- CN106575240A CN106575240A CN201480080632.1A CN201480080632A CN106575240A CN 106575240 A CN106575240 A CN 106575240A CN 201480080632 A CN201480080632 A CN 201480080632A CN 106575240 A CN106575240 A CN 106575240A
- Authority
- CN
- China
- Prior art keywords
- thread
- child
- logic
- value
- instruction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5061—Partitioning or combining of resources
- G06F9/5066—Algorithms for mapping a plurality of inter-dependent sub-tasks onto a plurality of physical CPUs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
- G06F9/5027—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2209/00—Indexing scheme relating to G06F9/00
- G06F2209/50—Indexing scheme relating to G06F9/50
- G06F2209/5017—Task decomposition
Landscapes
- Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Image Generation (AREA)
Abstract
描述了一种用于促进在计算装置的动态线程安全操作的机制。如本文所描述的实施例的一种方法包含:检测在计算装置要执行的操作,并将该操作分割成多个子操作,其中多个操作经由线程安全操作执行。该方法可进一步包含:向多线程环境中的多个处理线程指配多个子操作,并将从多个线程中获得的多个线程值聚合成最终值。
Description
优先权要求
此申请要求由Krzysztof Laskowski在2014年8月15日提交的美国临时专利申请No.62/037,851(代理人档案No.P70769Z)的优先权和利益,其内容通过引用结合于本文中。
版权通告
此专利文档的公开部分含有受到版权保护的资料。版权拥有人不反对任何人复制该专利文档或专利公开,因为它出现在专利和商标局专利文件或记录中,但否则无论如何都保留所有版权权利。
技术领域
本文描述的实施例一般涉及计算机。更具体地说,实施例涉及一种用于促进用于计算装置上可变位长事务的动态线程安全操作的机制。
背景技术
常规中央处理单元(CPU)和图形处理单元(GPU)装置被严格约束,因为它们不能够支持比具体位长更高的原子操作。此类约束例如可严格限制计算装置处的图形体验,并导致系统资源浪费和低效性能,诸如在功率、时间、代码处理、存储器和/或等方面。
附图说明
实施例在附图的图形中作为示例而非限制图示了,附图中相似的附图标记指的是类似的元素。
图1是根据实施例的数据处理系统的框图。
图2是具有一个或更多个处理器核的处理器、集成存储器控制器和集成图形处理器的实施例的框图。
图3是可以是分立图形处理单元或者可以是与多个处理核集成的图形处理器的图形处理器的一个实施例的框图。
图4是图形处理器的图形处理引擎的实施例的框图。
图5是图形处理器的另一实施例的框图。
图6图示了包含在图形处理引擎的一个实施例中采用的处理元素阵列的线程执行逻辑。
图7是图示根据实施例的图形处理器执行单元指令格式的框图。
图8是包含图形流水线、媒体流水线、显示器引擎、线程执行逻辑和渲染输出流水线的图形处理器的另一实施例的框图。
图9A是图示根据实施例的图形处理器命令格式的框图,并且图9B是图示根据实施例的图形处理器命令序列的框图。
图10图示了根据实施例的数据处理系统的示范图形软件架构。
图11图示了根据一个实施例的采用动态线程安全操作机制的计算装置。
图12图示了根据一个实施例的动态线程安全操作机制。
图13图示了根据一个实施例的用于促进线程安全操作的事务序列。
图14A图示了根据一个实施例的用于促进线程安全操作的方法。
图14B图示了根据一个实施例的用于促进线程安全操作的方法。
具体实施方式
在如下描述中,阐述了众多特定细节。然而,如本文所描述的实施例可在没有这些特定细节的情况下实行。在其它实例中,众所周知的电路、结构和技术尚未详细显示,以免模糊了对此描述的理解。
实施例提供在计算装置处在多线程环境中使用任何可用的和/或默认的位长支持来实现的线程安全操作。例如,在多线程环境中可使用默认的和/或可用的32位整数加操作,采用64位线程安全整数加操作。预见的是,实施例不限于具体位长(诸如32位)、操作大小(诸如64位)等,并且类似地,实施例可适用于任何数量和任何类型的CPU、GPU、通用GPU(GPGPU)等、语言、平台、标准和协议,诸如开放计算语言(OpenCL™)、开放图形库(OpenGL™)、DirectX™计算着色器、计算着色器等。
例如,甚至现代GPGPU可仅支持32位原子操作,同时具有在可变的较高位长上操作的需要,诸如,其中许多现代GPU装置都可具有支持64位变量的容量,但它们缺乏用于支持高于32位变量的变量的原子操作的能力。例如,并且在一个实施例中,在此类情况下,可为了更好的结果和更高的效率,开发GPGPU的64位容量,不必违反计算装置的较低限制,诸如32位限制,如将随后在此文档中进一步描述的。
概览——图1-3
图1是根据实施例的数据处理系统100的框图。数据处理系统100包含一个或多个处理器102和一个或多个图形处理器108,并且可以是单个处理器桌上型系统、多处理器工作站系统或具有大量处理器102或处理器核107的服务器系统。在一个实施例中,数据处理系统100是用在移动、手持或嵌入式装置中的片上系统(SOC)集成电路。
数据处理系统100的实施例可包含基于服务器的游戏平台或游戏控制台(包含游戏和媒体控制台、移动游戏控制台、手持游戏控制台或在线游戏控制台)或结合在其内。在一个实施例中,数据处理系统100是移动电话、智能电话、平板计算装置或移动因特网装置。数据处理系统100还可包含可穿戴装置(诸如智能手表可穿戴装置、智能眼镜装置、增强现实装置或虚拟现实装置)、与其耦合或集成在其内。在一个实施例中,数据处理系统100是具有一个或多个处理器102以及由一个或多个图形处理器108生成的图形界面的电视或机顶盒装置。
一个或多个处理器102各包含用于处理指令的一个或多个处理器核107,所述指令当执行时执行用于系统和用户软件的操作。在一个实施例中,一个或多个处理器核107中的每个都配置成处理特定指令集109。指令集109可促进复杂指令集计算(CISC)、缩减指令集计算(RISC)或经由超长指令字(VLIW)的计算。多个处理器核107各可处理不同指令集109(其可包含用于促进其它指令集仿真的指令)。处理器核107还可包含其它处理装置,诸如数字信号处理器(DSP)。
在一个实施例中,处理器102包含高速缓冲存储器104。取决于架构,处理器102可具有单个内部高速缓存或多级内部高速缓存。在一个实施例中,高速缓冲存储器在处理器102的各种组分之间共享。在一个实施例中,处理器102还使用外部高速缓存(例如3级(L3)高速缓存或末级高速缓存(LLC))(未示出),其可使用已知高速缓存一致性技术在处理器核107之间共享。寄存器文件106此外被包含在处理器102中,其可包含用于存储不同类型数据的不同类型寄存器(例如整数寄存器、浮点寄存器、状况(status)寄存器和指令指针寄存器)。一些寄存器可以是通用寄存器,而其它寄存器可以是对处理器102的设计特定的。
处理器102耦合到处理器总线110,以在处理器102与系统100中的其它组分之间传送数据信号。系统100使用示范“集线器”系统架构,包含存储器控制器集线器116和输入输出(I/O)控制器集线器130。存储器控制器集线器116促进存储器装置与系统100的其它组分之间的通信,同时I/O控制器集线器(ICH)130提供了经由本地I/O总线到I/O装置的连接。
存储器装置120可以是动态随机存取存储器(DRAM)装置、静态随机存取存储器(SRAM)装置、闪存装置或具有充当过程存储器的适合性能的某一其它存储器装置。存储器120可存储当处理器102执行过程时供使用的数据122和指令121。存储器控制器集线器116还与可选的外部图形处理器112耦合,其可与处理器102中的一个或多个图形处理器108通信以执行图形和媒体操作。
ICH 130使外围设备能够经由高速I/O总线连接到存储器120和处理器102。I/O外围设备包含音频控制器146、固件接口128、无线收发器126(例如Wi-Fi、蓝牙)、数据存储装置124(例如硬盘驱动器、闪存等)以及用于将传统(例如个人系统2(PS/2))装置耦合到系统的传统I/O控制器。一个或多个通用串行总线(USB)控制器142连接输入装置,诸如键盘和鼠标144组合。网络控制器134还可耦合到ICH 130。在一个实施例中,高性能网络控制器(未示出)耦合到处理器总线110。
图2是具有一个或多个处理器核102A-N、集成存储器控制器114和集成图形处理器208的处理器200的实施例的框图。处理器200可包含附加核(多达且包含由虚线框表示的附加核102N)。核102A-N中的每个核都包含一个或多个内部高速缓存单元104A-N。在一个实施例中,每个核还可以使用一个或多个共享高速缓存单元106。
内部高速缓存单元104A-N和共享高速缓存单元106表示处理器200内的高速缓冲存储器层级。高速缓冲存储器层级可包含每个核内的至少一级指令和数据高速缓存和一级或多级共享中级高速缓存,诸如2级(L2)、3级(L3)、4级(L4)或其它级高速缓存,其中在外部存储器前面的最高级高速缓存被分类为末级高速缓存(LLC)。在一个实施例中,高速缓存一致性逻辑保持各种高速缓存单元106与104A-N之间的一致性。
处理器200还可包含一组一个或多个总线控制器单元116和系统代理110。一个或多个总线控制器单元管理一组外围设备总线,诸如一个或多个外围组分互连总线(例如PCI、PCI Express)。系统代理110提供各种处理器组分的管理功能性。在一个实施例中,系统代理110包含一个或多个集成存储器控制器114以管理对各种外部存储器装置(未示出)的存取。
在一个实施例中,核102A-N中的一个或多个包含对于同时多线程的支持。在此类实施例中,系统代理110包含用于在多线程处理期间协调和操作核102A-N的组分。系统代理110此外可包含功率控制单元(PCU),其包含用于调节核102A-N和图形处理器208的功率状态的逻辑和组分。
处理器200此外包含用于执行图形处理操作的图形处理器208。在一个实施例中,图形处理器208与该组共享高速缓存单元106以及包含一个或多个集成存储器控制器114的系统代理单元110耦合。在一个实施例中,显示控制器211与图形处理器208耦合以驱动到一个或多个耦合显示器的图形处理器输出。显示控制器211可以是经由至少一个互连与图形处理器耦合的单独模块,或者可集成在图形处理器208或系统代理110内。
在一个实施例中,使用基于环的互连单元112耦合处理器200的内部组分,然而可使用备选互连单元,诸如点对点互连、切换的(switched)互连或其它技术,包含本领域众所周知的技术。在一个实施例中,图形处理器208经由I/O链路213与环(ring)互连112耦合。
示范I/O链路213表示I/O互连的多个种类中的至少一个,包含促进各种处理器组分与高性能嵌入式存储器模块218(诸如eDRAM模块)之间通信的封装(package)I/O互连。在一个实施例中,核102-N和图形处理器208中的每个都使用嵌入式存储器模块218作为共享末级高速缓存。
在一个实施例中,核102A-N是执行相同指令集架构的同质核。在另一实施例中,核102A-N在指令集架构(ISA)方面是异质的,其中核102A-N中的一个或多个执行第一指令集,而至少一个其它核执行第一指令集的子集或不同指令集。
处理器200可以是一个或多个衬底的一部分,或使用若干处理技术(例如互补金属氧化物半导体(CMOS)、双极结型/互补金属氧化物半导体(BiCMOS)或N型金属氧化物半导体逻辑(NMOS))中的任何技术实现在其上。此外,处理器200可实现在一个或多个芯片上或作为片上系统(SOC)集成电路(除其它组分之外还具有所图示的组分)。
图3是可以是分立图形处理单元或者可以是与多个处理核集成的图形处理器的图形处理器300的一个实施例的框图。在一个实施例中,图形处理器通过经由到图形处理器上寄存器的存储器映射的I/O接口并经由置入处理器存储器中的命令进行通信。图形处理器300包含存储器接口314以存取存储器。存储器接口314可以是到本地存储器、一个或多个内部高速缓存、一个或多个共享外部高速缓存和/或系统存储器的接口。
图形处理器300还包含显示控制器302以将显示输出数据驱动到显示装置320。显示控制器302包含用于用户界面元素或视频的多层的合成和显示器的一个或多个覆盖平面的硬件。在一个实施例中,图形处理器300包含视频编解码器引擎306以对媒体进行编码、解码或代码转换到一个或多个媒体编码格式、从一个或多个媒体编码格式进行编码、解码或代码转换或在一个或多个媒体编码格式之间进行编码、解码或代码转换,所述编码格式包含但不限于运动画面专家组(MPEG)格式(诸如MPEG-2)、高级视频译码(AVC)格式(诸如H.264/MPEG-4 AVC)以及电影与电视工程师协会(SMPTE)421M/VC-1和联合影像专家组(JPEG)格式(诸如JPEG)以及运动JPEG (MJPEG)格式。
在一个实施例中,图形处理器300包含块图像传输(BLIT)引擎304以执行二维(2D)光栅化器(rasterizer)操作,例如包含位边界块传输。然而,在一个实施例中,使用图形处理引擎(GPE)310的一个或多个组分执行2D图形操作。图形处理引擎310是用于执行图形操作(包含三维(3D)图形操作和媒体操作)的计算引擎。
GPE 310包含用于执行3D操作的3D流水线312,诸如使用对3D原语形状(例如长方形、三角形等)起作用的处理功能渲染三维图像和场景。3D流水线312包含可编程和固定功能元素,它们在元素内执行各种任务和/或产生到3D/媒体子系统315的执行线程。虽然3D流水线312可用于执行媒体操作,但GPE 310的实施例还包含具体地说用于执行诸如视频后处理和图像增强的媒体操作的媒体流水线316。
在一个实施例中,媒体流水线316包含固定功能或可编程逻辑单元以代替或代表视频编解码器引擎306执行一个或多个专用媒体操作,诸如视频解码加速、视频去交织(deinterlace)和视频编码加速。在一个实施例中,媒体流水线316此外包含线程产生单元以产生线程以便在3D/媒体子系统315上执行。产生的线程在包含在3D/媒体子系统中的一个或多个图形执行单元上执行媒体操作的计算。
3D/媒体子系统315包含用于执行由3D流水线312和媒体流水线316产生的线程的逻辑。在一个实施例中,流水线将线程执行请求发送到3D/媒体子系统315,其包含线程分派逻辑以便仲裁(arbitrate)和分派各种请求给可用的线程执行资源。执行资源包含用于处理3D和媒体线程的图形执行单元的阵列。在一个实施例中,3D/媒体子系统315包含用于线程指令和数据的一个或多个内部高速缓存。在一个实施例中,子系统还包含共享存储器(包含寄存器和可寻址存储器)以在线程之间共享数据并存储输出数据。
媒体处理-图4
图4是图形处理器的图形处理引擎410的实施例的框图。在一个实施例中,图形处理引擎(GPE)410是在图3中示出的GPE 310的版本。GPE 410包含3D流水线412和媒体流水线416,它们中的每个都可不同于或类似于图3的3D流水线312和媒体流水线316的实现。
在一个实施例中,GPE 410与命令流播器403耦合,命令流播器403向GPE 3D和媒体流水线412、416提供命令流播。命令流播器403耦合到存储器,其可以是系统存储器或内部高速缓冲存储器和共享高速缓冲存储器中的一个或多个。命令流播器403从存储器接收命令,并向3D流水线412和/或媒体流水线416发送命令。3D和媒体流水线通过经由相应流水线内的逻辑执行操作或通过向执行单元阵列414分派一个或多个执行线程来处理命令。在一个实施例中,执行单元阵列414是可缩放的,使得阵列基于GPE 410的目标功率和性能等级包含可变数量的执行单元。
采样引擎430与存储器(例如高速缓冲存储器或系统存储器)和执行单元阵列414耦合。在一个实施例中,采样引擎430提供了允许执行阵列414从存储器读取图形和媒体数据的可缩放执行单元阵列414的存储器存取机制。在一个实施例中,采样引擎430包含用于执行媒体的专用图像采样操作的逻辑。
采样引擎430中的专用媒体采样逻辑包含去噪声/去交织模块432、运动估计模块434和图像缩放和滤波模块436。去噪声/去交织模块432包含用于对解码的视频数据执行去噪声或去交织算法中的一个或多个的逻辑。去交织逻辑将交织的视频内容的交替(alternating)字段组合成单个帧视频。去交织逻辑降低或移除来自视频和图像数据中的数据噪声。在一个实施例中,去噪声逻辑和去交织逻辑是运动自适应的,并基于在视频数据中检测的运动的量使用空间或时间滤波。在一个实施例中,去噪声/去交织模块432包含专用运动检测逻辑(例如在运动估计引擎434内)。
运动估计引擎434通过对视频数据执行视频加速功能(诸如运动向量估计和预测)来提供视频操作的硬件加速。运动估计引擎确定描述在接连视频帧之间的图像数据变换的运动向量。在一个实施例中,图形处理器媒体编解码器使用视频运动估计引擎434在宏块级对视频执行操作,其否则可能使用通用处理器对执行在计算上加强。在一个实施例中,运动估计引擎434一般可用于图形处理器组分以辅助视频解码和处理功能,这些功能对视频数据内的运动的方向或幅度是敏感的或自适应的。
图像缩放和滤波模块436执行图像处理操作以增强所生成的图像和视频的视觉质量。在一个实施例中,缩放和滤波模块436在向执行单元阵列414提供数据之前的采样操作期间处理图像和视频数据。
在一个实施例中,图形处理引擎410包含数据端口444,其提供图形子系统存取存储器的附加机制。数据端口444促进对于包含渲染目标写、常量缓冲器读、临时(scratch)存储器空间读/写和媒体表面存取的操作的存储器存取。在一个实施例中,数据端口444包含高速缓冲存储器空间以对存储器高速缓存存取。高速缓冲存储器可以是单个数据高速缓存,或者对于经由数据端口存取存储器的多个子系统分成多个高速缓存(例如渲染缓冲器高速缓存、常量缓冲器高速缓存等)。在一个实施例中,在执行单元阵列414中的执行单元上执行的线程通过经由耦合图形处理引擎410的每一个子系统的数据分布互连来交换消息与数据端口通信。
执行单元——图5-7
图5是图形处理器的另一实施例的框图。在一个实施例中,图形处理器包含环互连502、流水线前端504、媒体引擎537和图形核580A-N。环互连502将图形处理器耦合到其它处理单元(包含其它图形处理器或一个或多个通用处理器核)。在一个实施例中,图形处理器是集成在多核处理系统内的许多处理器中的一个。
图形处理器经由环互连502接收批量命令。传入命令由流水线前端504中的命令流播器503解释。图形处理器包含可缩放执行逻辑以经由一个或多个图形核580A-N执行3D几何处理和媒体处理。对于3D几何处理命令,命令流播器503向几何流水线536供应命令。对于至少一些媒体处理命令,命令流播器503将命令供应给视频前端534,其与媒体引擎537耦合。媒体引擎537包含用于视频和图像后处理的视频质量引擎(VQE) 530以及用于提供硬件加速的媒体数据编码和解码的多格式编码/解码(MFX)533引擎。几何流水线536和媒体引擎537各生成用于由至少一个图形核580A提供的线程执行资源的执行线程。
图形处理器包含以模块的核580A-N(各具有多个子核550A-N、560A-N(有时称为核子切片))(有时称为核切片)为特征的可缩放线程执行资源。图形处理器可具有任何数量的图形核580A至580N。在一个实施例中,图形处理器包含至少具有第一子核550A和第二核子核560A的图形核580A。在另一实施例中,图形处理器是具有单个子核(例如550A)的低功率处理器。在一个实施例中,图形处理器包含多个图形核580A-N,各包含一组第一子核550A-N和一组第二子核560A-N。该组第一子核550A-N中的每个子核都至少包含第一组执行单元552A-N和媒体/纹理采样器554A-N。该组第二子核560A-N中的每个子核都至少包含第二组执行单元562A-N和采样器564A-N。在一个实施例中,每个子核550A-N、560A-N共享一组共享资源570A-N。在一个实施例中,共享资源包含共享高速缓冲存储器和像素操作逻辑。其它共享资源也可被包含在图形处理器的各种实施例中。
图6图示了包含在图形处理引擎的一个实施例中采用的处理元素阵列的线程执行逻辑600。在一个实施例中,线程执行逻辑600包含像素着色器602、线程分派器604、指令高速缓存606、包含多个执行单元608A-N的可缩放执行单元阵列、采样器610、数据高速缓存612和数据端口614。在一个实施例中,所包含的组分经由链接到每一个组分的互连组构互连。线程执行逻辑600包含通过指令高速缓存606、数据端口614、采样器610和执行单元阵列608A-N中的一个或多个到存储器(诸如系统存储器或高速缓冲存储器)的一个或多个连接。在一个实施例中,每个执行单元(例如608A)是能够执行多个同时线程并且对于每个线程并行处理多个数据元素的单独向量处理器。执行单元阵列608A-N包含任何数量的单独执行单元。
在一个实施例中,执行单元阵列608A-N主要用于执行“着色器”程序。在一个实施例中,阵列608A-N中的执行单元执行包含对于许多标准3D图形着色器指令的原生支持的指令集,使得用最小的转变执行来自图形库(例如Direct3D 和OpenGL)的着色器程序。执行单元支持顶点和几何处理(例如顶点程序、几何程序、顶点着色器)、像素处理(例如像素着色器、片段着色器)和通用处理(例如计算和媒体着色器)。
执行单元阵列608A-N中的每个执行单元都操作在数据元素阵列上。数据元素数量是“执行尺寸”,或者指令的通道数量。执行通道是用于数据元素存取、掩蔽和指令内流控制的执行的逻辑单元。通道数量可独立于具体图形处理器的物理ALU或FPU的数量。执行单元608 A-N支持整数和浮点数据类型。
执行单元指令集包含单指令多数据(SIMD)指令。各种数据元素可作为压缩数据类型存储在寄存器中,并且执行单元将基于元素的数据尺寸处理各种元素。例如,当操作在256位宽向量上时,向量的256位被存储在寄存器中,并且执行单元操作在向量上作为4个单独的64位压缩数据元素(四字(QW)尺寸数据元素)、8个单独的32位压缩数据元素(双字(DW)尺寸数据元素)、16个单独的16位压缩数据元素(字(W)尺寸数据元素)或32个单独的8位数据元素(字节(B)尺寸数据元素)。然而,不同的向量宽度和寄存器尺寸是可能的。
一个或多个内部指令高速缓存(例如606)被包含在线程执行逻辑600中以高速缓存执行单元的线程指令。在一个实施例中,包含一个或多个数据高速缓存(例如612)以在线程执行期间对线程数据高速缓存。包含采样器610以提供用于3D操作的纹理采样和用于媒体操作的媒体采样。在一个实施例中,采样器610包含专用纹理或媒体采样功能性,以在向执行单元提供采样数据之前的采样过程期间处理纹理或媒体数据。
在执行期间,图形和媒体流水线经由线程产生和分派逻辑向线程执行逻辑600发送线程发起请求。线程执行逻辑600包含本地线程分派器604,其仲裁来自图形和媒体流水线的线程发起请求,并在一个或多个执行单元608A-N上例示请求的线程。例如,几何流水线(例如图5的536)向线程执行逻辑600分派顶点处理、曲面细分或几何处理线程。线程分派器604还可处理来自正在执行的着色器程序的运行时间线程产生请求。
一旦一组几何对象已经被处理并且光栅化成像素数据,则调用像素着色器602以进一步计算输出信息,并使结果被写到输出表面(例如颜色缓冲器、深度缓冲器、模板缓冲器等)。在一个实施例中,像素着色器602计算要跨光栅化对象内插的各种顶点属性的值。像素着色器602然后执行API供应的像素着色器程序。为了执行像素着色器程序,像素着色器602经由线程分派器604向执行单元(例如608A)分派线程。像素着色器602使用采样器610中的纹理采样逻辑以存取存储在存储器中的纹理映射中的纹理数据。纹理数据和输入几何数据上的算术运算计算每个几何片段的像素颜色数据,或者从进一步处理中丢弃一个或多个像素。
在一个实施例中,数据端口614提供用于线程执行逻辑600将处理的数据输出到存储器以便在图形处理器输出流水线上进行处理的存储器存取机制。在一个实施例中,数据端口614包含或耦合到一个或多个高速缓冲存储器(例如数据高速缓存612)以高速缓存数据以便经由数据端口的存储器存取。
图7是图示根据实施例的图形处理器执行单元指令格式的框图。在一个实施例中,图形处理器执行单元支持具有以多种格式的指令的指令集。实线框图示了一般被包含在执行单元指令中的组分,而虚线包含可选的或者仅包含在指令子集中的组分。所图示和所描述的指令格式是宏指令,因为一旦指令被处理,它们则是供应给执行单元的指令,如与从指令解码得到的微操作相对的。
在一个实施例中,图形处理器执行单元原生(natively)支持128位格式710的指令。64位紧致(compact)指令格式730基于选择的指令、指令选项和若干操作数对于一些指令可用。原生128位格式710提供对所有指令选项的存取,而一些选项和操作被约束在64位格式730。在64位格式730中可用的原生指令按实施例变化。在一个实施例中,部分使用索引字段713中的一组索引值使指令紧致。执行单元硬件参考基于索引值的一组紧致表,并使用紧致表输出重构以128位格式710的原生指令。
对于每个格式,指令操作码712定义执行单元要执行的操作。执行单元跨每个操作数的多个数据元素并行执行每个指令。例如,响应于加指令,执行单元跨表示纹理元素或画面元素的每个颜色通道执行同时加操作。作为默认,执行单元跨操作数的所有数据通道执行每个指令。指令控制字段712实现了对某些执行选项(诸如通道选择(例如预测)和数据通道次序(例如拌和(swizzle)))的控制。对于128位指令710,执行尺寸字段716限制将并行执行的数据通道的数量。执行尺寸字段716对于在64位紧致指令格式730中的使用不可用。
一些执行单元指令具有多达3个操作数,包含2个源操作数、src0 722、src1 722和一个目的地718。在一个实施例中,执行单元支持双目的地指令,其中暗示了其中一个目的地。数据操纵指令可具有第三源操作数(例如SRC2 724),其中指令操作码JJ12确定源操作数的数量。指令的最后源操作数可以是用指令传递的立即(例如硬编码)值。
在一个实施例中,指令可基于操作码位字段进行编组以简化操作码解码740。对于8位操作码,位4、5和6允许执行单元确定操作码的类型。所示出的精确的操作码编组是示范性的。在一个实施例中,移动和逻辑操作码组742包含数据移动和逻辑指令(例如mov、cmp)。移动和逻辑组742共享5个最高有效位(MSB),其中移动指令以0000xxxxb(例如OxOx)形式,并且逻辑指令以0001xxxxb (例如0x01)形式。流控制指令组744(例如调用(call),jmp)包含以0010xxxxb (例如0x20)形式的指令。混杂(miscellaneous)指令组746包含指令的混合,包含以0011xxxxb(例如0x30)形式的同步指令(例如等待、发送)。并行数学指令组748包含以0100xxxxb(例如0x40)形式的逐个分量的算术指令(例如加、乘)。并行数学组748跨数据通道并行执行算术运算。向量数学组750包含以0101xxxxb(例如0x50)形式的算术指令(例如dp4)。向量数学组执行算术,诸如在向量操作数上的点积计算。
图形流水线——图8
图8是包含图形流水线820、媒体流水线830、显示器引擎840、线程执行逻辑850和渲染输出流水线870的图形处理器的另一实施例的框图。在一个实施例中,图形处理器是包含一个或多个通用处理核的多核处理系统内的图形处理器。图形处理器通过寄存器写到一个或多个控制寄存器(未示出)或借助于经由环互连802向图形处理器发出的命令而控制。环互连802将图形处理器耦合到其它处理组分,诸如其它图形处理器或通用处理器。来自环互连的命令由命令流播器803解释,命令流播器803将指令供应给媒体流水线830或图形流水线820的各个组分。
命令流播器803指导顶点提取器(fetcher)805组分的操作,其从存储器读顶点数据,并执行由命令流播器803提供的顶点处理命令。顶点提取器805将顶点数据提供给顶点着色器807,其执行到每个顶点的协调空间变换和照亮(lighting)操作。顶点提取器805和顶点着色器807通过经由线程分派器831向执行单元852A、852B分派执行线程来执行顶点处理指令。
在一个实施例中,执行单元852A、852B是具有用于执行图形和媒体操作的指令集的向量处理器的阵列。执行单元825A、852B具有附连的L1高速缓存851,其对于每个阵列都是特定的,并且在阵列之间共享。高速缓存可配置为数据高速缓存、指令高速缓存或被分割(partition)成在不同分区(partition)中含有数据和指令的单个高速缓存。
在一个实施例中,图形流水线820包含曲面细分组分以执行3D对象的硬件加速曲面细分。可编程外壳着色器811配置曲面细分操作。可编程域着色器817提供曲面细分输出的后端评估。曲面细分器813在外壳着色器811的方向操作,并且含有专用逻辑以基于作为图形流水线820的输入提供的粗略几何模型生成一组详细的几何对象。如果未使用曲面细分,则可旁路曲面细分组分811、813、817。
完整几何对象可由几何着色器819经由分派给执行单元852A、852B的一个或多个线程处理,或者可直接前往修剪器(clipper)829。几何着色器操作在整个几何对象上,而不是与图形流水线的先前阶段一样操作在顶点或顶点的补丁上。如果曲面细分被禁用,则几何着色器819从顶点着色器807接收输入。如果曲面细分单元被禁用,则几何着色器819由几何着色器程序可编程来执行几何曲面细分。
在光栅化之前,顶点数据由修剪器829处理,其或者是固定功能修剪器,或者是具有修剪和几何着色器功能的可编程修剪器。在一个实施例中,渲染输出流水线870中的光栅化器873分派像素着色器以将几何对象转换成它们的每像素表示。在一个实施例中,像素着色器逻辑被包含在线程执行逻辑850中。
图形引擎具有互连总线、互连组构或允许数据和消息在图形引擎的主要组分之间传递的某一其它互连机制。在一个实施例中,执行单元852A、852B和关联的高速缓存(一个或多个)851、纹理和媒体采样器854以及纹理/采样器高速缓存858经由数据端口856互连以执行存储器存取,并与图形引擎的渲染输出流水线组分通信。在一个实施例中,采样器854、高速缓存851、858和执行单元852A、852B各具有单独的存储器存取路径。
在一个实施例中,渲染输出流水线870含有光栅化器和深度测试组分873,其将基于顶点的对象转换成它们关联的基于像素的表示。在一个实施例中,光栅化器逻辑包含视窗/掩蔽器单元以执行固定功能三角形或线光栅化。在一个实施例中,关联的渲染和深度缓冲器高速缓存878、879也是可用的。像素操作组分877在数据上执行基于像素的操作,尽管在一些实例中,与2D操作关联的像素操作(例如具有混合的位块图像传输)由2D引擎841执行,或者在显示时间由显示控制器843使用覆盖显示器平面替代。在一个实施例中,共享L3高速缓存875对所有图形组分都可用,允许在不使用主要系统存储器的情况下共享数据。
图形处理器媒体流水线830包含媒体引擎337和视频前端834。在一个实施例中,视频前端834从命理流播器803接收流水线命令。然而,在一个实施例中,媒体流水线830包含单独的命令流播器。视频前端834在将命令发送到媒体引擎837之前处理媒体命令。在一个实施例中,媒体引擎包含线程产生功能性以产生经由线程分派器831分派到线程执行逻辑850的线程。
在一个实施例中,图形引擎包含显示器引擎840。在一个实施例中,显示器引擎840在图形处理器的外部,并经由环互连802或某一其它互连总线或组构与图形处理器耦合。显示器引擎840包含2D引擎841和显示控制器843。显示器引擎840含有能够独立于3D流水线操作的专用逻辑。显示控制器843与显示装置(未示出)耦合,显示装置可与膝上型计算中一样是系统集成的显示装置,或者是经由显示装置连接器附连的外部显示装置。
图形流水线820和媒体流水线830可配置成基于多个图形和媒体编程接口执行操作,并且对任一个应用编程接口(API)都不是特定的。在一个实施例中,用于图形处理器的驱动软件将对具体图形或媒体库特定的API调用翻译成可由图形处理器处理的命令。在各种实施例中,对于由Khronos组织支持的开放图形库(OpenGL)和开放计算语言(OpenGL™)、来自微软公司的Direct3D库或者在一个实施例中OpenGL和D3D两者提供支持,也可对于开放源计算机视觉库(OpenCV)提供支持。如果可进行从将来API的流水线映射到图形处理器的流水线,则也会支持具有可兼容3D流水线的将来API。
图形流水线编程——图9A-B
图9A是图示根据实施例的图形处理器命令格式的框图,并且图9B是图示根据实施例的图形处理器命令序列的框图。图9A中的实线框图示了一般被包含在图形命令中的组分,而虚线包含可选的或者仅包含在图形命令的子集中的组分。图9A的示范性图形处理器命令格式900包含数据字段以识别命令的目标客户端902、命令操作代码(操作码)904以及针对命令的相关数据906。在一些命令中还包含子操作码905和命令尺寸908。
客户端902规定处理命令数据的图形装置的客户端单元。在一个实施例中,图形处理器命令解析器检查每个命令的客户端字段,以调节命令的进一步处理,并将命令数据路由到适当客户端单元。在一个实施例中,图形处理器客户端单元包含存储器接口单元、渲染单元、2D单元、3D单元和媒体单元。每个客户端单元具有处理命令的对应处理流水线。一旦客户端单元接收到命令,客户端单元则读操作码904,如果存在的话,还有子操作码905,以确定要执行的操作。客户端单元使用命令的数据906字段中的信息执行命令。对于一些命令,期望明确命令尺寸908以规定命令的尺寸。在一个实施例中,命令解析器基于命令操作码自动确定至少一些命令的尺寸。在一个实施例中,命令经由双字的倍数对准。
图9B中的流程图示出了样本命令序列910。在一个实施例中,以图形处理器的实施例为特征的数据处理系统的软件或固件使用所示出的命令序列的版本设立、执行和终止一组图形操作。为了示范目的示出并描述了样本命令序列,然而,实施例不限于这些命令或者这个命令序列。而且,命令可作为命令序列中的成批命令发出,使得图形处理器将以至少部分同时发生的方式处理命令序列。
样本命令序列910可开始于流水线刷新命令912,以使任何活动图形流水线都完成流水线的当前未决的命令。在一个实施例中,3D流水线922和媒体流水线924不同时操作。执行流水线刷新以使活动图形流水线完成任何未决的命令。响应于流水线刷新,图形处理器的命令解析器将暂停命令处理,直到活动绘图引擎完成未决的操作,并且相关读高速缓存无效。可选地,可对存储器刷新被标记为“脏(dirty)”的渲染高速缓存中的任何数据。流水线刷新命令912可用于流水线同步或在使图形处理器置于低功率状态之前使用。
流水线选择命令913被用在命令序列要求图形处理器在流水线之间明确地切换时。流水线选择命令913在执行上下文内在发出流水线命令之前仅要求一次,除非上下文是发出用于两个流水线的命令。在一个实施例中,就在经由流水线选择命令913的流水线切换之前要求流水线刷新命令912。
流水线控制命令914配置图形流水线以便操作,并且用于对3D流水线922和媒体流水线924编程。流水线控制命令914配置活动流水线的流水线状态。在一个实施例中,流水线控制命令914用于流水线同步,并在活动流水线内在处理一批命令之前从一个或多个高速缓冲存储器中清除数据。
返回缓冲器状态命令916用于将相应流水线的一组返回缓冲器配置成写数据。一些流水线操作要求分配、选择或配置操作在处理期间将中间数据写入的一个或多个返回缓冲器。图形处理器还使用一个或多个返回缓冲器来存储输出数据,并执行交叉线程通信。返回缓冲器状态916包含选择要用于一组流水线操作的返回缓冲器的尺寸和数量。
命令序列中的剩余命令基于用于操作的活动流水线而不同。基于流水线确定920,命令序列被调整成开始于3D流水线状态930的3D流水线922,或者开始于媒体流水线状态940的媒体流水线924。
用于3D流水线状态930的命令包含用于顶点缓冲器状态、顶点元素状态、恒定颜色状态、深度缓冲器状态以及在处理3D原语命令之前配置的其它状态变量的3D状态设置命令。这些命令的值至少部分基于使用中的具体3D API而确定。3D流水线状态930命令也能够有选择地禁用或旁路某些流水线元素,如果那些元素将不使用的话。
3D原语932命令用于提交3D原语以由3D流水线处理。经由3D原语932命令传递到图形处理器的命令以及关联参数被转发到图形流水线中的顶点提取功能。顶点提取功能使用3D原语932命令数据生成顶点数据结构。顶点数据结构被存储在一个或多个返回缓冲器中。3D原语932命令用于经由顶点着色器对3D原语执行顶点操作。为了处理顶点着色器,3D流水线922将着色器执行线程分派给图形处理器执行单元。
3D流水线922经由执行934命令或事件触发。在一个实施例中,寄存器写触发命令执行。在一个实施例中,经由命令序列中的“go”或“kick”命令触发执行。在一个实施例中,使用流水线同步命令通过图形流水线刷新命令序列来触发命令执行。3D流水线将执行3D原语的几何处理。一旦操作完成,得到的几何对象被光栅化,并且像素引擎给得到的像素上色。对于那些操作还可包含控制像素着色和像素后端操作的附加命令。
当执行媒体操作时,样本命令序列910遵循媒体流水线924路径。一般而言,媒体流水线924的编程的特定使用和方式取决于要执行的媒体或计算操作。特定媒体解码操作可在媒体解码期间被卸载到媒体流水线。媒体流水线也可被旁路,并且媒体解码可使用由一个或多个通用处理核提供的资源全部或部分执行。在一个实施例中,媒体流水线还包含用于通用图形处理器单元(GPGPU)操作的元素,其中图形处理器用于使用与图形原语的渲染不明确相关的计算着色器程序执行SIMD向量操作。
媒体流水线924以与3D流水线922类似的方式配置。一组媒体流水线状态命令940被分派或置入命令队列中(在媒体对象命令942之前)。媒体流水线状态命令940包含用于配置将用于处理媒体对象的媒体流水线元素的数据。这包含用于配置媒体流水线内视频解码和视频编码逻辑(诸如编码和解码格式)的数据。媒体流水线状态命令940还支持将一个或多个指针用于“间接”状态元素,它们含有一批状态设置。
媒体对象命令942将指针供应给媒体对象以便由媒体流水线进行处理。媒体对象包含含有要处理的视频数据的存储器缓冲器。在一个实施例中,在发出媒体对象命令942之前,所有媒体流水线状态都必须是有效的。一旦配置了流水线状态并对媒体对象命令942排队了,就经由执行934命令或等效执行事件(例如寄存器写)触发媒体流水线924。来自媒体流水线924的输出然后就可通过由3D流水线922或媒体流水线924提供的操作进行后处理。在一个实施例中,GPGPU操作以与媒体操作类似的方式配置和执行。
图形软件架构——图10
图10图示了根据实施例的数据处理系统的示范图形软件架构。软件架构包含3D图形应用1010、操作系统1020和至少一个处理器1030。处理器1030包含图形处理器1032和一个或多个通用处理器核1034。图形应用1010和操作系统1020各在数据处理系统的系统存储器1050中执行。
在一个实施例中,3D图形应用1010含有包含着色器指令1012的一个或多个着色器程序。着色器语言指令可以采用高级着色器语言,诸如高级着色器语言(HLSL)或OpenGL着色器语言(GLSL)。应用还包含用适合于由通用处理器核1034执行的机器语言的可执行指令1014。应用还包含由顶点数据定义的图形对象1016。
操作系统1020可以是来自微软公司的Microsoft® Windows®操作系统、专有UNIX样操作系统或使用Linux内核的变形的开源UNIX样的操作系统。当Direct3D API在使用时,操作系统1020使用前端着色器编译器1024将HLSL中的任何着色器指令1012编译成较低级着色器语言。编译可以是及时编译,或者应用可执行共享预先编译。在一个实施例中,高级着色器在编译3D图形应用1010期间被编译成低级着色器。
用户模式图形驱动1026可含有后端着色器编译器1027以将着色器指令1012转换成硬件特定表示。当OpenGL API在使用时,用GLSL高级语言中的着色器指令1012被传递到用户模式图形驱动1026进行编译。用户模式图形驱动使用操作系统内核模式功能1028与内核模式图形驱动1029通信。内核模式图形驱动1029与图形处理器1032通信以分派命令和指令。
某种程度上,本文描述了各种操作或功能,它们可描述或者定义为硬件电路、软件代码、指令、配置和/或数据。在用于特定处理器或图形核的指令集中,内容可用硬件逻辑实施,或者实施为直接可执行软件(“对象”或“可执行”形式)、源代码、对于在图形引擎上的执行设计的高级着色器代码或者低级汇编语言代码。本文描述的实施例的软件内容可经由制品(将要内容存储在其上)或经由操作通信接口以经由通信接口发送数据的方法提供。
非暂时性机器可读存储介质可使机器执行所描述的功能或操作,并且包含存储以机器(例如计算装置、电子系统等)可存取形式的信息的任何机制,诸如可记录/不可记录媒体(例如只读存储器(ROM)、随机存取存储器(RAM)、磁盘存储媒体、光存储媒体、闪存装置等)。通信接口包含与任何硬连线、无线、光学等介质对接以与另一装置(诸如存储器总线接口、处理器总线接口、因特网连接、盘控制器等)通信的任何机制。通信接口通过提供配置参数或发送信号以准备通信接口提供描述软件内容的数据信号来提供。通信接口可经由发送到通信接口的一个或更多个命令或信号存取。
所描述的各种组分可以是用于执行所描述的操作或功能的部件。本文描述的每个部件都包含软件、硬件或这些的组合。组分可实现为软件模块、硬件模块、专用硬件(例如应用特定硬件、专用集成电路(ASIC)、数字信号处理器(DSP)等)、嵌入式控制器、硬连线电路等。除了本文所描述的内容以外,可对所公开的本发明的实施例和实现进行各种修改,而并不脱离它们的范围。因此,本文的图示和示例应该以图示性的,而非约束性意义来解释。本发明的范围应该仅参考如下权利要求进行度量。
图11图示了根据一个实施例的采用动态线程安全操作机制1110的计算装置1100。计算装置1100(例如移动计算装置)可以与图1的数据处理系统100相同,并且因而,为了理解的简洁和容易,上面参考图1-10陈述的其中许多细节此后未进一步论述或重复。计算装置1100可包含移动计算装置(例如智能电话、平板计算机、膝上型计算机、游戏控制台、便携式工作站等),充当用于托管线程安全操作机制(''线程安全机制'')1110的主机机器,其具有任何数量和类型的组分,如参考图12所图示的,以便促进动态线程安全操作,不管任何位长限制。要指出的是,在此文档通篇,像“图形域”的术语可与“图形处理单元”或简单地“GPU”互换提及,并且类似地,“CPU域”或“主机域”可与“计算机处理单元”或简单地“CPU”互换提及。
计算装置1100可包含任何数量和类型的通信装置,诸如大计算系统,诸如服务器计算机、桌上型计算机等,并且可进一步包含机顶盒(例如基于因特网的有线电视机顶盒等)、基于全球定位系统(GPS)的装置等。计算装置1100可包含充当通信装置的移动计算装置,诸如包含智能电话的蜂窝电话、个人数字助理(PDA)、平板计算机、膝上型计算机、电子阅读器、智能电视、电视平台、可穿戴装置(例如眼镜、手表、腕带、智能卡、首饰、衣物等)、媒体播放器等。例如,在一个实施例中,计算装置1100可包含移动计算装置,其采用集成电路("IC")(诸如片上系统("SoC"或"SOC")),所述集成电路将计算装置1100的各种硬件和/或软件组分集成在单个芯片上。
如所图示的,在一个实施例中,除了采用线程安全机制1110,计算装置1100可进一步包含任何数量和类型的硬件组分和/或软件组分,诸如(而非限制)CPU 1112、具有图形驱动逻辑1116的GPU 1114、存储器1108、网络装置、驱动等,以及输入/输出(I/O)源1104,诸如触摸屏、触摸面板、触摸板、虚拟或常规键盘、虚拟或常规鼠标、端口、连接器等。置计算装置1100可包含充当用户和计算装置1100的硬件和/或物理资源之间接口的操作系统(OS)1106。预见的是,CPU 1112可包含一个或更多个处理器,诸如图1的处理器(一个或多个)102,而GPU 1114可包含一个或更多个图形处理器,诸如图1的图形处理器(一个或多个)108。在一个实施例中,并且如将参考随后附图进一步描述的,线程安全机制1110可与CPU1112和/或GPU 1114的一个或更多个组分(诸如驱动逻辑1116等)通信,以促进用于促进动态线程安全操作(不管任何长度限制)的任何数量和类型的任务。
要指出,像“节点”、“计算节点”、“服务器”、“服务器装置”、“云计算机”、“云服务器”、“云服务器计算机”、“机器”、“主机机器”、“装置”、“计算装置”、“计算机”、“计算系统”等术语在此文档通篇可互换使用。要进一步指出,像“应用”、“软件应用”、“程序”、“软件程序”、“包(package)”、“软件包”等术语在此文档通篇可互换使用。还有,像“工作”、“输入”、“请求”、“消息”等术语在此文档通篇可互换使用。
可以预见的,并且如参考图1-10进一步描述的,如上面所描述的图形流水线的一些过程用软件实现,而其余过程用硬件实现。图形流水线可实现在图形协处理器设计中,其中CPU 1112设计成与GPU 1114一起工作,GPU 1114可包含在CPU 1112中或与其协同定位。在一个实施例中,GPU 1114可采用任何数量和类型的常规软件和硬件逻辑来执行与图形渲染相关的常规功能,以及采用新颖的软件和硬件逻辑来执行任何数量和类型的指令(诸如图1的指令121),以执行如此文档通篇所公开的线程安全机制1110的各种新颖功能。
如前面所提到的,存储器1108可包含包括具有对象信息的应用数据库的随机存取存储器(RAM)。存储器控制器集线器(诸如图1的存储器控制器集线器116)可存取RAM中的数据,并将它转发到GPU 1114用于图形流水线处理。RAM可包含双数据速率RAM(DDR RAM)、扩展的数据输出RAM(EDO RAM)等。CPU 1112与硬件图形流水线交互,如参考图3所图示的,以共享图形流水线功能性。
处理的数据被存储在硬件图形流水线中的缓冲器中,并且状态信息被存储在存储器1108中。得到的帧然后被传送到显示组分或装置(诸如图3的显示装置320)用于显示。预见的是,显示装置可以是各种类型(诸如阴极射线管(CRT)、薄膜晶体管(TFT)、液晶显示器(LCD)、有机发光二极管(OLED)阵列等)以向用户显示信息。
存储器1108可包括缓冲器(例如帧缓冲器)的预先分配的区域;然而,本领域技术人员应该理解,实施例不如此限制,并且对较低图形流水线可存取的任何存储器都可使用。计算装置1100可进一步包含如在图1中所提及的输入/输出(I/O)控制集线器(ICH)130、一个或更多个I/O装置等。
CPU 1112可包含执行指令的一个或更多个处理器以便执行计算系统实现的任何软件例程。指令频繁地涉及对数据执行的某种操作。数据和指令都可以存储在系统存储器1108和任何关联的高速缓存中。高速缓存通常设计成比系统存储器1108具有更短的延时时间;例如,高速缓存可被集成到与处理器(一个或多个)相同的硅芯片(一个或多个)上,和/或用较快的静态RAM(SRAM)单元构造,同时系统存储器1108可能用较慢的动态RAM(DRAM)单元构造。通过倾向于将更频繁使用的指令和数据存储在高速缓存中(如与系统存储器1108相对),计算装置1100的总体性能效率改进了。预见的是,在一些实施例中,GPU 1114可以作为CPU 1112的一部分(诸如物理CPU封装的一部分)存在,在此情况下,存储器1108可由CPU1112和GPU 1114共享,或保持分开。
可使系统存储器1108对于计算装置1100内的其它组分可用。例如,从计算装置1100的各种接口(例如键盘和鼠标、打印机端口、局域网(LAN)端口、调制解调器端口等)接收的或者从计算装置1100的内部存储元素(例如硬盘驱动器)中检索的任何数据(例如输入图形数据)在它们由一个或更多个处理器(一个或多个)在实现软件程序时被操作之前,经常被暂时排队进入系统存储器1108中。类似地,软件程序确定应该从计算装置1100通过计算系统接口之一发送到外面实体或者存储到内部存储元素中的数据在其被传送或存储之前,经常被暂时排队进入系统存储器1108中。
另外,例如,ICH(诸如图1的ICH 130)可用于确保此类数据被恰当地在系统存储器1108与其适当的对应计算系统接口(以及内部存储装置,如果计算系统如此设计的话)之间传递,并且可在它自身与观测的I/O装置之间具有双向点对点链接。类似地,MCH(诸如图1的MCH 116)可用于管理对于在可在时间上相对于彼此近似出现的CPU 1112和GPU 1114、接口和内部存储元素之间的系统存储器1108存取的各种竞争请求。
I/O资源1104可包含一个或更多个I/O装置,它们实现用于向和/或从计算装置1100(例如连网适配器)传送数据;或者用于计算装置1100内的大规模非易失性存储装置(例如硬盘驱动器)。用户输入装置,包含字母数字和其它键,可用于向GPU 1114传递信息和命令选择。另一种类型用户输入装置是光标控制,诸如鼠标、跟踪球、触摸屏、触摸板或光标方向键,以向GPU 1114传递方向信息和命令选择,并控制显示装置上的光标移动。可采用计算机装置1100的相机和麦克风阵列来观测手势、记录音频和视频并接收和传送视觉和音频命令。
计算装置1100可进一步包含网络接口(一个或多个),以提供对网络(诸如LAN、广域网(WAN)、城域网(MAN)、个域网(PAN)、蓝牙、云网络、移动网络(例如第三代(3G)等)、内联网、因特网等)的访问。网络接口(一个或多个)例如可包含具有天线的无线网络接口,天线可表示一个或更多个天线。网络接口(一个或多个)例如也可包含有线网络接口以经由网络电缆与远程装置通信,网络电缆例如可以是以太网电缆、同轴电缆、光纤电缆、串行电缆或并行电缆。
网络接口(一个或多个)例如可通过遵照IEEE 802.11b和/或IEEE 802.11g标准来提供对LAN的访问,和/或无线网络接口例如可通过遵照蓝牙标准来提供对个域网的访问。也可支持其它无线网络接口和/或协议,包含标准的先前版本和随后版本。除了经由无线LAN标准的通信之外或者作为其替代,网络接口(一个或多个)例如可使用时分多址(TDMA)协议、全球移动通信系统(GSM)协议、码分多址(CDMA)协议和/或任何其它类型的无线通信协议提供无线通信。
网络接口(一个或多个)可包含一个或更多个通信接口,诸如调制解调器、网络接口卡或其它众所周知的接口装置(诸如用于耦合到以太网、令牌环的那些)或其它类型物理有线或无线附件(用于提供例如支持LAN或WAN的通信链路的接口装置的目的)。以此方式,计算机系统还可经由常规网络基础设施(例如包含内联网或因特网)耦合到若干外围装置、客户端、控制面、控制台或者服务器。
要认识到,比上面描述的示例更少或更多配备的系统可能对于某些实现是优选的。因此,计算装置1100的配置可取决于众多因素(诸如价格限制、性能要求、技术上的改进或者其它境况)从实现到实现而变化。电子装置或计算机系统1100的示例可包含(而不限制)移动装置、个人数字助理、移动计算装置、智能电话、蜂窝电话、手机、单向寻呼机、双向寻呼机、消息传递装置、计算机、个人计算机(PC)、桌上型计算机、膝上型计算机、笔记本计算机、手持计算机、平板计算机、服务器、服务器阵列或服务器农场、万维网服务器、网络服务器、因特网服务器、工作站、迷你计算机、主框架计算机、超级计算机、网络设施、万维网设施、分布式计算系统、微处理器系统、基于处理器的系统、消费电子产品、可编程消费电子产品、电视、数字电视、机顶盒、无线接入点、基站、订户站、移动订户中心、无线电网络控制器、路由器、集线器、网关、桥、交换机、机器或它们的组合。
实施例可实现为如下任一项或其组合:使用母板互连的一个或更多个微芯片或集成电路、硬连线逻辑、由存储器装置存储并由微处理器执行的软件、固件、专用集成电路(ASIC)和/或现场可编程门阵列(FPGA)。术语“逻辑”作为示例可包含软件或硬件和/或软件和硬件的组合。
实施例例如可作为计算机程序产品提供,其可包含一个或更多个机器可读媒体(其上存储了机器可执行指令),所述指令当由一个或更多个机器诸如计算机、计算机网络或其它电子装置执行时可导致一个或更多个机器执行按照本文描述的实施例的操作。机器可读介质可包含但不限于软盘、光盘、CD-ROM(光盘只读存储器)和磁光盘、ROM、RAM、EPROM(可擦除可编程只读存储器)、EEPROM(电可擦除可编程只读存储器)、磁卡或光卡、闪存或者适合于存储机器可执行指令的其它类型媒体/机器可读介质。
此外,实施例可作为计算机程序产品下载,其中程序可通过包含在载波或其它传播介质中的和/或由其调制的一个或更多个数据信号,经由通信链路(例如调制解调器和/或网络连接)从远程计算机(例如服务器)传输到请求计算机(例如客户端)。
图12图示了根据一个实施例的动态线程安全操作机制1110。在一个实施例中,线程安全机制1110可包含任何数量和类型的组分,以执行与促进在计算装置(诸如图11的计算装置1100)的图形图像的基于图形域的动态、有效且准确渲染相关的各种任务。例如,并且在一个实施例中,线程安全机制1110可包含(但不限于):检测和接收逻辑1201;评估和划分逻辑1203;线程指配和处理逻辑1205;线程值聚合逻辑1207;以及通信/兼容性逻辑1209。
进一步图示的,并且如参考图11前面提到的,在一个实施例中,线程安全机制1110可独立于CPU和/或GPU(诸如图11的计算装置1100的CPU 1112和/或GPU 1114)和/或与之通信,或者在一些实施例中,线程安全机制1110可托管在CPU和/或GPU的一个或更多个组分(诸如图11的计算装置1110的GPU 1114的驱动逻辑1116)。预见的并且要指出的是,关于操作、子操作、线程安全操作、原子操作等,像“处理”、“执行”和“运行”以及任何它们的其它形式(诸如“处理”、“执行”和“运行”)等术语在此文档通篇可互换提及。
如前面所提到的,各种系统处理器(例如CPU、GPU、GPGPU等)可拥有或提供较高的总体处理容量;然而,它们可由于它们的原生支持的较低容量变量而严格限制在它们的处理能力上。例如,现代GPGPU可支持用于处理的64位变量;然而,可能由于束缚于其原生支持的32位原子操作而严格限制在其处理能力上。这类限制可导致在可保持用户不可访问(inaccessible)的各种硬件和软件特征方面并且进一步在系统资源(诸如代码处理(例如处理线程的串行使用或串联使用等)、功率、时间、存储器等等)浪费方面的严格系统约束。
在一个实施例中,线程安全机制1110提供了线程安全操作,这些操作是动态的、灵活的并且成本有效的,以允许处理线程的并行使用,如参考图13所图示的,使得操作可能不必原子地(atomically)处理,并且而是,它在线程安全环境中处理,该环境充分使用处理或计算线程的并行处理能力,不必须对系统(诸如图11的计算装置1100)的任何组分进行任何硬件或显著的软件改变。另外,在一个实施例中,为了确保最终结果是正确的,在它们的对应线程上正处理的各种值可以被有效且准确地聚合。
在继续线程安全机制1110的进一步论述之前,预见并且要指出,实施例不限于任何具体数量或类型的计算装置或它们的组分,诸如CPU、GPU、GPGPU、操作系统、系统存储器、执行单元、处理线程等。类似地,实施例不限于任何具体位长的处理容量、位长变量等的计算装置,并且实施例完全能够与任何处理容量和位长(诸如32位变量、64位、96位、128位、512位、1024位等)的任何计算装置一起使用并且并且适用于其。另外,实施例不限于具体类型的操作,诸如加操作,并且一个或更多个实施例可与任何数量和类型的其它操作一起使用,诸如读-修改-写(RMW)操作、存储-和-加载操作等。
预见的是,当原子操作被发起时,它被视为不可划分的,其参与单个线程以处理该操作,而多线程环境中的其它线程只是将它视为发生,但不能够访问处理线程和/或通过原子操作正在处理的任何内容。尽管原子操作可被视为好于各种其它选项(诸如锁),但每个原子操作都是单个不可划分的操作,其在单个线程上执行,导致线程的串行使用,使其它线程等待或暂停,直到该操作完成,这又无法利用多线程环境并将处理能力限制到原生支持的变量。
在一个实施例中,检测和接收逻辑1201可用于检测或接收有关要被发起的并在多线程环境下在执行单元使用各种处理线程执行的操作的信息。在一个实施例中,在由检测和接收逻辑1201检测到该操作时,该操作连同任何相关数据可被转发到评估和划分逻辑1203上。在一个实施例中,评估和划分逻辑1203可评估该操作,并确定是否将该操作划分或分割成子操作,以由多线程处理或者简单地在单个操作中处理它。
例如,在一些实施例中,当线程安全操作在多线程环境中使用线程安全机制1110处理时,可实施预定判据来确定和判定是否每个操作都能够被分割和处理。例如,评估和划分逻辑1203可引入并施加基于资源使用的阈值,来确定是否从发起直到完成都可使用具体操作的资源(例如线程、时间、功率等)的量。如果操作被确定成是可接受的次要操作,则它可通过单个可划分过程在单个线程处理。
然而,如果操作被确定成是合理的主要操作,则评估和划分逻辑1203可像这样评估操作,并且选择要通过可划分线程安全操作处理的操作。类似地,其它阈值,诸如资源可用性、资源的延迟撤回等,诸如由运行在计算装置的其它应用使用的线程等,也可被评估和划分逻辑1203考虑进去。例如,在64位容量系统(其被约束到32位操作)中,此操作可作为如由线程安全机制1110所促进的多线程上的线程安全操作那样处理,以充分利用计算装置的64位容量,同时对其32位限制保持真。
在一个实施例中,如果该操作被评估和划分逻辑1203选择成作为线程安全操作处理,则该操作然后可被评估和划分逻辑1203分割成较小操作(也称为“子操作”),使得可以在计算装置(诸如图11的计算装置1100)的多线程环境中在与多个执行单元关联的多个线程同时且并行处理(也称为“执行”或“运行”)子操作。在一个实施例中,在由评估和划分逻辑1203将操作划分成多个小子操作时,这些划分的子操作然后可被转发到线程指配和处理逻辑1205上用于进一步处理。
在一个实施例中,线程指配和处理逻辑1205可用于向子操作指配线程,以便作为线程安全操作进一步处理。例如,每个子操作都可在多线程的对应线程处处理并由其处理,使得所有子操作都由它们的对应线程作为线程安全操作同时且并行执行,如在图13中所进一步图示的。换言之,代替常规上使单线程参与执行单个未划分的操作,同时拒绝访问正在进行的操作的内容,如通常是相对于原子操作所进行的;在一个实施例中,前面提到的操作被划分成任何数量的较小子操作,它们然后在多线程环境中使用由各种线程提供的资源,透明、同时且并行处理。
另外,在一个实施例中,在线程处理每个子操作可生成线程值,线程值可被视为对应子操作的线程结果以及作为线程安全加操作执行的整个操作的最终值或结果的一部分。例如,在一个实施例中,在完成在它们的对应多个线程处理子操作时,线程值聚合逻辑1207然后可用于首先获得并且然后聚合来自与子操作处理关联的多个线程的多个线程值,以得到聚合的值,该值可被视为从操作的处理获得的最终聚合的值/结果。
例如,在计算装置的软件应用可使用64位变量作为聚合器,如由线程值聚合逻辑1207所促进的,以便准确地聚合当在计算装置处在多线程环境中同时执行对应的多个子操作时由多个线程产生的并从多个线程获得的线程值。
在一个实施例中,如参考图14A进一步描述的,使用线程安全机制1110,线程安全操作可按如下执行:
在一些实施例中,可以以访问每一个X位组分的方式,通过表示期望位长的整数值的结构的使用,实现线程安全操作,使得线程安全机制1110可假定并利用对于X位操作(例如加操作)的原生支持,其中X可以是32、64等,如在上面的伪代码中所显示的。
通信/兼容性逻辑1209可用于促进一个或更多个计算装置(诸如图11的计算装置1100)和任何数量及类型的其它计算装置(诸如移动计算装置、桌上型计算机、服务器计算装置等)、处理装置(诸如中央处理单元(CPU)、图形处理单元(GPU)等)、图像捕获装置(诸如相机)、显示元素(诸如显示组分、显示装置、显示屏等)、用户/上下文感知组分和/或识别/验证传感器/装置(诸如生物传感器/检测器、扫描仪等)、存储器或存储装置、数据库和/或数据源(诸如数据存储装置、硬驱、固态驱动器、硬盘、存储卡或装置、存储器电路等)、网络(例如云网络、因特网、内联网、蜂窝网络、接近网络诸如蓝牙、蓝牙低能(BLE)、蓝牙智能、Wi-Fi接近、射频识别(RFID)、近场通信(NFC)、体域网(BAN)等)、无线或有线通信以及相关协议(例如Wi-Fi®、WiMAX、以太网等)、连接性和位置管理技术、软件应用/网站(例如社交和/或商业连网网站、商业应用、游戏以及其它娱乐应用等)、编程语言等之间的动态通信和兼容性,同时确保与改变的技术、参数、协议、标准等的兼容性。
在此文档通篇,像“逻辑”、“组分”、“模块”、“框架”、“引擎”等术语可互换提及,并且作为示例包含软件、硬件和/或软件和硬件的任何组合,诸如固件。此外,具体品牌、词、术语、短语、名称和/或缩写诸如“GPU”、“CPU”、“GPGPU”、“原子操作”、“线程安全”或“线程安全操作”、“线程”或“多线程环境”、“位长”、“位长变量”、“32位”、“64位”、“96位”、“128位”、“256位”、“溢出检测”、“向前进位”、“N”、“原子操作”、“聚合”、“缓冲器”、“1D”、“2D”、“3D”、“服务器计算机”、“移动计算装置”等的任何使用都不应该被读成将实施例局限于在产品中或在此文档外部的文献中携带该标签的软件或装置。
预见的是,任何数量和类型的组分都可被添加到线程安全机制1110,和/或从其中移除,以促进各种实施例,包含添加、移除和/或增强某些特征。为了简洁、清楚和容易理解线程安全机制1110,其中许多标准和/或已知组分(诸如计算装置的那些组分)在此未显示或论述。预见的是,如本文所描述的实施例不限于任何具体技术、拓扑、系统、架构和/或标准,并且足够动态以采纳和适应于任何将来改变。
图13图示了根据一个实施例的用于促进线程安全操作的事务序列1300。事务序列1300可由处理逻辑执行,处理逻辑可包括硬件(例如电路、专用逻辑、可编程逻辑等)、软件(诸如在处理装置上运行的指令)或它们的组合。在一个实施例中,事务序列1300可由图11-12的线程安全机制1110执行。事务序列1300的过程为了呈现时的简洁和清楚起见按线性顺序图示;然而,预见的是,任何数量的它们可并行、异步或按不同次序执行。为了简洁起见,参考前面附图1-12论述的许多细节可以不在后文论述或重复。
在所图示的实施例中,线程分派单元可在多线程环境中,跨任何数量的执行单元,同时分派或起动若干计算或处理线程1303A- 1303N,以便处理对应于线程安全操作的多个子操作,其中最初Addend=0 1301。在一个实施例中,如所图示的,每个线程0-N 1303A-1303N可用于处理如参考图12所描述的分割操作的子操作。例如,线程0 1303 A被显示成处理线程安全加操作(例如ThreadSafeAdd(Addend, Val0)等),其中Val0表示从对应子操作的处理中获得的结果。类似地,线程1 1303B、2 1303C和N 1303N也被显示为处理它们的对应子操作,产生从它们的相应过程中获得的线程值Val1、Val2和ValN。
在一个实施例中,对应于子操作并与各种线程0-N 1303A- 1303N关联的这些线程值Val0-ValN然后可被聚合(如由图12的线程值聚合逻辑1207所促进的)成单个聚合值(其表示最终结果),诸如Addend=Val0+Val1+Val2...+ValN,如从线程安全操作的总处理中得到的。
图14A图示了根据一个实施例的用于促进线程安全操作的方法1400。方法1400可由处理逻辑执行,处理逻辑可包括硬件(例如电路、专用逻辑、可编程逻辑等)、软件(诸如在处理装置上运行的指令)或它们的组合。在一个实施例中,方法1400可由图11-13的线程安全机制1110执行。方法1400的过程为了呈现时的简洁和清楚起见按线性顺序图示;然而,预见的是,任何数量的它们可并行、异步或按不同次序执行。为了简洁起见,参考前述图1-13而论述的许多细节在下文可以不论述或重复。
在图示的实施例中,提供了方法1400及其对应数据结构,以允许对如之前相对于图12的伪代码所定义的任何位长的数量的线程安全加操作。例如,BIG_INT类型可被定义为一组N个组分,每个X位长。例如,关于线程安全加操作,线程安全加函数(例如ThreadSafeAdd)可在框1401发起,并用两个变元定义:指向addend变量和value变量的指针,二者的类型都是BIG-INT。如关于图13所图示的,该value可被加到addend上,并且结果可被存储回addend中。
关于方法1400,首先,在框1403,在下一迭代中可使用的carry变量被设置成0。然后,在框1405,启动N个迭代环,以处理两个BIG__INT变量的所有组分。在框1405,进行确定关于是否I<N。如果否,则方法1400结束于框1423,并且如果是,则方法1400继续到框1407。方法1400可通过初始化组分索引i到0而通过两个变量的最低有效X位开始,其中在框1407,carry被加到当前value组分上,并且然后在框1409,X位atomic_add被用于value和addend的组分,并且结果被存储回当前addend组分中,并且在框1411,carry被设置回0。
在一些实施例中,如果操作结果可能不适合X位,并且因而,在框1413检测到溢出,或者在框1417检测到下溢,则可分别在框1415和框1419,将1或-1存储在carry变量中。可通过使用由原子加(例如AtomicAddX)操作返回的旧值,检测任何溢出或下溢。然后,在框1421,组分索引“i”可被递增,并且方法1400可对于两个变量的下一X位组分继续。在一个实施例中,方法1400可继续在框1405重复,直到所有X位组分都被处理,并且结果可在addend变量中可用。
如前面提到的,方法1400提供了线程安全操作,其在多线程应用中用于将值有效聚合成任何位长的结果,即便计算装置不原生支持此类位长的原子加操作。
图14B图示了根据一个实施例的用于促进线程安全操作的方法1450。方法1450可由处理逻辑执行,处理逻辑可包括硬件(例如电路、专用逻辑、可编程逻辑等)、软件(诸如在处理装置上运行的指令)或它们的组合。在一个实施例中,方法1450可由图11-12的线程安全机制1110执行。方法1450的过程为了呈现的简洁和清楚起见按线性顺序图示;然而,预见的是,任何数量的它们可并行、异步或按不同次序执行。为了简洁起见,参考前述图1-14A而论述的许多细节在下文可以不论述或重复。
方法1450在框1451通过检测在计算装置要执行的操作(如通过图12的检测和接收逻辑1201所促进的)而开始。在框1453,在一个实施例中,操作可由评估和划分逻辑1203评估关于操作是否可作为线程安全操作执行,并且在框1455,在完成评估时,评估和划分逻辑1203然后可将操作分割成多个子操作,使得操作可作为线程安全操作执行。
在框1457,在一个实施例中,可分派多线程环境中的多个线程来处理子操作,然后在框1459,所述子操作在多个线程执行,如由图12的线程指配和处理逻辑1205所促进的。在框1461,当在线程处理子操作时,可从每一个线程获得对应的线程值,其中每个线程值被视为与在对应线程处理对应子操作关联的结果,如由图12的线程值聚合逻辑1207所促进的。在一个实施例中,在框1463,如由线程值聚合逻辑1207所促进的,从线程获得的线程值然后可被加在一起,或者聚合成聚合的最终值,其表示作为线程安全操作执行的操作的最终结果。方法1450结束于框1465。
对“一个实施例”、“实施例”、“示例实施例”、“各种实施例”等的提及指示,如此描述的实施例(一个或多个)可包含具体特征、结构或特性,但不是每一个实施例都有必要包含具体特征、结构或特性。另外,一些实施例可具有对于其它实施例描述的一些特征、所有特征,或没有这些特征。
在前述说明书中,已经参考其特定示范实施例描述了实施例。然而,将显然的是,在不脱离如所附权利要求中所阐述的实施例的更广泛的精神和范围的情况下,可对其进行各种修改和改变。说明书和附图因而被视为图示性的,而非限制性意义。
在如下说明书和权利要求书中,可使用术语“耦合”连同其派生词。“耦合”用于指示两个或更多元素彼此协同操作或彼此交互,但它们之间可以具有或可以不具有中间物理或电气组分。
如在权利要求书中使用的,除非另有规定,否则使用序数形容词“第一”、 “第二”、“第三”等来描述普通元素,只是指示相同元素的不同实例被提及,并不打算暗示如此描述的元素必须按给定顺序,或者在时间上、空间上排序,或者以任何其它方式。
如下语句和/或示例涉及另外实施例或示例。示例中的特定细节可用在一个或更多个实施例中的任何地方。不同实施例或示例的各种特征可以以各种方式与所包含的一些特征和所排除的其它特征组合,以适合各种不同的应用。示例可包含根据本文描述的实施例和示例的主题:诸如方法、用于执行方法动作的部件、包含指令的至少一个机器可读介质,所述指定当由机器执行时使机器执行意义促进混合通信的方法的动作的或者设备或系统的动作。
一些实施例涉及示例1,其包含用于促进在计算装置的动态线程安全操作的设备,所述设备包括:检测和接收逻辑,用以检测在计算装置要执行的操作;评估和划分逻辑,用以将所述操作分割成多个子操作,其中所述多个子操作经由线程安全操作执行;线程指配和处理逻辑,用以向多线程环境中的多个处理线程指配所述多个子操作;以及线程值聚合逻辑,用以将从所述多个线程获得的多个线程值聚合成最终值。
示例2包含示例1的主题,其中所述线程指配和处理逻辑进一步在与所述多线程环境的多个执行单元关联的所述多个线程同时且并行执行所述多个子操作。
示例3包含示例1或2的主题,其中所述线程值聚合逻辑进一步从所述多个线程获得与所述多个子操作关联的所述多个线程值,其中每个线程值包含与在对应线程执行的子操作关联的线程结果。
示例4包含示例1的主题,其中所述最终值包括包含与在所述多个线程执行的所述多个子操作关联的所述多个线程值的聚合的聚合的结果。
示例5包含示例1的主题,其中所述评估和划分逻辑进一步在将所述操作分割成所述多个子操作之前评估所述操作,其中所述评估基于包含预先定义的阈值的预定判据执行。
示例6包含示例1或5的主题,其中所述评估和划分逻辑进一步基于所述预先定义的阈值确定与所述操作关联的资源的潜在消耗,其中所述预先定义的阈值表示资源消耗的可接受级别。
示例7包含示例6的主题,其中如果与所述操作关联的资源的所述潜在消耗低于或等于所述可接受级别,则所述操作经由原子操作执行。
示例8包含示例7的主题,其中如果与所述操作关联的资源的所述潜在消耗高于所述可接受级别,则所述操作经由所述线程安全操作执行,其中所述操作包括加操作。
一些实施例涉及示例9,其包含用于促进在计算装置的动态线程安全操作的方法,所述方法包括:检测在计算装置要执行的操作;将所述操作分割成多个子操作,其中所述多个子操作经由线程安全操作执行;向多线程环境中的多个处理线程指配所述多个子操作;以及将从所述多个线程获得的多个线程值聚合成最终值。
示例10包含示例9的主题,进一步包括:在与所述多线程环境的多个执行单元关联的所述多个线程同时且并行执行所述多个子操作。
示例11包含示例9的主题,进一步包括:从所述多个线程获得与所述多个子操作关联的所述多个线程值,其中每个线程值包含与在对应线程执行的子操作关联的线程结果。
示例12包含示例9的主题,其中所述最终值包括包含与在所述多个线程执行的所述多个子操作关联的所述多个线程值的聚合的聚合的结果。
示例13包含示例9的主题,进一步包括:在将所述操作分割成所述多个子操作之前评估所述操作,其中所述评估基于包含预先定义的阈值的预定判据执行。
示例14包含示例13的主题,进一步包括:基于所述预先定义的阈值确定与所述操作关联的资源的潜在消耗,其中所述预先定义的阈值表示资源消耗的可接受级别。
示例15包含示例14的主题,其中如果与所述操作关联的资源的所述潜在消耗低于或等于所述可接受级别,则所述操作经由原子操作执行。
示例16包含示例15的主题, 其中如果与所述操作关联的资源的所述潜在消耗高于所述可接受级别,则所述操作经由所述线程安全操作执行,其中所述操作包括加操作。
示例17包含至少一个机器可读介质,其包括多个指令,所述指令当在计算装置上执行时,实现或执行如上述任一权利要求所述的方法,或实现如上述任一权利要求所述的设备。
示例18包含至少一个非暂时性或有形机器可读介质,其包括多个指令,所述指令当在计算装置上执行时,实现或执行如上述任一权利要求所述的方法,或实现如上述任一权利要求所述的设备。
示例19包含一种系统,其包括实现或执行如上述任一权利要求所述的方法或实现如上述任一权利要求所述的设备的机制。
示例20包含一种设备,其包括执行如上述任一权利要求所述的方法的部件。
示例21包含:一种计算装置,布置成实现或执行如上述任一权利要求所述的方法或实现如上述任一权利要求所述的设备。
示例22包含:一种通信装置,布置成实现或执行如上述任一权利要求所述的方法或实现如上述任一权利要求所述的设备。
涉及示例23的一些实施例包含一种系统,所述系统包括:具有指令的存储装置;以及处理器,用以执行所述指令以促进执行一个或更多个操作的机制,所述操作包括:检测在计算装置要执行的操作;将所述操作分割成多个子操作,其中所述多个子操作经由线程安全操作执行;向多线程环境中的多个处理线程指配所述多个子操作;以及将从所述多个线程获得的多个线程值聚合成最终值。
示例24包含示例23的主题,其中一个或更多个操作进一步包括:在与多线程环境的多个执行单元关联的多个线程同时且并行执行多个子操作。
示例25包含示例23的主题,其中一个或更多个操作进一步包括:从所述多个线程获得与所述多个子操作关联的所述多个线程值,其中每个线程值包含与在对应线程执行的子操作关联的线程结果。
示例26包含示例23的主题,其中所述最终值包括包含与在所述多个线程执行的所述多个子操作关联的所述多个线程值的聚合的聚合的结果。
示例27包含示例23的主题,其中一个或更多个操作进一步包括:在将所述操作分割成所述多个子操作之前评估所述操作,其中所述评估基于包含预先定义的阈值的预定判据执行。
示例28包含示例27的主题,其中一个或更多个操作进一步包括:基于所述预先定义的阈值确定与所述操作关联的资源的潜在消耗,其中所述预先定义的阈值表示资源消耗的可接受级别。
示例29包含示例28的主题,其中如果与所述操作关联的资源的所述潜在消耗低于或等于所述可接受级别,则所述操作经由原子操作执行。
示例30包含示例29的主题,其中如果与所述操作关联的资源的所述潜在消耗高于所述可接受级别,则所述操作经由所述线程安全操作执行,其中所述操作包括加操作。
涉及示例31的一些实施例包含一种设备,所述设备包括:用于检测在计算装置要执行的操作的部件;用于将所述操作分割成多个子操作的部件,其中所述多个子操作经由线程安全操作执行;用于向多线程环境中的多个处理线程指配所述多个子操作的部件;以及用于将从所述多个线程获得的多个线程值聚合成最终值的部件。
示例32包含示例31的主题,进一步包括:用于在与所述多线程环境的多个执行单元关联的所述多个线程同时且并行执行所述多个子操作的部件。
示例33包含示例31的主题,进一步包括:用于从所述多个线程获得与所述多个子操作关联的所述多个线程值的部件,其中每个线程值包含与在对应线程执行的子操作关联的线程结果。
示例34包含示例31的主题,其中所述最终值包括包含与在所述多个线程执行的所述多个子操作关联的所述多个线程值的聚合的聚合的结果。
示例35包含示例31的主题,进一步包括:用于在将所述操作分割成所述多个子操作之前评估所述操作的部件,其中所述评估基于包含预先定义的阈值的预定判据执行。
示例36包含示例35的主题,进一步包括:用于基于所述预先定义的阈值确定与所述操作关联的资源的潜在消耗的部件,其中所述预先定义的阈值表示资源消耗的可接受级别。
示例37包含示例36的主题,其中如果与所述操作关联的资源的所述潜在消耗低于或等于所述可接受级别,则所述操作经由原子操作执行。
示例38包含示例37的主题,其中如果与所述操作关联的资源的所述潜在消耗高于所述可接受级别,则所述操作经由所述线程安全操作执行,其中所述操作包括加操作。
附图和前面的描述给出了实施例的示例。本领域技术人员将认识到,所描述元素的一个或更多个可很好地组合到单个功能元素中。备选地,某些元素可以被分成多个功能元素。来自一个实施例的元素可被添加到另一个实施例。例如,本文描述的过程的次序可以改变,并不限于本文描述的方式。而且,任何流程图中的动作都不必按显示的次序实现;也不一定所有动作都需要执行。而且,不依赖于其它动作的那些动作可以与其它动作并行执行。实施例的范围决不受这些特定示例限制。不管在说明书中是否明确给出,诸如在结构、尺寸和材料使用上的差异的众多变化都是有可能的。实施例的范围至少与如下权利要求书给出的范围一样宽。
Claims (21)
1.一种促进在计算装置的动态线程安全操作的设备,包括:
检测和接收逻辑,用以检测在计算装置要执行的操作;
评估和划分逻辑,用以将所述操作分割成多个子操作,其中所述多个子操作经由线程安全操作执行;
线程指配和处理逻辑,用以向多线程环境中的多个处理线程指配所述多个子操作;以及
线程值聚合逻辑,用以将从所述多个线程获得的多个线程值聚合成最终值。
2.如权利要求1所述的设备,其中所述线程指配和处理逻辑进一步在与所述多线程环境的多个执行单元关联的所述多个线程同时且并行执行所述多个子操作。
3.如权利要求1或2所述的设备,其中所述线程值聚合逻辑进一步从所述多个线程获得与所述多个子操作关联的所述多个线程值,其中每个线程值包含与在对应线程执行的子操作关联的线程结果。
4.如权利要求1所述的设备,其中所述最终值包括包含与在所述多个线程执行的所述多个子操作关联的所述多个线程值的聚合的聚合的结果。
5.如权利要求1所述的设备,其中所述评估和划分逻辑进一步在将所述操作分割成所述多个子操作之前评估所述操作,其中所述评估基于包含预先定义的阈值的预定判据执行。
6.如权利要求1或5所述的设备,其中所述评估和划分逻辑进一步基于所述预先定义的阈值确定与所述操作关联的资源的潜在消耗,其中所述预先定义的阈值表示资源消耗的可接受级别。
7.如权利要求6所述的设备,其中如果与所述操作关联的资源的所述潜在消耗低于或等于所述可接受级别,则所述操作经由原子操作执行。
8.如权利要求7所述的设备,其中如果与所述操作关联的资源的所述潜在消耗高于所述可接受级别,则所述操作经由所述线程安全操作执行,其中所述操作包括加操作。
9.一种用于促进在计算装置的动态线程安全操作的方法,包括:
检测在计算装置要执行的操作;
将所述操作分割成多个子操作,其中所述多个子操作经由线程安全操作执行;
向多线程环境中的多个处理线程指配所述多个子操作;以及
将从所述多个线程获得的多个线程值聚合成最终值。
10.如权利要求9所述的方法,进一步包括:在与所述多线程环境的多个执行单元关联的所述多个线程同时且并行执行所述多个子操作。
11.如权利要求9所述的方法,进一步包括:从所述多个线程获得与所述多个子操作关联的所述多个线程值,其中每个线程值包含与在对应线程执行的子操作关联的线程结果。
12.如权利要求9所述的方法,其中所述最终值包括包含与在所述多个线程执行的所述多个子操作关联的所述多个线程值的聚合的聚合的结果。
13.如权利要求9所述的方法,进一步包括:在将所述操作分割成所述多个子操作之前评估所述操作,其中所述评估基于包含预先定义的阈值的预定判据执行。
14.如权利要求13所述的方法,进一步包括:基于所述预先定义的阈值确定与所述操作关联的资源的潜在消耗,其中所述预先定义的阈值表示资源消耗的可接受级别。
15.如权利要求14所述的方法,其中如果与所述操作关联的资源的所述潜在消耗低于或等于所述可接受级别,则所述操作经由原子操所述执行。
16.如权利要求15所述的方法,其中如果与所述操作关联的资源的所述潜在消耗高于所述可接受级别,则所述操作经由所述线程安全操作执行,其中所述操作包括加操作。
17.至少一个机器可读介质,包括多个指令,所述指令当在计算装置上执行时,实现或执行如权利要求9-16中任一项所述的方法。
18.一种系统,包括实现或执行如权利要求9-16中任一项所述的方法的机制。
19.一种设备,包括用于执行如权利要求9-16中任一项所述的方法的部件。
20.一种计算装置,布置成实现或执行如权利要求9-16中任一项所述的方法。
21.一种通信装置,布置成实现或执行如权利要求9-16中任一项所述的方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201462037851P | 2014-08-15 | 2014-08-15 | |
US62/037,851 | 2014-08-15 | ||
PCT/PL2014/000160 WO2016024874A1 (en) | 2014-08-15 | 2014-12-23 | Facilitating dynamic thread-safe operations for variable bit-length transactions on computing devices |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106575240A true CN106575240A (zh) | 2017-04-19 |
Family
ID=52440791
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201480080632.1A Pending CN106575240A (zh) | 2014-08-15 | 2014-12-23 | 促进用于计算装置上可变位长事务的动态线程安全操作 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20170212791A1 (zh) |
EP (1) | EP3180691A1 (zh) |
CN (1) | CN106575240A (zh) |
WO (1) | WO2016024874A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107147637A (zh) * | 2017-05-05 | 2017-09-08 | 腾讯科技(深圳)有限公司 | 一种任务执行请求处理方法、装置和计算机存储介质 |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3123796A4 (en) * | 2014-09-26 | 2017-12-06 | Hewlett-Packard Enterprise Development LP | Computing nodes |
EP3065051A1 (en) * | 2015-03-05 | 2016-09-07 | Ingo Josopait | Flow control for language-embedded programming in general-purpose computing on graphics processing units |
US10447588B1 (en) * | 2017-06-28 | 2019-10-15 | Rockwell Collins, Inc. | Decentralized integrated modular avionics (IMA) processing |
US11900156B2 (en) * | 2019-09-24 | 2024-02-13 | Speedata Ltd. | Inter-thread communication in multi-threaded reconfigurable coarse-grain arrays |
US11127107B2 (en) * | 2019-09-30 | 2021-09-21 | Intel Corporation | Apparatus and method for real time graphics processing using local and cloud-based graphics processing resources |
US11574196B2 (en) | 2019-10-08 | 2023-02-07 | International Business Machines Corporation | Dynamic management of weight update bit length |
US20220342673A1 (en) * | 2021-04-23 | 2022-10-27 | Nvidia Corporation | Techniques for parallel execution |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070233805A1 (en) * | 2006-04-02 | 2007-10-04 | Mentor Graphics Corp. | Distribution of parallel operations |
CN101055532A (zh) * | 2006-04-13 | 2007-10-17 | 国际商业机器公司 | 对并行计算机执行全局收集操作的方法及其并行计算机 |
CN102043673A (zh) * | 2009-10-21 | 2011-05-04 | Sap股份公司 | 并行处理期间资源分配的校准 |
CN103067468A (zh) * | 2012-12-22 | 2013-04-24 | 深圳先进技术研究院 | 云调度方法及其系统 |
CN103077006A (zh) * | 2012-12-27 | 2013-05-01 | 浙江工业大学 | 一种基于多线程的长事务并行执行方法 |
US8751211B2 (en) * | 2008-03-27 | 2014-06-10 | Rocketick Technologies Ltd. | Simulation using parallel processors |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8185893B2 (en) * | 2006-10-27 | 2012-05-22 | Hewlett-Packard Development Company, L.P. | Starting up at least one virtual machine in a physical machine by a load balancer |
US8521501B2 (en) * | 2007-06-27 | 2013-08-27 | International Business Machines Corporation | Real-time performance modeling of application in distributed environment and method of use |
US8312053B2 (en) * | 2009-09-11 | 2012-11-13 | Oracle International Corporation | Dynamic atomic arrays |
-
2014
- 2014-12-23 WO PCT/PL2014/000160 patent/WO2016024874A1/en active Application Filing
- 2014-12-23 CN CN201480080632.1A patent/CN106575240A/zh active Pending
- 2014-12-23 US US15/328,765 patent/US20170212791A1/en not_active Abandoned
- 2014-12-23 EP EP14833404.8A patent/EP3180691A1/en not_active Withdrawn
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070233805A1 (en) * | 2006-04-02 | 2007-10-04 | Mentor Graphics Corp. | Distribution of parallel operations |
CN101055532A (zh) * | 2006-04-13 | 2007-10-17 | 国际商业机器公司 | 对并行计算机执行全局收集操作的方法及其并行计算机 |
US8751211B2 (en) * | 2008-03-27 | 2014-06-10 | Rocketick Technologies Ltd. | Simulation using parallel processors |
CN102043673A (zh) * | 2009-10-21 | 2011-05-04 | Sap股份公司 | 并行处理期间资源分配的校准 |
CN103067468A (zh) * | 2012-12-22 | 2013-04-24 | 深圳先进技术研究院 | 云调度方法及其系统 |
CN103077006A (zh) * | 2012-12-27 | 2013-05-01 | 浙江工业大学 | 一种基于多线程的长事务并行执行方法 |
Non-Patent Citations (1)
Title |
---|
BERNA L.MASSINGILL ET AL: "A Pattern Language for Parallel Application Programs", 《HTTPS://WWW.RESEARCHGATE.NET/PUBLICATION/2299322_A_PATTERN_LANGUAGE_FOR_PARALLEL_APPLICATION_PROGRAMMING》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107147637A (zh) * | 2017-05-05 | 2017-09-08 | 腾讯科技(深圳)有限公司 | 一种任务执行请求处理方法、装置和计算机存储介质 |
Also Published As
Publication number | Publication date |
---|---|
US20170212791A1 (en) | 2017-07-27 |
EP3180691A1 (en) | 2017-06-21 |
WO2016024874A1 (en) | 2016-02-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106687927A (zh) | 促进在计算装置上的图形处理单元的命令分组的动态并行调度 | |
CN106575240A (zh) | 促进用于计算装置上可变位长事务的动态线程安全操作 | |
US10796397B2 (en) | Facilitating dynamic runtime transformation of graphics processing commands for improved graphics performance at computing devices | |
US20220284539A1 (en) | Method and apparatus for efficient loop processing in a graphics hardware front end | |
CN107077717A (zh) | 促进计算设备上的图形处理单元上的工作负荷执行的动态流水线化 | |
CN110415158A (zh) | 可缩放gpu中的数据分布组构 | |
CN106575431A (zh) | 用于高度高效的图形处理单元(gpu)执行模型的方法和装置 | |
US9916634B2 (en) | Facilitating efficient graphics command generation and execution for improved graphics performance at computing devices | |
CN109564700A (zh) | 用于取决于纹理的丢弃操作的分级式Z剔除(HiZ)优化 | |
CN109154990A (zh) | 卷积神经网络中的查找卷积层 | |
CN106575221A (zh) | 用于simd执行引擎的非结构化控制流的方法和设备 | |
CN109923519A (zh) | 用于加速多核计算架构中的图形工作负荷的机制 | |
US10338953B2 (en) | Facilitating execution-aware hybrid preemption for execution of tasks in computing environments | |
CN109564699A (zh) | 用于经优化光线追踪的装置和方法 | |
US10282804B2 (en) | Facilitating configuration of computing engines based on runtime workload measurements at computing devices | |
CN110352403A (zh) | 图形处理器寄存器重命名机制 | |
WO2017107118A1 (en) | Facilitating efficient communication and data processing across clusters of computing machines in heterogeneous computing environment | |
CN109643395A (zh) | 自适应窗口机制 | |
CN105224165A (zh) | 为计算装置上部分模糊图形图像促进动态和有效的预启动裁剪 | |
CN108604185A (zh) | 用于将工作负荷有效地提交到高性能图形子系统的方法和装置 | |
US11088907B2 (en) | System characterization and configuration distribution for facilitating improved performance at computing devices | |
US10026142B2 (en) | Supporting multi-level nesting of command buffers in graphics command streams at computing devices | |
CN109154892A (zh) | 用于在计算环境中对数据进行本地处理的寄存器堆扩展 | |
US10002405B2 (en) | Smart optimization of unused graphics buffer memory in computing environments | |
CN109844802A (zh) | 用于在图形处理器中提高线程并行性的机制 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20170419 |
|
WD01 | Invention patent application deemed withdrawn after publication |