CN117632281A

CN117632281A - 用于启动软件工作负载的应用程序编程接口

Info

Publication number: CN117632281A
Application number: CN202311085385.1A
Authority: CN
Inventors: S·查特吉; S·纳塔拉詹; S·罗伊; M·科鲁波卢; N·维斯瓦纳坦; S·拉马穆尔蒂; R·H·穆昆丹; A·P·派森卡尔
Original assignee: Nvidia Corp
Current assignee: Nvidia Corp
Priority date: 2022-08-25
Filing date: 2023-08-25
Publication date: 2024-03-01

Abstract

本发明公开了用于启动软件工作负载的应用程序编程接口，具体公开了用于执行软件工作负载的装置、系统和技术。在至少一个实施例中，处理器的一个或更多个电路使得第一应用程序编程接口选择第二应用程序编程接口，其中第二应用程序编程接口执行由第一应用程序编程接口识别的一个或更多个软件工作负载。

Description

用于启动软件工作负载的应用程序编程接口

相关申请的交叉引用

本申请要求2022年8月25日提交的题为“多节点启动器(MULTIPLE-NODELAUNCHER)”的第63/400,887号美国临时申请的权益，其全部内容通过引用并入本文。

技术领域

至少一个实施例涉及用于管理在分布式系统上执行的一个或更多个应用程序的处理资源。例如，至少一个实施例涉及在分布式系统上启动、监控和/或终止应用程序。

背景技术

执行计算操作会占用大量内存、时间或计算资源。可以改进内存、时间和/或资源(例如，计算资源)的使用量。可以组织计算机程序，其中可以以不同的方式、不同的顺序以及使用多个计算机系统执行各种组件。尽管计算机硬件的进步可以加速或以其他方式协助计算机程序的各种组件的执行，但这些进步通常无法考虑到计算机程序的所有不同构造方式，以及计算机程序的元素被分配到计算机系统的各种方式。生成计算程序以执行计算操作(其中一些操作被部署到各个系统中)在操作完成时会导致软件程序的执行的延迟。

附图说明

图1是根据至少一个实施例的示出使用计算环境执行操作的框图；

图2是根据至少一个实施例的示出使用多节点启动器实用程序在多个节点上启动和终止分布式应用程序的示例系统的框图；

图3示出了根据至少一个实施例的使用多节点启动器实用程序在多个节点上启动和终止分布式应用程序的过程；

图4是根据至少一个实施例的示出高性能计算机系统的示例计算集群的框图；

图5示出了根据至少一个环境的使用高性能计算环境启动一个或更多个工作负载的过程；

图6示出了根据至少一个环境的使用高性能计算环境监控一个或更多个工作负载的过程；

图7示出了根据至少一个环境的使用高性能计算环境终止一个或更多个工作负载的过程；

图8是根据至少一个实施例的示出将由一个或更多个处理器执行的软件程序的框图；

图9是根据至少一个实施例的示出用于启动一个或更多个软件工作负载的应用程序编程接口(API)的框图；

图10是根据至少一个实施例的示出用于监控一个或更多个软件工作负载的应用程序编程接口(API)的框图；

图11是根据至少一个实施例的示出用于终止一个或更多个软件工作负载的应用程序编程接口(API)的框图；

图12示出了根据至少一个实施例的用于执行一个或更多个应用程序编程接口(API)的过程；

图13是根据至少一个实施例的示出处理应用程序编程接口(API)的示例软件栈的框图；

图14是根据至少一个实施例的示出处理器和模块的框图；

图15是根据至少一个实施例的示出驱动程序和/或运行时的框图，该驱动程序和/或运行时包括一个或更多个库，用于提供一个或更多个应用程序编程接口(API)；

图16示出了根据至少一个实施例的分布式系统；

图17示出了根据至少一个实施例的示例性数据中心；

图18示出了根据至少一个实施例的客户端-服务器网络；

图19示出了根据至少一个实施例的计算机网络的示例；

图20A示出了根据至少一个实施例的联网计算机系统；

图20B示出了根据至少一个实施例的联网计算机系统；

图20C示出了根据至少一个实施例的联网计算机系统；

图21示出了根据至少一个实施例的系统环境的一个或更多个组件，在该系统环境中，服务可被提供为第三方网络服务；

图22示出了根据至少一个实施例的云计算环境；

图23示出了根据至少一个实施例的由云计算环境提供的一组功能抽象层；

图24示出了根据至少一个实施例的芯片级的超级计算机；

图25示出了根据至少一个实施例的机架模块级的超级计算机；

图26示出了根据至少一个实施例的机架级的超级计算机；

图27示出了根据至少一个实施例的整个系统级的超级计算机；

图28A示出了根据至少一个实施例的推理和/或训练逻辑；

图28B示出了根据至少一个实施例的推理和/或训练逻辑；

图29示出了根据至少一个实施例的神经网络的训练和部署；

图30示出了根据至少一个实施例的网络系统的架构；

图31示出了根据至少一个实施例的网络系统的架构；

图32示出了根据至少一个实施例的控制平面协议栈；

图33示出了根据至少一个实施例的用户平面协议栈；

图34示出了根据至少一个实施例的核心网的组件；

图35示出了根据至少一个实施例的支持网络功能虚拟化(NFV)的系统的组件；

图36示出了根据至少一个实施例的处理系统；

图37示出了根据至少一个实施例的计算机系统；

图38示出了根据至少一个实施例的系统；

图39示出了根据至少一个实施例的示例性集成电路；

图40示出了根据至少一个实施例的计算系统；

图41示出了根据至少一个实施例的APU；

图42示出了根据至少一个实施例的CPU；

图43示出了根据至少一个实施例的示例性加速器集成切片；

图44A和图44B示出了根据至少一个实施例的示例性图形处理器；

图45A示出了根据至少一个实施例的图形核心；

图45B示出了根据至少一个实施例的GPGPU；

图46A示出了根据至少一个实施例的并行处理器；

图46B示出了根据至少一个实施例的处理集群；

图46C示出了根据至少一个实施例的图形多处理器；

图47示出了根据至少一个实施例的编程平台的软件栈；

图48示出了根据至少一个实施例的图47的软件栈的CUDA实现；

图49示出了根据至少一个实施例的图47的软件栈的ROCm实现；

图50示出了根据至少一个实施例的图47的软件栈的OpenCL实现；

图51示出了根据至少一个实施例的由编程平台支持的软件；

图52示出了根据至少一个实施例的用于在图47-50的编程平台上执行的编译代码；以及

图53示出了根据至少一个实施例的用于访问大语言模型的系统的组件。

具体实施方式

在以下描述中，阐述了许多具体细节以提供对至少一个实施例的更透彻的理解。然而，对于本领域技术人员显而易见的是，可以在没有这些具体细节中的一个或更多个的情况下实践本发明的概念。

在至少一个实施例中，分布式深度学习应用程序需要多节点启动器实用程序来在多个节点上启动和终止分布式应用程序。在至少一个实施例中，多节点启动器实用程序存在于高性能计算(HPC)领域，但具有重大缺点。在至少一个实施例中，一个缺点是HPC多节点启动器不知道深度学习(DL)框架的设置(setup)要求，并且也没有与DL工作负载集成。在至少一个实施例中，另一个缺点是HPC多节点启动器在容器内使用时不能“开箱即用(out ofthe box)”，并且通常需要特定于平台的设置。

在至少一个实施例中，理想情况下，AI训练平台上的多节点启动器应该在使用相同的统一应用程序编程接口(API)在容器内运行时，为HPC和DL应用程序两者提供统一的启动和终止机制。在至少一个实施例中，需要能够处理MPI、PyTorch和Tensorflow之类的应用程序的启动器，该启动器具有统一的API，并且无需对现有应用程序进行更改。

图1是根据至少一个实施例的示出使用计算环境执行操作的框图100。在至少一个实施例中，客户端环境112的处理器114包括一个或更多个电路，用于使一个或更多个应用程序编程接口(API)执行本文所述的操作。在至少一个实施例中，应用程序编程接口(API)指定或以其他方式指示要由诸如本文所述的处理器执行的一个或更多个操作，以使得所述处理器执行一个或更多个操作(例如，以启动软件工作负载、监控软件工作负载、终止软件工作负载和/或本文所述的其他此类操作)。在至少一个实施例中，客户端环境112是诸如本文所述的一个或更多个客户端设备的环境。在至少一个实施例中，图1中未示出，客户端环境112是作为诸如本文所述的云计算环境的客户端的一个或更多个客户端设备的环境。在至少一个实施例中，处理器114是诸如下文所述的那些之类的处理器。在至少一个实施例中，处理器114是中央处理单元(CPU)、图形处理单元(GPU)、并行处理单元(PPU)、通用图形处理单元(GPGPU)、计算集群和/或这些处理器和/或其他此类处理器的组合。在至少一个实施例中，处理器114是诸如本文所述的计算机系统的一部分。在至少一个实施例中，API是诸如本文至少结合图8-15描述的那些之类的API。

在至少一个实施例中，处理器114的一个或更多个电路使启动工作负载116操作被执行。在至少一个实施例中，启动工作负载116包括使用计算环境102执行软件工作负载的操作。例如，在至少一个实施例中，启动工作负载116包括：启动工作负载以执行神经网络训练操作(如本文所述)、启动工作负载以执行一个或更多个分子化学分析、启动工作负载以执行大语言模块(例如，如本文至少结合图53描述的)和/或本文所述的其他操作。在至少一个实施例中，启动工作负载116使用API(诸如本文至少结合图9描述的启动工作负载API902)执行。在至少一个实施例中，启动工作负载116用于使第一应用程序编程接口(API)选择第二API以执行由第一API识别的一个或更多个软件工作负载。在至少一个实施例中，图1未示出，启动工作负载116包括一个或更多个参数(argument)，该参数包括但不限于本文根据图9所述的那些参数。在至少一个实施例中，启动工作负载116在被执行时，启动单个工作负载或单个作业。在至少一个实施例中，启动工作负载116在被执行时，启动具有多个作业的单个工作负载。在至少一个实施例中，监控工作负载120在被执行时，启动多个工作负载。

在至少一个实施例中，向计算环境102指示、发送或以其他方式提供启动工作负载116。在至少一个实施例中，计算环境102是高性能计算环境。在至少一个实施例中，计算环境102是深度学习环境。在至少一个实施例中，使用计算环境102、本文所述的系统、方法、操作和/或技术执行启动工作负载116。在至少一个实施例中，计算环境102是诸如本文所述的那些之类的云计算环境。在至少一个实施例中，计算环境102包括一个或更多个处理器104。在至少一个实施例中，计算环境102包括一个或更多个图形处理器106。在至少一个实施例中，处理器104包括诸如本文所述的那些之类的一个或更多个处理器。在至少一个实施例中，图形处理器106是诸如本文所述的那些之类的一个或更多个图形处理器。在至少一个实施例中，图1中未示出，处理器104和/或图形处理器106包括一个或更多个中央处理单元(CPU)、图形处理单元(GPU)、并行处理单元(PPU)、通用图形处理单元(GPGPU)、计算集群和/或如本文所述的这些和/或其他此类处理器的组合。

在至少一个实施例中，使用处理器104中的一个或更多个处理器和/或图形处理器106中的一个或更多个图形处理器执行启动工作负载116的至少一部分。在至少一个实施例中，处理器104包括诸如本文所述的那些之类的一个或更多个处理器。在至少一个实施例中，图形处理器106包括诸如本文所述的那些之类的一个或更多个图形处理器。在至少一个实施例中，使用诸如本文所述的系统和方法将处理器104中的一个或更多个处理器连接在一起。例如，在至少一个实施例中，使用一个或更多个集群(诸如本文至少结合图4描述的集群402)将处理器104中的至少一些处理器连接在一起。在至少一个实施例中，使用诸如本文所述的系统和方法将图形处理器106中的一个或更多个图形处理器连接在一起。例如，在至少一个实施例中，使用一个或更多个集群(诸如本文至少结合图4描述的集群402)将图形处理器106中的至少一些图形处理器连接在一起。

在至少一个实施例中，图1中未示出，当使用计算环境102执行启动工作负载116时，执行诸如本文所述的一个或更多个附加API(例如，使用处理器104和/或图形处理器106)。在至少一个实施例中，图1中未示出，当使用计算环境102执行启动工作负载116时，使用计算环境102的一个或更多个附加处理器(例如，处理器104中的一个或更多个和/或图形处理器106中的一个或更多个)执行启动工作负载116的至少一部分。在至少一个实施例中，计算环境102向客户端环境112指示、发送或以其他方式提供一个或更多个响应，包括但不限于本文至少结合图9描述的那些。在至少一个实施例中，计算环境102向客户端环境112指示、发送或以其他方式提供作业ID 118(例如，作业标识符)。在至少一个实施例中，作业ID118指示计算环境102中的用于执行启动工作负载116的一个或更多个进程。在至少一个实施例中，图1中未示出，作业ID 118包括计算环境102中的用于执行启动工作负载116的进程的多个标识符。

在至少一个实施例中，处理器114的一个或更多个电路使监控工作负载120操作被执行。在至少一个实施例中，使用诸如本文至少结合图10描述的监控工作负载API 1002之类的API执行监控工作负载120。在至少一个实施例中，监控工作负载120用于执行第一应用程序编程接口(API)以选择第二API，以监控由第一API识别的一个或更多个软件工作负载的执行。在至少一个实施例中，图1中未示出，监控工作负载120包括一个或更多个参数，该参数包括但不限于本文根据图10所述的那些。在至少一个实施例中，所述一个或更多个参数包括一个或更多个作业ID(例如，作业ID 118)，该作业ID指示要监控的进程。在至少一个实施例中，所述一个或更多个作业ID指示计算环境102中用于执行启动工作负载116的进程，如上文所述。在至少一个实施例中，监控工作负载120在被执行时，监控单个工作负载(例如，与作业ID(诸如作业ID 118)相对应的工作负载)。在至少一个实施例中，监控工作负载120在被执行时，监控多个工作负载(例如，与单个作业ID(诸如作业ID 118)相对应的工作负载)。

在至少一个实施例中，向计算环境102指示、发送或以其他方式提供监控工作负载120。在至少一个实施例中，使用计算环境102利用本文所述的系统、方法、操作和/或技术执行监控工作负载120。在至少一个实施例中，使用处理器104中的一个或更多个处理器和/或图形处理器106中的一个或更多个图形处理器执行监控工作负载120的至少一部分。

在至少一个实施例中，图1中未示出，当使用计算环境102执行监控工作负载120时，执行诸如本文所述的一个或更多个附加API(例如，使用处理器104和/或图形处理器106)。在至少一个实施例中，图1中未示出，当使用计算环境102执行监控工作负载120时，使用计算环境102的一个或更多个附加处理器(例如，处理器104中的一个或更多个处理器和/或图形处理器106中的一个或更多个图形处理器)执行监控工作负载120的至少一部分。在至少一个实施例中，计算环境102指示、发送或以其他方式提供对监控工作负载120的一个或更多个响应，该响应包括但不限于本文至少结合图10描述的那些。在至少一个实施例中，计算环境102向客户端环境112指示、发送或以其他方式提供状态122(例如，要监控的一个或更多个工作负载的状态)。在至少一个实施例中，状态122指示要监控的一个或更多个工作负载的状态，诸如，例如，运行、等待、终止、一个或更多个错误条件等。在至少一个实施例中，如上所述，状态122指示计算环境102中用于执行启动工作负载116的一个或更多个进程的状态。在至少一个实施例中，图1中未示出，状态122包括计算环境102中的用于执行启动工作负载116的进程的多个状态，如上所述。

在至少一个实施例中，处理器114的一个或更多个电路使得终止工作负载124操作被执行。在至少一个实施例中，使用诸如本文至少结合图11描述的终止工作负载API 1102之类的API执行终止工作负载124。在至少一个实施例中，终止工作负载124用于执行第一应用程序编程接口(API)以选择第二API，以终止由第一API识别的一个或更多个软件工作负载的执行。在至少一个实施例中，图1中未示出，终止工作负载124包括一个或更多个参数，该参数包括但不限于本文根据图11所述的那些。在至少一个实施例中，所述一个或更多个参数包括一个或更多个作业ID(例如，作业ID 118)，该作业ID指示要终止的进程。在至少一个实施例中，所述一个或更多个作业ID指示计算环境102中用于执行启动工作负载116的进程，如上所述。在至少一个实施例中，终止工作负载124在被执行时，使单个工作负载(例如，与作业ID 118之类的作业ID相对应的工作负载)被终止。在至少一个实施例中，终止工作负载124在被执行时，使多个工作负载(例如，与单个作业ID(诸如，作业ID 118)相对应的工作负载)被终止。

在至少一个实施例中，向计算环境102指示、发送或以其他方式提供终止工作负载124。在至少一个实施例中，使用计算环境102利用本文所述的系统、方法、操作和/或技术执行终止工作负载124。在至少一个实施例中，使用处理器104中的一个或更多个处理器和/或图形处理器106中的一个或更多个图形处理器执行终止工作负载124的至少一部分。

在至少一个实施例中，图1中未示出，当使用计算环境102执行终止工作负载124时，执行一个或更多个附加API(诸如本文所述的那些)(例如，使用处理器104和/或图形处理器106)。在至少一个实施例中，图1中未示出，当使用计算环境102执行终止工作负载124时，使用计算环境102中的一个或更多个附加处理器(例如，处理器104中的一个或更多个处理器和/或图形处理器106中的一个或更多个图形处理器)执行终止工作负载124的至少一部分。在至少一个实施例中，计算环境102指示、发送或以其他方式提供对终止工作负载124的一个或更多个响应，该响应包括但不限于本文至少结合图11描述的那些。在至少一个实施例中，计算环境102向客户端环境112指示、发送或以其他方式提供状态126(例如，要终止的一个或更多个工作负载的状态)。在至少一个实施例中，状态126指示要终止的一个或更多个工作负载的状态，诸如，例如，已终止、未终止、一个或更多个错误状况等。在至少一个实施例中，状态126指示计算环境102中用于执行启动工作负载116的一个或更多个进程的状态，如上文所述。在至少一个实施例中，图1中未示出，状态126包括计算环境102中的用于执行启动工作负载116的进程的多个状态，如上所述。

在至少一个实施例中，一个或更多个处理器(例如，处理器114、处理器104中的一个或更多个处理器、图形处理器106中的一个或更多个图形处理器、和/或诸如本文描述的其他处理器和/或加速器)包括一个或更多个电路，该一个或更多个电路用于执行本文所述的操作或指令，诸如，一个或更多个电路用于使第一应用程序编程接口(API)选择第二API以执行由第一API识别的一个或更多个软件工作负载。在至少一个实施例中，一个或更多个处理器包括一个或更多个电路，该一个或更多个电路用于执行本文所述的操作或指令，诸如一个或更多个电路用于使第一应用程序编程接口(API)选择第二API，以使用诸如本文至少结合图9描述的启动工作负载API 902之类的API执行由第一API识别的一个或更多个软件工作负载。在至少一个实施例中，一个或更多个处理器包括一个或更多个电路，该一个或更多个电路用于执行本文所述的操作或指令，诸如一个或更多个电路用于执行第一应用程序编程接口(API)以使第二API被执行，从而使得一个或更多个软件工作负载由一个或更多个其他处理器来执行。在至少一个实施例中，图1中未示出，机器可读介质上存储有一组指令，该组指令如果由一个或更多个处理器执行，用于执行本文至少结合图1-图15描述的操作，诸如使第一应用程序编程接口(API)选择第二API以执行由第一API识别的一个或更多个软件工作负载的操作。在至少一个实施例中，一个或更多个处理器包括一个或更多个电路，该一个或更多个电路用于执行操作或指令，以通过至少执行操作或指令以执行第一应用程序编程接口(API)以使第二API被执行，从而使得由一个或更多个其他处理器执行一个或更多个软件工作负载，来使得第一应用程序编程接口(API)选择第二API以执行由第一API识别的一个或更多个工作负载。

在至少一个实施例中，一个或更多个处理器(例如，处理器114、处理器104中的一个或更多个处理器、图形处理器106中的一个或更多个图形处理器、和/或诸如本文所述的其他处理器和/或加速器)包括一个或更多个电路，该一个或更多个电路用于执行本文所述的操作或指令，诸如一个或更多个电路用于执行第一应用程序编程接口(API)以选择第二API，以监控由第一API识别的一个或更多个软件工作负载的执行。在至少一个实施例中，一个或更多个处理器包括一个或更多个电路，该一个或更多个电路用于执行本文所述的操作或指令，诸如一个或更多个电路用于执行第一应用程序编程接口(API)以选择第二API，以使用诸如本文至少结合图10描述的监控工作负载API 1002之类的API来监控由第一API识别的一个或更多个软件工作负载的执行。在至少一个实施例中，一个或更多个处理器包括一个或更多个电路，该一个或更多个电路执行本文所述的操作或指令，诸如一个或更多个电路用于执行第一应用程序编程接口(API)以使第二API被执行，以使得一个或更多个软件工作负载的状态被提供。在至少一个实施例中，图1中未示出，机器可读介质上存储有一组指令，如果该组指令由一个或更多个处理器执行，则执行本文至少结合图1-15描述的操作，诸如执行第一应用程序编程接口(API)以选择第二API来监控由第一API识别的一个或更多个软件工作负载的执行的操作。在至少一个实施例中，一个或更多个处理器包括一个或更多个电路，该一个或更多个电路用于执行操作或指令，以通过至少执行操作或指令以执行第一应用程序编程接口(API)以使得第二API被执行，从而使得提供一个或更多个软件工作负载的状态，来执行第一应用程序编程接口(API)以选择第二API，以监控由第一API识别的一个或更多个软件工作负载的执行。

在至少一个实施例中，一个或更多个处理器(例如，处理器114、处理器104中的一个或更多个处理器、图形处理器106中的一个或更多个图形处理器、和/或诸如本文所述的其他处理器和/或加速器)包括一个或更多个电路，该一个或更多个电路用于执行本文所述的操作或指令，诸如一个或更多个电路用于执行第一应用程序编程接口(API)以选择第二API以终止由第一API识别的一个或更多个软件工作负载的执行。在至少一个实施例中，一个或更多个处理器包括一个或更多个电路，该一个或更多个电路用于执行本文所述的操作或指令，诸如一个或更多个电路用于执行第一应用程序编程接口(API)以选择第二API，以使用诸如本文至少结合图11描述的终止工作负载API 1102之类的API终止第一API识别的一个或更多个软件工作负载的执行。在至少一个实施例中，一个或更多个处理器包括一个或更多个电路，该一个或更多个电路用于执行本文所述操作或指令，诸如一个或更多个电路用于执行第一应用程序编程接口(API)以使第二API被执行，以使得正由一个或更多个其他处理器执行的一个或更多个软件工作负载被终止。在至少一个实施例中，图1中未示出，机器可读介质上存储有一组指令，该组指令如果由一个或更多个处理器执行，用于执行本文至少结合图1-15描述的操作，诸如执行第一应用程序编程接口(API)以选择第二API以终止由第一API识别的一个或更多个软件工作负载的执行的操作。在至少一个实施例中，一个或更多个处理器包括一个或更多个电路，该一个或更多个电路用于执行操作或指令，以通过至少执行操作或指令以执行第一应用程序编程接口(API)以使得第二API被执行，从而使得终止正由一个或更多个其他处理器执行的一个或更多个软件工作负载，来执行第一应用程序编程接口(API)以选择第二API，以终止由第一API识别的一个或更多个软件工作负载的执行。

图2是根据至少一个实施例的示出使用多节点启动器实用程序在多个节点上启动和终止分布式应用程序的示例系统的框图200。在至少一个实施例中，框图200中示出的系统是一个或更多个硬件和/或具有指令的软件计算资源的集合，这些指令在被执行时，执行诸如本文所述的一个或更多个通信进程。在至少一个实施例中，框图200中示出的系统是在计算机硬件上执行的软件程序、在计算机硬件上执行的应用程序和/或其变体。在至少一个实施例中，框图200中示出的系统的一个或更多个进程由任何合适的处理系统或单元(例如，图形处理单元(GPU)、通用GPU(GPGPU)、并行处理单元(PPU)、中央处理器(CPU)，如下面所述)以任何合适的方式(包括顺序、并行和/或其变型)执行。在至少一个实施例中，框图200中示出的系统是在一个或更多个处理器(诸如，本文至少结合图1描述的处理器114、处理器104中的一个或更多个处理器和/或图形处理器106中的一个或更多个图形处理器)上执行的软件程序。

在至少一个实施例中，用户202可以是计算机系统的用户。在至少一个实施例中，网络204可以是根据图16-53所述的网络。在至少一个实施例中，控制平面206可以是用于管理容器化工作负载控制平面的AI训练平台。在至少一个实施例中，控制平面206是诸如本文至少结合图30-33描述的那些之类的控制平面。在至少一个实施例中，控制平面206包括诸如本文结合图16-53所述的那些之类的多个模块。在至少一个实施例中，控制平面206包括调度器、作业控制器、集群代理、PAI服务器、MPI操作器或其任意组合。在至少一个实施例中，控制平面206将一个或更多个工作负载发送到节点210和节点214。在至少一个实施例中，节点210和节点214是诸如节点404、节点434和/或节点436之类的节点，如本文至少结合图4描述的。在至少一个实施例中，节点210包括容器212。在至少一个实施例中，容器包括准备好运行(ready-to-run)的软件包，其包含运行应用程序所需的软件和/或数据。在至少一个实施例中，诸如容器212之类的容器包括代码、所需运行时信息、应用程序库、系统库、环境变量和/或基本设置的任何默认值。在至少一个实施例中，控制平面206将容器操作自动化。在至少一个实施例中，控制平面206将组成应用程序的容器分组为逻辑单元。在至少一个实施例中，控制平面206允许对运行容器应用程序的主机组进行集群化，并且所述系统帮助管理所述集群。在至少一个实施例中，节点214包括容器216。在至少一个实施例中，容器216是诸如容器212之类的容器，如上文所述。在至少一个实施例中，容器212使用如本文所述的系统和方法向容器216发送一个或更多个工作负载API 208。在至少一个实施例中，节点210和节点214与网络218进行通信。在至少一个实施例中，网络218是InfiniBand网络(例如，高性能计算环境中使用的具有高吞吐量和/或低延迟的网络)。在至少一个实施例中，网络218是可促进互连节点之间的高速通信的基于信道的结构网络。

在至少一个实施例中，工作负载API 208包括AI训练平台和GPU云集群上的多节点应用程序启动器实用程序的API，诸如本文所述的那些(例如，本文所述的启动工作负载API902、监控工作负载API 1002和/或终止工作负载API 1102)。在至少一个实施例中，工作负载API 208包括多节点启动器实用程序，用于在一个或更多个节点上启动、监控和终止一个或更多个分布式应用程序，如本文所述。在至少一个实施例中，工作负载API 208用于为在人工智能(AI)训练平台容器环境(诸如本文所述)内运行的高性能计算(HPC)和分布式学习(DL)应用程序提供统一的启动机制。在至少一个实施例中，工作负载API 208抽象分布式DL应用程序(例如，分布式PyTorch或Tensorflow)所需的特定于框架的环境。在至少一个实施例中，工作负载API 208允许用户(诸如用户202)作为批脚本的一部分提交命令。在至少一个实施例中，工作负载API 208允许用户(诸如用户202)使用API(诸如本文至少结合图9描述的启动工作负载API 902、本文至少结合图10描述的监控工作负载API 1002和/或本文至少结合图11描述的终止工作负载API 1102)提交命令。

在至少一个实施例中，图2中未示出，用于支持一个或更多个工作负载API 208的环境被自动注入到“/usr/local/bin”处的容器中(例如，如本文至少结合图3描述的)。在至少一个实施例中，例如，注入用于支持一个或更多个工作负载API 208的环境包括：在定义、指定、实例化或以其他方式创建所述容器(例如，容器212和/或容器216)时添加软件以执行一个或更多个工作负载API 208。在至少一个实施例中，当用于支持一个或更多个工作负载API 208的环境被自动注入到容器中时，工作负载API 208始终可用于在使用所述容器的AI训练平台上运行的应用程序。在至少一个实施例中，工作负载API使用用于管理容器化工作负载和服务的开源平台启动进程(例如，远程进程)，并且与其他进程(例如，本地进程)一起管理它们。在至少一个实施例中，环境变量和绑定信息在启动期间被传播到所有节点。在至少一个实施例中，在终止期间，一个或更多个工作负载API 208管理状态指示符、错误指示符、调试信息等到调用进程的传播。

在至少一个实施例中，工作负载API 208的参数包括必需参数和可选参数。在至少一个实施例中，启动工作负载API(诸如启动工作负载API 902)的必需参数包括启动工作负载的命令(例如，作为字符串)。例如，在至少一个实施例中，用于启动工作负载的参数包括诸如“—cmd‘python train.py.”之类的字符串。

在至少一个实施例中，工作负载API 208的参数包括一个或更多个可选参数，诸如要运行的节点数(例如，作为整数)。在至少一个实施例中，工作负载API 208的参数具有可选参数：针对节点数的最小值到最大值的范围。在至少一个实施例中，所述范围的最小值为1，并且所述范围的最大值为R，其中R为由GPU云作业请求的最大数量或副本数量。

在至少一个实施例中，工作负载API 208的参数包括一个或更多个可选参数，诸如要运行的每节点的任务数(例如，作为整数)。在至少一个实施例中，要运行的所述每节点的任务数的默认值为1。

在至少一个实施例中，工作负载API 208的参数包括一个或更多个可选参数，诸如以“key＝value”(例如，作为字符串)格式设置的环境变量。在至少一个实施例中，环境变量包括诸如“—env‘var1＝value1’-env‘var2＝value2.’”之类的字符串。在至少一个实施例中，不同的环境变量需要用于每个环境变量的单独的环境标志。

在至少一个实施例中，工作负载API 208的参数包括一个或更多个可选参数，诸如，从其运行命令的基本目录(例如，作为字符串)。在至少一个实施例中，所述基本目录参数的默认值是工作目录。在至少一个实施例中，目录变量包括诸如“--workdir'\$WORK_HOME/scripts'--env'WORK_HOME＝/mnt/workspace.'”之类的字符串。

在至少一个实施例中，工作负载API 208的参数包括一个或更多个可选参数，诸如用于启动工作负载的一个或更多个外部启动器(例如，作为字符串)。例如，在至少一个实施例中，支持的外部启动器是“mpirun”或“horovodrun”或一些其他这样的启动器。在至少一个实施例中，mpirun映射到一个或更多个OpenMPI选项。在至少一个实施例中，horovodrun映射到一个或更多个Horovod选项。在至少一个实施例中，所述选项假设启动器存在并且是可访问的。在至少一个实施例中，特定于启动器的参数(不是脚本名选项的一部分)被作为后缀提供。例如，在至少一个实施例中，外部启动器字符串包括“--launcher'mpirun--allow-run-as-root.'”。

在至少一个实施例中，工作负载API 208的参数包括用于指定一个或更多个执行模式的一个或更多个可选参数，包括但不限于running asynchronous failure supportenabled(启用运行异步失败支持)(例如，$scriptname的子进程可以在失败时退出而不停止所述程序)。在至少一个实施例中，可选参数“启用运行异步失败支持”意味着所述程序将在至少一个子进程运行时继续运行。在至少一个实施例中，当脚本名启动的任何子进程由于错误而退出时，可选参数“启用运行异步失败支持”将脚本名的默认语义配置为停止所述程序。

在至少一个实施例中，工作负载API 208的参数包括一个或更多个可选参数“binding(绑定)”，其将进程绑定到CPU核心。在至少一个实施例中，“绑定”选项仅在数组类型为PYTORCH时适用。在至少一个实施例中，可选参数“绑定”包括是否有可用的非统一内存访问(NUMA)绑定选项。在至少一个实施例中，绑定参数包括可选参数“进程被绑定到的节点”，以绑定到NUMA节点内的CPU。在至少一个实施例中，在支持GPU的计算节点上，进程被绑定到关联的NUMA节点的所有CPU(例如，将local rank映射到GPU id)，并且进程号(rank)的总数限于GPU的总数。在至少一个实施例中，例如，给定2个NUMA节点N{0,1}，每个节点具有4个GPU和32个CPU C{0-31,32-63}，8个进程P{0-7}将被映射为P{0-3}:N0:C{0-31},P{4-7}:N1:C{32-63}。

在至少一个实施例中，绑定具有可选参数“exclusive(独占的)”，其中进程被绑定到NUMA节点内的独占的一组CPU。在至少一个实施例中，在支持GPU的计算节点上，进程被绑定到关联的NUMA节点内的独占的一组CPU上(将local rank映射到GPU id)，并且进程号的总数限于GPU的总数。在至少一个实施例中，例如，给定2个NUMA节点N{0,1}，每个节点有4个GPU和32个CPU C{0-31,32-63}，8个进程P{0-7}将被映射为P0:N0:C{0-7}、P1:N0:C{8-15}、P2:N0:C{16-23}、P3:N0:C{24-31}、P4:N1:C{32-39}、P5:N1:C{40-47}、P6:N1:C{48-55}、P7:N1:C{56-63}。

在至少一个实施例中，绑定具有可选参数“core-complex(核心-复合体)”，其中进程被绑定到核心-复合体，例如，共享最后一级高速缓存的CPU。在至少一个实施例中，在支持GPU的计算节点上，进程被绑定到关联NUMA节点的核心-复合体上(将local rank映射到GPU ID)，并且进程号的总数限于GPU的总数。在至少一个实施例中，例如，给定2个NUMA节点N{0,1}，每个节点有2个GPU和4个核心复合体X{0-3,4-7}，4个进程P{0-3}将被映射为P0:N0:X0、P1:N0:X1、P2:N1:X4、P3:N1:X5。

在至少一个实施例中，绑定具有可选参数“核心-复合体”，其中进程被绑定到套接字内的CPU。在至少一个实施例中，在支持GPU的计算节点上，进程被绑定到包含关联的NUMA节点的套接字的CPU上(将local rank映射到GPU ID)，并且进程号总数限于GPU的总数。在至少一个实施例中，例如，给定2个套接字S{0,1}，每个套接字有4个GPU和64个CPU C{0-63,64-127}，8个进程P{0-7}将被映射为P{0-3}:S0:C{0-63}、P{4-7}:S1:C{64-127}。

在至少一个实施例中，工作负载API 208的参数包括必需参数和/或可选参数，诸如至少结合本文至少结合图9描述的启动工作负载API 902、本文至少结合图10描述的监控工作负载API 1002和/或本文至少结合图11描述的终止工作负载API 1102所述的参数。

图3示出了根据至少一个实施例的使用多节点启动器实用程序在多个节点上启动和终止分布式应用程序的过程300。在至少一个实施例中，过程300(或本文所述的任何其他过程，或其变体和/或组合)中的部分或全部在被配置有计算机可执行指令的一个或更多个计算机系统(诸如图16-53所述的计算机系统)的控制下执行，并且通过硬件、软件或其组合实现为在一个或更多个处理器上集体执行的代码(例如，计算机可执行指令、一个或更多个计算机程序或一个或更多个应用程序)。在至少一个实施例中，代码以计算机程序的形式存储在计算机可读存储介质上，计算机程序包括可由一个或更多个处理器执行的多个计算机可读指令。在至少一个实施例中，计算机可读存储介质是非暂时性计算机可读介质。在至少一个实施例中，诸如处理器114、处理器104中的一个或更多个处理器、图形处理器106中的一个或更多个图形处理器(全部如本文至少结合图1描述的)之类的处理器使用诸如本文所述的那些系统、方法、操作和技术执行过程300的一个或更多个步骤，以使用多节点启动器实用程序在多个节点上启动和终止分布式应用程序。

在至少一个实施例中，执行过程300的至少一部分以使用多节点启动器实用程序在多个节点上启动和终止分布式应用程序的所述系统包括可执行代码，用于至少将支持一个或更多个工作负载API的环境注入到容器中(例如，如结合图2所述，以及结合下文所述的步骤302所述)。在至少一个实施例中，执行工作负载API参数(例如，如本文至少结合图1-13描述的，以及也如结合下文所述步骤304描述的)。在至少一个实施例中，基于工作负载API和参数来运行命令(例如，如结合下文所述步骤306所述)。

在至少一个实施例中，在使用多节点启动器实用程序在多个节点上启动和终止分布式应用程序的过程300的步骤302处，诸如图1示出的系统之类的系统(诸如，使用计算环境102)包括可执行代码，用于将支持工作负载API的环境注入容器的可执行代码的工作目录(例如，/usr/local/bin)。在至少一个实施例中，在步骤302处，诸如图1所示系统之类的系统包括可执行代码，用于使用诸如至少结合图2描述的系统、方法、过程和技术将支持工作负载API的环境注入到容器中。在至少一个实施例中，在步骤302处之后，使用多节点启动器实用程序在多个节点上启动和终止分布式应用程序的过程300在步骤304处继续进行。

在至少一个实施例中，在使用多节点启动器实用程序在多个节点上启动和终止分布式应用程序的过程300的步骤304处，诸如图1示出的计算环境102之类的系统包括可执行代码，用于执行具有指定参数的一个或更多个工作负载API。在至少一个实施例中，在304处，用于执行具有指定参数的一个或更多个工作负载API的可执行代码包括可执行代码，该可执行代码用于使第一应用程序编程接口(API)来选择第二API，以使用本文至少结合图9描述的启动工作负载API 902执行由第一API识别的一个或更多个软件工作负载。在至少一个实施例中，在304处，用于执行具有指定参数的一个或更多个工作负载API的可执行代码包括可执行代码，该可执行代码用于执行第一应用程序编程接口(API)以选择第二API，以使用本文至少结合图10描述的监控工作负载API 1002监控由第一API识别的一个或更多个软件工作负载的执行。在至少一个实施例中，在304处，用于执行具有指定参数的一个或更多个工作负载API的可执行代码包括可执行代码，该可执行代码用于执行第一应用程序编程接口(API)以选择第二API，以使用本文至少结合图11描述的终止工作负载API 1102终止由第一API识别的一个或更多个软件工作负载的执行。在至少一个实施例中，图3中未示出，在步骤304处，用于执行具有指定参数的一个或更多个工作负载API的可执行代码包括使用如本文所述的系统、方法、技术和操作识别一个或更多个API的可执行代码。在至少一个实施例中，在步骤304之后，使用多节点启动器实用程序在多个节点上启动和终止分布式应用程序的过程300在步骤306处继续进行。

在至少一个实施例中，在使用多节点启动器实用程序在多个节点上启动和终止分布式应用程序的过程300的步骤304处，诸如图1示出的计算环境102之类的系统包括可执行代码，用于基于工作负载API和指定参数来运行命令。在至少一个实施例中，基于工作负载API和指定参数运行命令的可执行代码包括用于使用诸如本文所述的那些系统、方法、技术和操作识别可用于运行命令的一个或更多个API的可执行代码。在至少一个实施例中，基于工作负载API和指定参数运行命令的可执行代码包括用于执行一个或更多个API的可执行代码，该一个或更多个API包括但不限于，本文至少结合图9描述的启动工作负载API 902、本文至少结合图10描述的监控工作负载API 1002和/或本文至少结合图11描述的终止工作负载API 1102。在至少一个实施例中，在步骤306之后，使用多节点启动器实用程序在多个节点上启动和终止分布式应用程序的过程300结束308。

在至少一个实施例中，使用多节点启动器实用程序在多个节点上启动和终止分布式应用程序的过程300的操作以不同于图3示出的顺序执行。在至少一个实施例中，使用多节点启动器实用程序在多个节点上启动和终止分布式应用程序的过程300的操作是同时或并行执行的。在至少一个实施例中，使用多节点启动器实用程序在多个节点上启动和终止分布式应用程序的过程300的操作被同时地或并行地执行，这些节点不相互依赖(例如，与顺序无关)。在至少一个实施例中，使用多节点启动器实用程序在多个节点上启动和终止分布式应用程序的过程300的操作由在如本文所述的处理器上执行的多个线程来执行。

图4是根据至少一个实施例的示出示例高性能计算机系统的框图400。在至少一个实施例中，诸如图4示出的高性能计算机系统是使用诸如本文至少结合图1描述的计算环境102之类的计算环境实现的。在至少一个实施例中，计算集群402包括一个或更多个节点。在至少一个实施例中，计算集群402包括节点404。在至少一个实施例中，节点404包括一个或更多个交换机。在至少一个实施例中，节点404包括交换机406。在至少一个实施例中，交换机406是管理处理器、处理器内存和/或其他节点之间连接的硬件设备。在至少一个实施例中，交换机406是管理处理器、处理器内存和/或其他节点之间的连接的软件。在至少一个实施例中，交换机406是模拟管理处理器、处理器内存和/或其他节点之间的连接的硬件和/或软件的虚拟设备。在至少一个实施例中，交换机406是实现管理处理器、处理器内存和/或其他节点之间的连接的软件的设备。在至少一个实施例中，节点404包括一个或更多个其他附加交换机，诸如交换机414。在至少一个实施例中，交换机414是与交换机406相同的交换机(例如，是硬件、软件、虚拟设备)。

在至少一个实施例中，交换机406包括软件栈408。在至少一个实施例中，软件栈408实现一个或更多个软件系统，用于使交换机406能够管理处理器、处理器内存和/或其他节点之间的连接。在至少一个实施例中，图4中未示出，软件栈408具有一个或更多个存储器空间名称(designation)，包括但不限于内核空间、非特权用户空间、特权用户空间等。在至少一个实施例中，软件栈408包括一个或更多个驱动器，诸如驱动器410。在至少一个实施例中，驱动器410是内核驱动器。在至少一个实施例中，驱动器410是运行时驱动器。在至少一个实施例中，软件栈408包括一个或更多个存储器管理器，诸如存储器管理器412。在至少一个实施例中，软件栈408是软件栈，诸如本文至少结合图13描述的框图1300中示出的软件栈。在至少一个实施例中，软件栈408是诸如本文至少结合图47-50描述的那些之类的软件栈。

在至少一个实施例中，交换机414包括软件栈416。在至少一个实施例中，软件栈416实现一个或更多个软件系统，用于使交换机414能够管理处理器、处理器内存和/或其他节点之间的连接。在至少一个实施例中，图4中未示出，软件栈416具有一个或更多个存储器空间名称，诸如本文所述的那些。在至少一个实施例中，软件栈416包括一个或更多个驱动器，诸如驱动器418。在至少一个实施例中，驱动器418是内核驱动器，如本文所述。在至少一个实施例中，驱动器418是运行时驱动器，如本文所述。在至少一个实施例中，软件栈416包括一个或更多个存储器管理器，诸如存储器管理器420。在至少一个实施例中，软件栈416是诸如本文至少结合图13描述的框图1300中示出的软件栈之类的软件栈。在至少一个实施例中，软件栈416是诸如本文至少结合图47-50描述的那些之类的软件栈。

在至少一个实施例中，节点404包括一个或更多个处理器，诸如处理器422、处理器426和/或处理器430。在至少一个实施例中，处理器422、处理器426和/或处理器430是诸如本文至少结合图1描述的处理器(例如，处理器104中的一个或更多个和/或图形处理器106中的一个或更多个)。在至少一个实施例中，处理器422可以访问存储器424，处理器426可以访问存储器428，以及处理器430可以访问存储器432。在至少一个实施例中，存储器424、存储器428和存储器432是诸如本文所述的存储器。

在至少一个实施例中，使用诸如本文所述的系统和方法将交换机406连接到处理器422、处理器426和/或处理器430。在至少一个实施例中，交换机406可以访问存储器424(使用处理器422)、存储器428(使用处理器426)和/或存储器432(使用处理器430)。在至少一个实施例中，交换机406可以被连接到一个或更多个其他处理器和/或可以访问图4中未示出的其他存储器。

在至少一个实施例中，使用诸如本文所述的系统和方法将交换机414连接到处理器422、处理器426和/或处理器430，并且交换机406可以访问存储器424(使用处理器422)、存储器428(使用处理器426)和/或存储器432(使用处理器430)。在至少一个实施例中，交换机414还可以被连接到一个或更多个其他处理器，和/或可以访问图4中未示出的其他存储器。在至少一个实施例中，交换机406和/或交换机414被连接到一个或更多个其他节点，诸如节点434和/或节点436。在至少一个实施例中，图4中未示出，节点434和/或节点436包括一个或更多个交换机、处理器和存储器，如本文所述。

图5示出了根据至少一种环境的使用高性能计算环境启动一个或更多个工作负载的过程500。在至少一个实施例中，过程500(或本文所述的任何其他过程，或其变体和/或组合)的部分或全部在诸如图16-53所述的配置有计算机可执行指令的一个或更多个计算机系统的控制下执行，并且通过硬件、软件或其组合实现为在一个或更多个处理器上集体执行的代码(例如，计算机可执行指令、一个或更多个计算机程序或一个或更多个应用程序)。在至少一个实施例中，代码以计算机程序的形式存储在计算机可读存储介质上，该计算机程序包括可由一个或更多个处理器执行的多个计算机可读指令。在至少一个实施例中，计算机可读存储介质是非暂时性计算机可读介质。在至少一个实施例中，诸如处理器114、处理器104中的一个或更多个处理器、图形处理器106中的一个或更多个图形处理器(全部如本文至少结合图1描述的)之类的处理器，使用诸如本文所述的系统、方法、操作和技术执行过程500的一个或更多个步骤。

在至少一个实施例中，在使用高性能计算环境启动工作负载的过程500的步骤502处，执行过程500的处理器执行指令以接收或以其他方式获取具有参数的启动工作负载API。在至少一个实施例中，在步骤502处，从诸如本文至少结合图1描述的客户端环境112之类的环境接收具有参数的启动工作负载API。在至少一个实施例中，在步骤502处，具有参数的启动工作负载API是诸如本文至少结合图9描述的启动工作负载API 902之类的API。在至少一个实施例中，在步骤502处，启动工作负载API的参数包括本文至少结合图9描述的工作负载指示符904、节点数906、每节点的任务908、环境变量910、工作目录912、启动器914、执行模式916和/或其他参数918中的一个或更多个。在至少一个实施例中，在步骤502之后，使用高性能计算环境启动工作负载的过程500在步骤504处继续。

在至少一个实施例中，在使用高性能计算环境启动工作负载的过程500的步骤504处，执行过程500的处理器执行指令以识别要启动的一个或更多个软件工作负载。在至少一个实施例中，在步骤504处，所述要启动的一个或更多个软件工作负载是在步骤502中接收的具有参数的启动工作负载API的参数。在至少一个实施例中，在步骤504之后，使用高性能计算环境启动工作负载的过程500在步骤506处继续。

在至少一个实施例中，在使用高性能计算环境启动工作负载的过程500的步骤506处，执行过程500的处理器执行指令以选择一个或更多个API来使得启动软件工作负载。在至少一个实施例中，在步骤506处，选择一个或更多个API以使软件工作负载被启动，是至少部分地基于在步骤502处接收的具有参数的启动工作负载API的一个或更多个参数的。在至少一个实施例中，在步骤506处，选择一个或更多个API以使软件工作负载被启动，包括使用例如查找表、决策树、算法或一些其他类似方法从候选API列表中选择一个或更多个API。在至少一个实施例中，在步骤506处，选择一个或更多个API以使软件工作负载被启动，包括选择默认API。在至少一个实施例中，在步骤506之后，使用高性能计算环境启动工作负载的过程500在步骤508处继续。

在至少一个实施例中，在使用高性能计算环境启动工作负载的过程500的步骤508处，确定是否在步骤506处选择了使软件工作负载被启动的API(或多个API)。在至少一个实施例中，在步骤508处，确定是否在步骤506处选择了使软件工作负载被启动的API(或多个API)包括：确定是否选择了多个可接受的API、确定是否选择了单个API(或一组API)、确定是否选择了默认的API和/或确定是否没有选择API。在至少一个实施例中，在步骤508处，如果确定在步骤506处选择了使软件工作负载被启动的API(或多个API)(“是”分支)，则使用高性能计算环境启动工作负载的过程500在步骤510处继续。在至少一个实施例中，在步骤508处，如果确定在步骤506处未选择使软件工作负载被启动的API(或多个API)(“否”分支)，则使用高性能计算环境启动工作负载的过程500在步骤514处继续。

在至少一个实施例中，在使用高性能计算环境启动工作负载的过程500的步骤510处，执行过程500的处理器执行指令，以使得使用在步骤506处选择的一个或更多个API来启动软件工作负载。在至少一个实施例中，在步骤510之后，使用高性能计算环境启动工作负载的过程500在步骤512处继续。

在至少一个实施例中，在使用高性能计算环境启动工作负载的过程500的步骤512处，执行过程500的处理器执行指令以返回成功指示符和作业标识符。在至少一个实施例中，在步骤512处，执行过程500的处理器执行指令，以使用本文至少结合图9描述的启动工作负载API返回920返回成功指示符(例如，成功指示符922)和作业标识符(例如，作业标识符926)。在至少一个实施例中，诸如作业标识符926之类的作业标识符包括一个或更多个作业的指示符(例如，“JOB12345”、“123456”、“JOBID_ABCDE”等)。在至少一个实施例中，在步骤512之后，使用高性能计算环境启动工作负载的过程500结束。在至少一个实施例中，图5中未示出，在步骤512之后，使用高性能计算环境启动工作负载的过程500在步骤502处继续，以接收具有参数的附加启动工作负载API。

在至少一个实施例中，在使用高性能计算环境启动工作负载的过程500的步骤514处，执行过程500的处理器执行指令以返回错误指示符。在至少一个实施例中，在步骤514处，执行过程500的处理器执行指令以使用本文至少结合图9描述的启动工作负载API返回920返回错误指示符(例如，错误指示符924)。在至少一个实施例中，在步骤514之后，使用高性能计算环境启动工作负载的过程500结束。在至少一个实施例中，图5中未示出，在步骤514之后，使用高性能计算环境启动工作负载的过程500在步骤502处继续，以接收具有参数的附加启动工作负载API。

在至少一个实施例中，使用高性能计算环境启动工作负载的过程500的操作以不同于图5示出的顺序执行。在至少一个实施例中，使用高性能计算环境启动工作负载的过程500的操作是同时地或并行地执行的。在至少一个实施例中，使用高性能计算环境启动工作负载的过程500的操作是同时地或并行地执行的，这些操作不依赖于彼此(例如，与顺序无关)。在至少一个实施例中，使用高性能计算环境启动工作负载的过程500的操作由在如本文所述的处理器上执行的多个线程来执行。

图6示出了根据至少一种环境的使用高性能计算环境监控一个或更多个工作负载的过程600。在至少一个实施例中，过程600(或本文所述的任何其他过程，或其变体和/或组合)的部分或全部在配置有计算机可执行指令的一个或更多个计算机系统(诸如图16-53中所述的计算机系统)的控制下执行，并且通过硬件、软件或其组合实现为在一个或更多个处理器上集体执行的代码(例如，计算机可执行指令、一个或更多个计算机程序或一个或更多个应用程序)。在至少一个实施例中，代码以计算机程序的形式存储在计算机可读存储介质上，计算机程序包括可由一个或更多个处理器执行的多个计算机可读指令。在至少一个实施例中，计算机可读存储介质是非暂时性计算机可读介质。在至少一个实施例中，诸如处理器114、处理器104中的一个或更多个处理器、图形处理器106中的一个或更多个图形处理器(全部如本文至少结合图1描述的)之类的处理器，使用诸如本文所述的系统、方法、操作和技术执行过程600的一个或更多个步骤。

在至少一个实施例中，在使用高性能计算环境监控工作负载的过程600的步骤602处，执行过程600的处理器执行指令以接收或以其他方式获取具有参数的监控工作负载API。在至少一个实施例中，在步骤602处，从诸如本文至少结合图1描述的客户端环境112之类的环境接收具有参数的监控工作负载API。在至少一个实施例中，在步骤602处，具有参数的监控工作负载API是诸如本文至少结合图10描述的监控工作负载API 1002之类的API。在至少一个实施例中，在步骤602处，监控工作负载API的参数包括本文至少结合图10描述的作业标识符1004和/或其他参数1006中的一个或更多个。在至少一个实施例中，在步骤602之后，使用高性能计算环境监控工作负载的过程600在步骤604处继续。

在至少一个实施例中，在使用高性能计算环境监控工作负载的过程600的步骤604处，执行过程600的处理器执行指令以识别要监控的一个或更多个软件工作负载。在至少一个实施例中，在步骤604处，所述要监控的一个或更多个软件工作负载是在步骤602处接收的具有参数的监控工作负载API的参数。在至少一个实施例中，在步骤604之后，使用高性能计算环境监控工作负载的过程600在步骤606处继续。

在至少一个实施例中，在使用高性能计算环境监控工作负载的过程600的步骤606处，执行过程600的处理器执行指令以选择一个或更多个API来获取所识别的软件工作负载的状态。在至少一个实施例中，在步骤606处，选择一个或更多个API以使软件工作负载被监控，是至少部分地基于在步骤602处接收的具有参数的监控工作负载API的一个或更多个参数的。在至少一个实施例中，在步骤606处，选择一个或更多个API以使得软件工作负载被监控包括：使用例如查找表、决策树、算法或其他类似方法从候选API列表中选择一个或更多个API。在至少一个实施例中，在步骤606处，选择一个或更多个API以使软件工作负载被监控包括：选择默认API。在至少一个实施例中，在步骤606之后，使用高性能计算环境监控工作负载的过程600在步骤608处继续。

在至少一个实施例中，在使用高性能计算环境监控工作负载的过程600的步骤608处，确定是否在步骤606处选择了使软件工作负载被监控的API(或多个API)。在至少一个实施例中，在步骤608处，确定是否在步骤606处选择了使软件工作负载被监控的API(或多个API)包括：确定是否选择了多个可接受的API、确定是否选择了单个API(或一组API)、确定是否选择了默认API和/或确定是否未选择API。在至少一个实施例中，在步骤608处，如果确定在步骤606处选择了使软件工作负载被监控的API(或多个API)(“是”分支)，则使用高性能计算环境监控工作负载的过程600在步骤610处继续。在至少一个实施例中，在步骤608处，如果确定在步骤606处未选择使软件工作负载被监控的API(或多个API)(“否”分支)，则使用高性能计算环境监控工作负载的过程600在步骤614处继续。

在至少一个实施例中，在使用高性能计算环境监控工作负载的过程600的步骤610处，执行过程600的处理器执行指令，以使用在步骤606处选择的一个或更多个API获取要监控的一个或更多个软件工作负载的状态。在至少一个实施例中，在步骤610处，执行过程600的处理器执行获取要监控的一个或更多个软件工作负载的状态的指令，以从计算环境(诸如，本文至少结合图1描述的计算环境102)获取所述状态。在至少一个实施例中，在步骤610之后，使用高性能计算环境监控工作负载的过程600在步骤612处继续。

在至少一个实施例中，在使用高性能计算环境监控工作负载的过程600的步骤612处，执行过程600的处理器执行指令以返回成功指示符和作业标识符。在至少一个实施例中，在步骤612处，执行过程600的处理器执行指令，以使用本文至少结合图10描述的监控工作负载API返回1020返回成功指示符(例如，成功指示符1022)和工作负载状态(例如，工作负载状态1026)。在至少一个实施例中，在步骤612之后，使用高性能计算环境监控工作负载的过程600结束。在至少一个实施例中，图6中未示出，在步骤612之后，使用高性能计算环境监控工作负载的过程600在步骤602处继续，以接收具有参数的附加监控工作负载API。

在至少一个实施例中，在使用高性能计算环境监控工作负载的过程600的步骤614处，执行过程600的处理器执行指令以返回错误指示符。在至少一个实施例中，在步骤614处，执行过程600的处理器执行指令，以使用本文至少结合图10描述的监控工作负载API返回1020返回错误指示符(例如，错误指示符1024)。在至少一个实施例中，在步骤614之后，使用高性能计算环境监控工作负载的过程600结束。在至少一个实施例中，图6中未示出，在步骤614之后，使用高性能计算环境监控工作负载的过程600在步骤602处继续，以接收具有参数的附加监控工作负载API。

在至少一个实施例中，使用高性能计算环境监控工作负载的过程600的操作以不同于图6示出的顺序执行。在至少一个实施例中，使用高性能计算环境监控工作负载的过程600的操作是同时地或并行地执行的。在至少一个实施例中，使用高性能计算环境监控工作负载的过程600的操作是同时地或并行地执行的，这些操作不依赖于彼此(例如，与顺序无关)。在至少一个实施例中，使用高性能计算环境监控工作负载的过程600的操作由在诸如本文所述的处理器上执行的多个线程来执行。

图7示出了根据至少一种环境的使用高性能计算环境终止一个或更多个工作负载的过程700。在至少一个实施例中，过程700(或本文所述的任何其他过程、或其变体和/或其组合)的部分或全部在诸如图16-53所述的配置有计算机可执行指令的一个或更多个计算机系统的控制下执行，以及通过硬件、软件或其组合实现为在一个或更多个处理器上集体执行的代码(例如，计算机可执行指令、一个或更多个计算机程序或一个或更多个应用程序)。在至少一个实施例中，代码以计算机程序的形式存储在计算机可读存储介质上，计算机程序包括可由一个或更多个处理器执行的多个计算机可读指令。在至少一个实施例中，计算机可读存储介质是非暂时性计算机可读介质。在至少一个实施例中，诸如处理器114、处理器104中的一个或更多个处理器、图形处理器106中的一个或更多个图形处理器(全部如本文至少结合图1描述的)之类的处理器，使用诸如本文所述的系统、方法、操作和技术执行过程700的一个或更多个步骤。

在至少一个实施例中，在使用高性能计算环境终止工作负载的过程700的步骤702处，执行过程700的处理器执行指令以接收或以其他方式获取具有参数的终止工作负载API。在至少一个实施例中，在步骤702处，从诸如本文至少结合图1描述的客户端环境112之类的环境接收具有参数的终止工作负载API。在至少一个实施例中，在步骤702处，具有参数的终止工作负载API是诸如本文至少结合图11描述的终止工作负载API 1102之类的API。在至少一个实施例中，在步骤702处，终止工作负载API的参数包括本文至少结合图11描述的作业标识符1104和/或其他参数1106中的一个或更多个。在至少一个实施例中，在步骤702之后，使用高性能计算环境终止工作负载的过程700在步骤704处继续。

在至少一个实施例中，在使用高性能计算环境终止工作负载的过程700的步骤704处，执行过程700的处理器执行指令以识别要终止的一个或更多个软件工作负载。在至少一个实施例中，在步骤704处，所述要终止的一个或更多个软件工作负载是在步骤702处接收的具有参数的终止工作负载API的参数。在至少一个实施例中，在步骤704之后，使用高性能计算环境终止工作负载的过程700在步骤706处继续。

在至少一个实施例中，在使用高性能计算环境终止工作负载的过程700的步骤706处，执行过程700的处理器执行指令以选择一个或更多个API来终止所识别的软件工作负载。在至少一个实施例中，在步骤706处，选择一个或更多个API以使软件工作负载被终止，是至少部分地基于在步骤702处接收的具有参数的终止工作负载API的一个或更多个参数的。在至少一个实施例中，在步骤706处，选择一个或更多个API以使软件工作负载被终止包括：使用例如查找表、决策树、算法或其他类似方法从候选API列表中选择一个或更多个API。在至少一个实施例中，在步骤706处，选择一个或更多个API以使软件工作负载被终止包括：选择默认API。在至少一个实施例中，在步骤706之后，使用高性能计算环境终止工作负载的过程700在步骤708处继续。

在至少一个实施例中，在使用高性能计算环境终止工作负载的过程700的步骤708处，确定是否在步骤706处选择了使软件工作负载被终止的API(或多个API)。在至少一个实施例中，在步骤708处，确定是否在步骤706处选择了使软件工作负载被终止的API(或多个API)包括：确定是否选择了多个可接受的API、确定是否选择了单个API(或一组API)、确定是否选择了默认API和/或确定是否未选择API。在至少一个实施例中，在步骤708处，如果确定在步骤706处选择了使软件工作负载被终止的API(或多个API)(“是”分支)，则使用高性能计算环境终止工作负载的过程700在步骤710处继续。在至少一个实施例中，在步骤708处，如果确定在步骤706处未选择使软件工作负载被终止的API(或多个API)(“否”分支)，则使用高性能计算环境终止工作负载的过程700在步骤716处继续。

在至少一个实施例中，在使用高性能计算环境终止工作负载的过程700的步骤710处，执行过程700的处理器执行指令，以使得使用在步骤706处选择的一个或更多个API来终止一个或更多个软件工作负载。在至少一个实施例中，在步骤710处，执行过程700的处理器执行指令以使一个或更多个软件工作负载被终止，终止在诸如本文至少结合图1描述的计算环境102之类的计算环境上运行的所述状态。在至少一个实施例中，在步骤710之后，使用高性能计算环境终止工作负载的过程700在步骤712处继续。

在至少一个实施例中，在使用高性能计算环境终止工作负载的过程700的步骤712处，确定在步骤704处识别的软件工作负载是否在步骤710处被终止。在至少一个实施例中，在步骤712处，执行过程700的处理器执行指令，以通过查询诸如本文至少结合图1描述的计算环境102之类的计算环境来确定在步骤704处识别的软件工作负载是否在步骤710处被终止。在至少一个实施例中，在步骤712处，执行过程700的处理器执行指令，以通过执行一个或更多个附加API(诸如本文至少结合图10描述的监控工作负载API 1002)来确定在步骤704处识别的软件工作负载是否在步骤710处被终止。在至少一个实施例中，在步骤712处，执行过程700的处理器执行指令，以通过执行本文至少结合图6描述的过程600的一个或更多个步骤来确定在步骤704处识别的软件工作负载是否在步骤710处被终止。在至少一个实施例中，在步骤712处，如果确定在步骤704处识别的软件工作负载在步骤710处被终止(“是”分支)，则使用高性能计算环境终止工作负载的过程700在步骤714处继续。在至少一个实施例中，在步骤712处，如果确定在步骤704处识别的软件工作负载并未在步骤710处被终止(“否”分支)，则使用高性能计算环境终止工作负载的过程700在步骤716处继续。

在至少一个实施例中，在使用高性能计算环境终止工作负载的过程700的步骤714处，执行过程700的处理器执行指令以返回成功指示符。在至少一个实施例中，在步骤714处，执行过程700的处理器执行指令，以使用本文至少结合图11描述的终止工作负载API返回1120返回成功指示符(例如，成功指示符1022)。在至少一个实施例中，在步骤714之后，使用高性能计算环境终止工作负载的过程700结束。在至少一个实施例中，图7中未示出，在步骤714之后，使用高性能计算环境终止工作负载的过程700在步骤702处继续，以接收具有参数的附加终止工作负载API。

在至少一个实施例中，在使用高性能计算环境终止工作负载的过程700的步骤716处，执行过程700的处理器执行指令以返回错误指示符。在至少一个实施例中，在步骤714处，执行过程700的处理器执行指令，以使用本文至少结合图11描述的终止工作负载API返回1120返回错误指示符(例如，错误指示符1124)。在至少一个实施例中，在步骤716之后，使用高性能计算环境终止工作负载的过程700结束。在至少一个实施例中，图7中未示出，在步骤716之后，使用高性能计算环境终止工作负载的过程700在步骤702处继续，以接收具有参数的附加终止工作负载API。

在至少一个实施例中，使用高性能计算环境终止工作负载的过程700的操作以不同于图7示出的顺序执行。在至少一个实施例中，使用高性能计算环境终止工作负载的过程700的操作被同时地或并行地执行。在至少一个实施例中，使用高性能计算环境终止工作负载的过程700的操作被同时地或并行地执行，这些操作不依赖于彼此(例如，与顺序无关)。在至少一个实施例中，使用高性能计算环境终止工作负载的过程700的操作由在诸如本文所述的处理器上执行的多个线程来执行。

图8是根据至少一个实施例的示出由一个或更多个处理器执行的软件程序的框图800。在至少一个实施例中，框图800示出了将由处理器执行的软件程序804，所述处理器诸如异构处理器内的CPU 802(例如，中央处理单元)以及GPU 810(例如，图形处理单元)和加速器814。在至少一个实施例中，CPU 802是诸如处理器114和/或处理器104中的一个或更多个处理器之类的处理器，如本文至少结合图1描述的。在至少一个实施例中，CPU 802包括一个或更多个处理器，诸如处理器114中的一个或更多个、处理器104中的一个或更多个处理器、图形处理器106中的一个或更多个图形处理器和/或其他处理器和/或加速器中的一个或更多个，诸如本文所述。在至少一个实施例中，GPU 810是诸如图形处理器106中的一个或更多个图形处理器之类的图形处理器，如本文至少结合图1描述的。在至少一个实施例中，GPU 810包括一个或更多个处理器，诸如处理器114中的一个或更多个处理器、处理器104中的一个或更多个处理器、图形处理器106中的一个或更多个图形处理器和/或其他处理器和/或加速器中的一个或更多个，如本文所述。在至少一个实施例中，CPU 802是具有本文进一步描述的任何架构的任何处理器。在至少一个实施例中，CPU 802是具有本文进一步描述的任何架构的任何通用处理器。在至少一个实施例中，诸如CPU 802之类的处理器包括用于执行一个或更多个计算操作的电路。在至少一个实施例中，诸如CPU 802之类的处理器包括用于执行本文进一步描述的一个或更多个计算操作的电路的任何配置。

在至少一个实施例中，CPU 802执行并行计算环境808。在至少一个实施例中，CPU802包括诸如本文所述的那些之类的一个或更多个处理器。在至少一个实施例中，诸如CPU802之类的处理器执行并行计算环境808(诸如计算统一设备架构(CUDA))。在至少一个实施例中，并行计算环境808包括指令，该指令如果由一个或更多个处理器(诸如CPU 802)执行，则促进由异构处理器内的一个或更多个CPU 802、一个或更多个并行处理单元(PPU)(诸如GPU 810)和/或一个或更多个加速器814执行一个或更多个软件程序。

在至少一个实施例中，一个或更多个PPU是包括用于执行并行计算操作的一个或更多个电路的处理器，诸如GPU 810和本文进一步描述的任何其他并行处理器。在至少一个实施例中，GPU 810是包括用于执行一个或更多个计算操作的电路的硬件，如下文结合各种实施例进一步描述的。在至少一个实施例中，GPU 810包括用于各自执行一个或更多个计算操作的一个或更多个处理核心。在至少一个实施例中，GPU 810包括用于执行一个或更多个并行计算操作的一个或更多个处理核心。在至少一个实施例中，GPU 810与CPU 802或其他处理器一起被封装为片上系统(SoC)。在至少一个实施例中，GPU 810与CPU 802或其他处理器一起被封装在共享管芯或其他基板上，作为片上系统(SoC)。在至少一个实施例中，异构处理器内的一个或更多个加速器814是包括用于执行特定的计算操作的一个或更多个电路的硬件，诸如深度学习加速器(DLA)、可编程视觉加速器(PVA)、现场可编程门阵列(FPGA)或本文进一步描述的任何其他加速器。在至少一个实施例中，异构处理器内的加速器814与CPU 802或其他处理器一起被封装为片上系统(SoC)。在至少一个实施例中，异构处理器内的加速器814与CPU 802或其他处理器一起被封装在共享管芯或其他基板上，作为片上系统(SoC)。在至少一个实施例中，异构处理器内的一个或更多个CPU(诸如CPU 802)、一个或更多个GPU(诸如GPU 810)、一个或更多个或其他PPU和/或加速器814被封装为片上系统(SoC)。在至少一个实施例中，异构处理器内的一个或更多个CPU 802、一个或更多个GPU810或其他PPU和/或加速器814被封装在共享管芯或其他基板上，作为片上系统(SoC)。

在至少一个实施例中，并行计算环境808(诸如CUDA)包括库和用于使用异构处理器内的一个或更多个PPU(诸如GPU 810)和/或一个或更多个加速器814执行一个或更多个计算操作的其他软件程序。在至少一个实施例中，并行计算环境808包括库和其他软件程序，这些软件程序如果由一个或更多个处理器(诸如一个或更多个CPU 802)执行，则会使异构处理器内的一个或更多个PPU(诸如GPU 810)和/或一个或更多个加速器814执行一个或更多个计算操作。在至少一个实施例中，并行计算环境808包括库，该库如果被执行，则会使异构处理器中的一个或更多个PPU(诸如GPU 810)和/或一个或更多个加速器814执行数学运算。在至少一个实施例中，并行计算环境808包括库，该库如果被执行，则会使异构处理器中的一个或更多个PPU(诸如GPU 810)和/或一个或更多个加速器814执行本文进一步描述的任何其他操作。

在至少一个实施例中，异构处理器内的一个或更多个PPU(诸如GPU 810)和/或一个或更多个加速器814响应于一个或更多个应用程序编程接口(API)来执行一个或更多个计算操作。在至少一个实施例中，API是一组软件指令，该组软件指令如果由一个或更多个处理器(诸如一个或更多个CPU 802)执行，则会使异构处理器内的一个或更多个PPU(诸如GPU 810)和/或一个或更多个加速器814执行一个或更多个计算操作。在至少一个实施例中，并行计算环境808包括一个或更多个API 806，该API 806如果由一个或更多个处理器(诸如一个或更多个CPU 802)执行，则会使异构处理器内的一个或更多个PPU(诸如GPU810)和/或一个或更多个加速器814执行一个或更多个计算操作。在至少一个实施例中，一个或更多个API 806包括一个或更多个功能(function)，该功能如果被执行，则会使一个或更多个处理器(诸如一个或更多个CPU 802)执行一个或更多个操作，诸如计算操作、错误报告、调度其他操作以由异构处理器内的GPU 810和/或加速器814执行或本文进一步描述的任何其他操作。在至少一个实施例中，一个或更多个API 806包括一个或更多个功能，该功能如果被执行，会使一个或更多个PPU(诸如GPU 810)执行一个或更多个操作，诸如计算操作、错误报告或本文进一步描述的任何其他操作。在至少一个实施例中，一个或更多个API806包括诸如下面结合图9-11所述的一个或更多个功能，该功能如果被执行，则会使异构处理器内的一个或更多个加速器814执行一个或更多个操作，诸如计算操作、错误报告或本文进一步描述的任何其他操作。在至少一个实施例中，一个或更多个API 806包括一个或更多个功能，用于使CPU 802响应于异构处理器内的一个或更多个PPU(诸如GPU 810)和/或一个或更多个加速器814生成的信息或事件，来执行一个或更多个计算操作。在至少一个实施例中，一个或更多个API 806包括一个或更多个功能，该功能如果被调用，则使CPU 802响应于异构处理器中的一个或更多个PPU(诸如GPU 810)和/或一个或更多个加速器814生成的信息或事件，来执行一个或更多个计算操作。

至少一个实施例中，诸如CPU 802之类的处理器执行一个或更多个软件程序804。在至少一个实施例中，一个或更多个软件程序是指令集，该指令集如果被执行，则使一个或更多个处理器(诸如，异构处理器中的一个或更多个CPU 802、PPU(诸如GPU 810)和/或加速器814)执行计算操作。在至少一个实施例中，软件程序804包括将由一个或更多个PPU(诸如GPU 810)执行的指令和/或操作。在至少一个实施例中，一个或更多个软件程序804包括特定于GPU的代码812和/或特定于加速器的代码816。在至少一个实施例中，要由一个或更多个PPU(诸如GPU 810)执行的指令和/或操作是特定于PPU的代码或特定于GPU的代码812。在至少一个实施例中，特定于GPU的代码812是将由一个或更多个GPU 810执行的一组软件指令和/或其他操作，如本文进一步描述的。在至少一个实施例中，软件程序804包括将由异构处理器中的一个或更多个加速器814执行的指令和/或操作。在至少一个实施例中，将由异构处理器中的一个或更多个加速器814执行的指令和/或操作是特定于加速器的代码816。在至少一个实施例中，特定于加速器的代码816是将由一个或更多个加速器814执行的一组软件指令和/或其他操作，如本文进一步描述的。在至少一个实施例中，特定于PPU的代码或特定于GPU的代码812和/或特定于加速器的代码816用于响应于一个或更多个API 806被执行，如下文结合图9-11所述。

图9是根据至少一个实施例的示出启动一个或更多个软件工作负载的应用程序编程接口(API)的框图900。在至少一个实施例中，处理器的一个或更多个电路用于执行启动工作负载API 902，以使用诸如本文至少结合图1描述的计算环境102之类的计算环境启动一个或更多个软件工作负载。在至少一个实施例中，图9中未示出，诸如本文所述的处理器的一个或更多个电路执行一个或更多个指令以执行启动工作负载API 902，以使第一应用程序编程接口(API)选择第二API，以执行由第一API识别的一个或更多个软件工作负载。在至少一个实施例中，图9中未示出，诸如本文所述的处理器的一个或更多个电路执行一个或更多个指令以执行启动工作负载API 902，以执行第一应用程序编程接口(API)以使第二API被执行，从而使一个或更多个软件工作负载由一个或更多个其他处理器执行。在至少一个实施例中，图9中也未示出，诸如本文所述的处理器的一个或更多个电路执行一个或更多个指令以执行启动工作负载API 902，以使第一应用程序编程接口(API)选择第二API，以响应于接收到诸如本文所述的附加API来执行由第一API识别的一个或更多个软件工作负载。

在至少一个实施例中，启动工作负载API 902在被调用时接收指示关于要使用诸如本文所述的技术执行的操作的信息的一个或更多个参数。在至少一个实施例中，启动工作负载API 902在被调用时接收指示关于要使用诸如本文所述的技术执行的指令的信息的一个或更多个参数。

在至少一个实施例中，启动工作负载API 902接收包括工作负载指示符904的一个或更多个参数作为输入。在至少一个实施例中，工作负载指示符904是包括可用于标识、指示或以其他方式指定要使用启动工作负载API 902启动的一个或更多个工作负载的信息的数据值。在至少一个实施例中，工作负载指示符904是要被执行以使一个或更多个工作负载被启动的命令(例如，命令行命令的脚本)。在至少一个实施例中，由工作负载指示符904标识、指示或以其他方式指定的要启动的所述一个或更多个工作负载是可由启动工作负载API 902使用以启动一个或更多个软件工作负载的多个参数中的一个或更多个。在至少一个实施例中，工作负载指示符904是用于识别、指示或以其他方式向API(诸如启动工作负载API 902)指定一组操作或指令的数据值，该组操作或指令将由异构处理器内的一个或更多个PPU(诸如GPU)和/或一个或更多个加速器执行，如本文所述。

在至少一个实施例中，启动工作负载API 902接收包括节点数906的一个或更多个参数作为输入。在至少一个实施例中，节点数906是，包括可用于标识、指示或以其他方式指定节点数的信息的数据值，该节点数要用于使用启动工作负载API 902启动工作负载。在至少一个实施例中，由节点数906标识、指示或以其他方式指定的要用于启动工作负载的节点数是启动工作负载API 902可用于启动一个或更多个软件工作负载的多个参数之一。在至少一个实施例中，节点数906是用于标识、指示或以其他方式向API(诸如启动工作负载API902)指定一组操作或指令的数据值，该组操作或指令将由异构处理器内的一个或更多个PPU(诸如GPU)和/或一个或更多个加速器执行，如本文所述。

在至少一个实施例中，启动工作负载API 902接收包括每节点的任务908的一个或更多个参数作为输入。在至少一个实施例中，每节点的任务908是包括可用于标识、指示或以其他方式指定每节点的任务数的信息的数据值，该每节点的任务数将用于使用启动工作负载API 902启动工作负载。在至少一个实施例中，由每节点的任务908标识、指示或以其他方式指定的要用于启动工作负载的每节点的任务数是启动工作负载API 902可用于启动一个或更多个软件工作负载的多个参数之一。在至少一个实施例中，每节点的任务908是用于标识、指示或以其他方式向API(诸如启动工作负载API 902)指定一组操作或指令的数据值，该组操作或指令将由异构处理器内的一个或更多个PPU(诸如GPU)和/或一个或更多个加速器执行，如本文所述。

在至少一个实施例中，启动工作负载API 902接收包括环境变量910的一个或更多个参数作为输入。在至少一个实施例中，环境变量910是包括可用于使用启动工作负载API902标识、指示或以其他方式指定一个或更多个环境变量的信息的数据值。在至少一个实施例中，环境变量910包括使用键-值对列表指定的一个或更多个键-值对(例如，键＝值)。在至少一个实施例中，由环境变量910标识、指示或以其他方式指定的环境变量是可由启动工作负载API 902使用以启动一个或更多个软件工作负载的多个参数之一。在至少一个实施例中，环境变量910是用于标识、指示或以其他方式向API(诸如启动工作负载API 902)指定一组操作或指令的数据值，该组操作或指令将由异构处理器内的一个或更多个PPU(诸如GPU)和/或一个或更多个加速器执行，如本文所述。

在至少一个实施例中，启动工作负载API 902接收包括工作目录912的一个或更多个参数作为输入。在至少一个实施例中，工作目录912是包括可用于标识、指示或以其他方式指定工作目录的信息的数据值，使用启动工作负载API 902从工作目录启动工作负载。在至少一个实施例中，由工作目录912标识、指示或以其他方式指定的工作目录是可由启动工作负载API902使用以启动一个或更多个软件工作负载的多个参数之一。在至少一个实施例中，工作目录912是用于标识、指示或以其他方式向API(诸如启动工作负载API 902)指定一组操作或指令的数据值，该组操作或指令将由异构处理器内的一个或更多个PPU(诸如GPU)和/或一个或更多个加速器执行，如本文所述。

在至少一个实施例中，启动工作负载API 902接收包括启动器914的一个或更多个参数作为输入。在至少一个实施例中，启动器914是包括可用于标识、指示或以其他方式指定启动器的信息的数据值，该启动器将用于使用启动工作负载API 902启动软件工作负载。在至少一个实施例中，启动器914标识、指示或以其他方式指定将用于使用启动工作负载API 902启动软件工作负载的软件程序。在至少一个实施例中，启动器914标识、指示或以其他方式指定的启动器是可由启动工作负载API 902使用以启动一个或更多个软件工作负载的多个参数之一。在至少一个实施例中，启动器914是用于标识、指示或以其他方式向诸如启动工作负载API 902之类的API指定一组操作或指令的数据值，该组操作或指令将由异构处理器内的一个或更多个PPU(诸如GPU)和/或一个或更多个加速器执行，如本文所述。

在至少一个实施例中，启动工作负载API 902接收包括执行模式916的一个或更多个参数作为输入。在至少一个实施例中，执行模式916是数据值，该数据值包括可用于标识、指示或以其他方式指定在使用启动工作负载API 902启动软件工作负载时要使用的一个或更多个执行模式的信息。在至少一个实施例中，执行模式916指定一个或更多个执行模式，包括但不限于支持异步故障的启动和/或调试模式下的启动。在至少一个实施例中，由执行模式916标识、指示或以其他方式指定的一个或更多个执行模式是由启动工作负载API 902可用于启动一个或更多个软件工作负载的多个参数之一。在至少一个实施例中，执行模式916是用于标识、指示或以其他方式向API(诸如启动工作负载API 902)指定将由异构处理器中的一个或更多个PPU(诸如GPU)和/或一个或更多个加速器执行的一组操作或指令的数据值，如本文所述。

在至少一个实施例中，启动工作负载API 902接收包括一个或更多个其他参数918的一个或更多个参数作为输入。在至少一个实施例中，其他参数918是包括用于指示在执行启动工作负载API 902以启动一个或更多个软件工作负载时可用的任何其他信息的信息的数据。在至少一个实施例中，工作负载指示符904、节点数906、每节点的任务908、环境变量910、工作目录912、启动器914、执行模式916和/或其他参数918中的一个或更多个是启动工作负载API 902的必需参数。在至少一个实施例中，工作负载指示符904、节点数906、每节点的任务908、环境变量910、工作目录912、启动器914、执行模式916和/或其他参数918中的一个或更多个是启动工作负载API 902的可选参数。

在至少一个实施例中，图9中未示出，处理器执行一个或更多个指令以执行一个或更多个API(诸如启动工作负载API 902)，以使第一应用程序编程接口(API)选择第二API，以使用一个或更多个参数来执行由第一API识别的一个或更多个软件工作负载，该一个或更多个参数包括但不限于工作负载指示符904、节点数906、每节点的任务908、环境变量910、工作目录912、启动器914、执行模式916和/或其他参数918。在至少一个实施例中，图9中未示出，处理器执行一个或更多个指令以执行一个或更多个API(诸如启动工作负载API902)，以执行第一应用程序编程接口(API)以使第二API被执行，从而使一个或更多个软件工作负载由一个或更多个其他处理器使用一个或更多个参数来执行，该一个或更多个参数包括但不限于工作负载指示符904、节点数906、每节点的任务908、环境变量910、工作目录912、启动器914、执行模式916和/或其他参数918。

在至少一个实施例中，启动工作负载API 902如果被调用，则使一个或更多个API(诸如本文至少结合图8描述的一个或更多个API 806)添加一个或更多个操作或指令，以被添加、插入或以其他方式包括在将由异构处理器内的一个或更多个加速器执行的流或指令集中。在至少一个实施例中，启动工作负载API 902如果被调用，则使一个或更多个API(诸如一个或更多个API 806)在并行计算环境(诸如本文至少结合图8描述的并行计算环境808)中添加一个或更多个操作或指令，以被添加、插入或以其他方式包括在由异构处理器内的一个或更多个加速器执行的流或指令集中。

在至少一个实施例中，响应于启动工作负载API 902，一个或更多个API 806如果被执行，则使一个或更多个处理器执行启动工作负载API返回920。在至少一个实施例中，启动工作负载API返回920是指令集，该指令集如果被执行，则响应于启动工作负载API 902生成和/或指示一个或更多个数据值。

在至少一个实施例中，启动工作负载API返回920指示成功指示符922。在至少一个实施例中，成功指示符922是包括用于指示启动工作负载API 902的成功的任意值的数据。在至少一个实施例中，成功指示符922包括指示由于执行启动工作负载API 902而生成的一个或更多个特定类型的成功的信息。在至少一个实施例中，成功指示符922包括指示由于启动工作负载API 902而生成的一个或更多个其他数据值的信息。

在至少一个实施例中，启动工作负载API返回920指示错误指示符924。在至少一个实施例中，错误指示符924是包括用于指示启动工作负载API 902的失败的任意值的数据。在至少一个实施例中，错误指示符924包括指示由于执行启动工作负载API 902而生成的一个或更多个特定类型的错误的信息。在至少一个实施例中，错误指示符924包括指示由于执行启动工作负载API 902而生成的一个或更多个其他数据值的信息。

在至少一个实施例中，启动工作负载API返回920指示作业标识符926。在至少一个实施例中，作业标识符926是包括指示用于启动工作负载API 902的作业的标识符(例如，启动的工作负载的标识符)的任意值的数据。在至少一个实施例中，作业标识符926包括可用于向监控工作负载API 1002、终止工作负载API 1102和/或其他这样的API识别启动的工作负载的信息，如本文所述。在至少一个实施例中，作业标识符926包括指示由于启动工作负载API 902而生成的一个或更多个其他数据值的信息。在至少一个实施例中，作业标识符926是一个或更多个其他API的参数，该一个或更多个其他API包括但不限于用于监控工作负载的API(诸如监控工作负载API 1002)(本文至少结合图10描述的)和/或用于终止工作负载的API(诸如终止工作负载API 1102)(本文至少结合图11描述的)。

在至少一个实施例中，并行计算环境808包括一个或更多个API 806，包括但不限于启动工作负载API 902，其将各种类型的各种操作添加到由异构处理器中的一个或更多个加速器执行的流中。在至少一个实施例中，流操作包括获取信号量(semaphore)操作。在至少一个实施例中，流操作包括释放信号量操作。在至少一个实施例中，流操作包括刷新和/或无效高速缓存存储器(诸如，异构处理器中的诸如GPU之类的PPU的L2高速缓存存储器和/或一个或更多个加速器的高速缓存存储器)的一个或更多个操作。在至少一个实施例中，流操作包括用于指示向外部设备(诸如，异构处理器中的一个或更多个加速器)提交操作的一个或更多个操作。在至少一个实施例中，指示流操作类型的示例软件代码如下：

/**

*Types of stream operations

*/

typedef enum

{

/**<Acquire semaphore*/

CUSOCKET_STREAM_OP_SEMA_ACQ,

/**<Release semaphore*/

CUSOCKET_STREAM_OP_SEMA_REL,

/**<Flush GPU L2 cache*/

CUSOCKET_STREAM_OP_GPU_L2_FLUSH,

/**<Invalidate GPU L2 cache*/

CUSOCKET_STREAM_OP_GPU_L2_INVALIDATE,

/**<Submitting an operation to an external device*/

CUSOCKET_STREAM_OP_EXTERNAL_DEVICE_SUBMIT

}cuSocketStreamOpType；

在至少一个实施例中，包括一个或更多个API 806，(包括但不限于启动工作负载API 902)的并行计算环境808包括一个或更多个函数签名，该函数签名可用于指示将由异构处理器内的一个或更多个加速器执行的操作的一个或更多个回调函数。在至少一个实施例中，一个或更多个操作使一个或更多个回调函数被执行。在至少一个实施例中，指示回调函数的函数签名的示例软件代码如下：

/**

*Callback function signature for submitting to an external device.

*/

typedef unsigned int(*cuSocketExternalDeviceSubmitCallback)(void*submitArgs)；

在至少一个实施例中，为了指定异构处理器内的一个或更多个加速器来执行由启动工作负载API 902向一个或更多个API 806指示的一个或更多个操作，一个或更多个API806的一个或更多个数据结构可用于指定一个或更多个外部设备，其中所述一个或更多个API 806用于提交用于该一个或更多个外部设备所述一个或更多个操作。在至少一个实施例中，指示表示用于异构处理器内的一个或更多个加速器的设备节点的数据结构的示例软件代码如下：

/**

*Struct representing the external device node that captures theinformation

*about a particular task submit for an external device.

*/

typedef struct

{

void*submitArgs；

cuSocketExternalDeviceSubmitCallback callback；

}cuSocketExternalDeviceNodeParams；

在至少一个实施例中，为了指定由将由异构处理器内的一个或更多个加速器执行的一个或更多个操作所指示的一个或更多个操作的类型和数据，要使用一个或更多个API806的一个或更多个数据结构。在至少一个实施例中，指示用于指定要由异构处理器内的一个或更多个加速器执行的一个或更多个操作的类型和数据的数据结构的示例软件代码如下：

/>

在至少一个实施例中，一个或更多个API 806包括指令，该指令如果被执行，则使一个或更多个操作或指令被添加到要由异构处理器内的一个或更多个加速器执行的流或其他指令集中。在至少一个实施例中，用于使一个或更多个操作或指令被添加到流或其他指令集中的指令，响应于启动工作负载API 902而被执行，如上文所述。在至少一个实施例中，指示并行计算环境808(诸如CUDA)中的流操作API调用的示例软件代码如下：

/>

在至少一个实施例中，一个或更多个API 806包括指令，该指令如果被执行，则使得将由异构处理器内的一个或更多个加速器执行的一个或更多个操作或指令被添加到一个或更多个可执行图中，类似于将由异构处理器内的一个或更多个加速器执行的一个或更多个操作或指令如何响应于启动工作负载API 902被添加到一个或更多个流或指令集中。在至少一个实施例中，指示由并行计算环境808的一个或更多个API 806将一个或更多个操作或指令添加到一个或更多个可执行图形的示例软件代码如下：

图10是根据至少一个实施例的示出用于监控一个或更多个软件工作负载的应用程序编程接口(API)的框图1000。在至少一个实施例中，处理器的一个或更多个电路用于执行监控工作负载API 1002，以监控计算环境(诸如，本文至少结合图1描述的计算环境102)的一个或更多个软件工作负载。在至少一个实施例中，处理器的一个或更多个电路用于执行监控工作负载API 1002，以监控使用本文至少结合图9描述的启动工作负载API 902启动的一个或更多个软件工作负载。在至少一个实施例中，图10中未示出，诸如本文所述的处理器的一个或更多个电路执行一个或更多个指令以执行监控工作负载API 1002，以执行第一应用程序编程接口(API)以选择第二API，以监控由第一API识别的一个或更多个软件工作负载的执行。在至少一个实施例中，图10中未示出，诸如本文所述的处理器的一个或更多个电路执行一个或更多个指令以执行监控工作负载API 1002，以执行第一应用程序编程接口(API)以使第二API被执行，以使得提供一个或更多个软件工作负载的状态。在至少一个实施例中，图10中也未示出，诸如本文所述的处理器的一个或更多个电路执行一个或更多个指令以执行监控工作负载API 1002，以执行第一应用程序编程接口(API)以选择第二API，以响应于接收到诸如本文所述的附加API，监控由第一API识别的一个或更多个软件工作负载的执行。

在至少一个实施例中，监控工作负载API 1002在被调用时，接收用于指示关于要使用诸如本文所述技术执行的操作的信息的一个或更多个参数。在至少一个实施例中，监控工作负载API 1002在被调用时，接收用于指示关于要使用诸如本文所述技术执行的指令的信息的一个或更多个参数。

在至少一个实施例中，监控工作负载API 1002接收包括作业标识符1004的一个或更多个参数作为输入。在至少一个实施例中，作业标识符1004是包括可用于标识、指示或以其他方式指定要使用监控工作负载API 1002监控的一个或更多个工作负载的信息的数据值。在至少一个实施例中，作业标识符1004是由本文所述的启动工作负载API 902(例如，作业标识符926)返回的作业标识符。在至少一个实施例中，由作业标识符1004标识、指示或以其他方式指定的作业标识符是可由监控工作负载API 1002使用以监控一个或更多个软件工作负载的多个参数之一。在至少一个实施例中，作业标识符1004是用于标识、指示或以其他方式向API(诸如监控工作负载API 1002)指定一组操作或指令的数据值，该组操作或指令要由异构处理器内的一个或更多个PPU(诸如GPU)和/或一个或更多个加速器执行，如本文所述。

在至少一个实施例中，监控工作负载API 1002接收包括一个或更多个其他参数1006的一个或更多个参数作为输入。在至少一个实施例中，其他参数1006是包括用于指示可用于执行监控工作负载API 1002以监控一个或更多个软件工作负载的任何其他信息的信息的数据。在至少一个实施例中，作业标识符1004和/或其他参数1006中的一个或更多个是监控工作负载API 1002的必需参数。在至少一个实施例中，作业标识符1004和/或其他参数1006中的一个或更多个是监控工作负载API 1002的可选参数。

在至少一个实施例中，图10中未示出，处理器执行一个或更多个指令以执行一个或更多个API(诸如监控工作负载API 1002)，以执行第一应用程序编程接口(API)以选择第二API，以使用包括但不限于作业标识符1004和/或其他参数1006的一个或更多个参数监控第一API识别的一个或更多个软件工作负载的执行。在至少一个实施例中，图10中未示出，处理器执行一个或更多个指令以执行一个或更多个API(诸如监控工作负载API 1002)，以执行第一应用程序编程接口(API)以使第二API被执行，以使用包括但不限于作业标识符1004和/或其他参数1006的一个或更多个参数来提供一个或更多个软件工作负载的状态。

在至少一个实施例中，监控工作负载API 1002如果被调用，则使一个或更多个API(诸如本文至少结合图8描述的一个或更多个API 806)添加一个或更多个操作或指令，以被添加、插入或以其他方式包括在由异构处理器内的一个或更多个加速器执行的流或指令集中。在至少一个实施例中，监控工作负载API 1002如果被调用，则使一个或更多个API(诸如一个或更多个API 806)在并行计算环境(诸如本文至少结合图8描述的并行计算环境808)中添加一个或更多个操作或指令，以被添加、插入或以其他方式包括在由异构处理器内的一个或更多个加速器执行的流或指令集中。

在至少一个实施例中，响应于监控工作负载API 1002，一个或更多个API 806如果被执行，则使一个或更多个处理器执行监控工作负载API返回1020。在至少一个实施例中，监控工作负载API返回1020是指令集，该指令集如果被执行，则响应于监控工作负载API1002生成和/或指示一个或更多个数据值。在至少一个实施例中，监控工作负载API返回1020指示成功指示符1022。在至少一个实施例中，成功指示符1022是包括用于指示监控工作负载API 1002的成功的任意值的数据。在至少一个实施例中，成功指示符1022包括指示由于执行监控工作负载API 1002而生成的一个或更多个特定类型的成功的信息。在至少一个实施例中，成功指示符1022包括指示由于监控工作负载API 1002而生成的一个或更多个其他数据值的信息。

在至少一个实施例中，监控工作负载API返回1020指示错误指示符1024。在至少一个实施例中，错误指示符1024是包括用于指示监控工作负载API 1002的失败的任意值的数据。在至少一个实施例中，错误指示符1024包括指示由于执行监控工作负载API 1002而生成的一个或更多个特定类型的错误的信息。在至少一个实施例中，错误指示符1024包括指示由于监控工作负载API 1002而生成的一个或更多个其他数据值的信息。

在至少一个实施例中，监控工作负载API返回1020指示工作负载状态1026。在至少一个实施例中，工作负载状态1026是包括用于指示要监控的由于执行监控工作负载API1002而获得的工作负载的一个或更多个状态的任何值的数据。在至少一个实施例中，工作负载状态1026包括指示由于监控工作负载API 1002而生成的一个或更多个其他数据值的信息。

在至少一个实施例中，并行计算环境808包括一个或更多个API 806，其包括但不限于监控工作负载API 1002，其将各种类型的各种操作添加到将由异构处理器中的一个或更多个加速器执行的流中。在至少一个实施例中，流操作包括获取信号量操作。在至少一个实施例中，流操作包括释放信号量操作。在至少一个实施例中，流操作包括用于刷新和/或无效高速缓存存储器(诸如，异构处理器内的诸如GPU之类的PPU的L2高速缓存存储器和/或一个或更多个加速器的高速缓存存储器)的一个或更多个操作。在至少一个实施例中，流操作包括用于向外部设备(诸如异构处理器中的一个或更多个加速器)指示操作的提交的一个或更多个操作。在至少一个实施例中，用于向外部设备指示操作的提交的一个或更多个操作使用软件代码，诸如本文至少结合图9描述的指示流操作的示例软件代码。

在至少一个实施例中，包括一个或更多个API 806的并行计算环境808包括但不限于监控工作负载API 1002，该监控工作负载API 1002包括一个或更多个函数签名，其可用于指示针对将由异构处理器内的一个或更多个加速器执行的操作的一个或更多个回调函数。在至少一个实施例中，一个或更多个操作使一个或更多个回调函数被执行。在至少一个实施例中，用于使一个或更多个回调函数被执行的一个或更多个操作使用软件代码，诸如指示用于回调函数的函数签名的示例软件代码，如本文至少结合图9描述的。

在至少一个实施例中，为了指定异构处理器内的一个或更多个加速器来执行由监控工作负载API 1002向一个或更多个API 806指示的一个或更多个操作，一个或更多个API806的一个或更多个数据结构可用于指定所述一个或更多个API 806要提交针对其的所述一个或更多个操作的一个或更多个外部设备。在至少一个实施例中，一个或更多个API 806的可用于指定所述一个或更多个API 806要提交针对其的所述一个或更多个操作的一个或更多个外部设备的一个或更多个数据结构，用于提交所述一个或更多个操作，所述一个或更多个操作使用软件代码，诸如指示表示异构处理器内的一个或更多个加速器的设备节点的数据结构的示例软件代码，如本文至少结合图9描述的。

在至少一个实施例中，为了指定由将由异构处理器内的一个或更多个加速器执行的一个或更多个操作指示的一个或更多个操作的类型和数据，要使用一个或更多个API806的一个或更多个数据结构。在至少一个实施例中，用于指定由将由异构处理器内的一个或更多个加速器执行的一个或更多个操作指示的一个或更多个操作的类型和数据的一个或更多个API 806的一个或更多个数据结构使用软件代码，诸如指示用于指定将由异构处理器内的一个或更多个加速器执行的一个或更多个操作的类型和数据的数据结构的示例软件代码，如本文至少结合图9描述的。

在至少一个实施例中，一个或更多个API 806包括指令，该指令如果被执行，则使一个或更多个操作或指令被添加到将由异构处理器内的一个或更多个加速器执行的流或其他指令集中。在至少一个实施例中，用于使一个或更多个操作或指令被添加到流或其他指令集中的指令将响应于监控工作负载API 1002而被执行，如上文所述。在至少一个实施例中，用于使一个或更多个操作或指令被添加到流或其他指令集中以响应于监控工作负载API 1002而被执行的指令使用软件代码，诸如指示并行计算环境808中的流操作API调用的示例软件代码，如本文至少结合图9描述的。

在至少一个实施例中，一个或更多个API 806包括指令，该指令如果被执行，则使得将由异构处理器内的一个或更多个加速器执行的一个或更多个操作或指令被添加到一个或更多个可执行图中。在至少一个实施例中，指令如果被执行，则使得将由异构处理器内的一个或更多个加速器执行的一个或更多个操作或指令被添加到一个或更多个可执行图形中，类似于将由异构处理器内的一个或更多个加速器执行的一个或更多个操作或指令如何响应于如本文所述的监控工作负载API 1002被添加到一个或更多个流或指令集中。在至少一个实施例中，如果被执行，则使得将由异构处理器内的一个或更多个加速器执行的一个或更多个操作或指令被添加到一个或更多个可执行图中的指令使用软件代码，诸如指示由并行计算环境808的一个或更多个API 806将一个或更多个操作或指令添加到一个或更多个可执行图的示例软件代码，如本文至少结合图9描述的。

图11是根据至少一个实施例的示出用于终止一个或更多个软件工作负载的应用程序编程接口(API)的框图1100。在至少一个实施例中，处理器的一个或更多个电路用于执行终止工作负载API 1102，以终止计算环境(诸如，本文至少结合图1描述的计算环境102)的一个或更多个软件工作负载。在至少一个实施例中，处理器的一个或更多个电路用于执行终止工作负载API 1102，以终止使用本文至少结合图9描述的启动工作负载API 902启动的一个或更多个软件工作负载。在至少一个实施例中，图11中未示出，诸如本文所述的处理器的一个或更多个电路执行一个或更多个指令以执行终止工作负载API 1102，以执行第一应用程序编程接口(API)以选择第二API，以终止由第一API识别的一个或更多个软件工作负载的执行。在至少一个实施例中，图11中未示出，诸如本文所述的处理器的一个或更多个电路执行一个或更多个指令以执行终止工作负载API 1102，以执行第一应用程序编程接口(API)以使第二API被执行，以使得终止由一个或更多个其他处理器正在执行的一个或更多个软件工作负载。在至少一个实施例中，图11中也未示出，诸如本文所述的处理器的一个或更多个电路执行一个或更多个指令以执行终止工作负载API 1102，以执行第一应用程序编程接口(API)以选择第二API，以响应于接收到诸如本文所述的附加API终止由第一API识别的一个或更多个软件工作负载的执行。

在至少一个实施例中，终止工作负载API 1102在被调用时接收一个或更多个参数，以指示关于要使用诸如本文所述的技术执行的操作的信息。在至少一个实施例中，终止工作负载API 1102在被调用时接收一个或更多个参数，以指示关于要使用诸如本文所述的技术执行的指令的信息。

在至少一个实施例中，终止工作负载API 1102接收包括作业标识符1104的一个或更多个参数作为输入。在至少一个实施例中，作业标识符1104是包括可用于标识、指示或以其他方式指定要使用终止工作负载API 1102终止的一个或更多个工作负载的信息的数据值。在至少一个实施例中，作业标识符1104是由本文所述的启动工作负载API 902返回的作业标识符(诸如作业标识符926)。在至少一个实施例中，由作业标识符1104标识、指示或以其他方式指定的作业标识符是可由终止工作负载API 1102使用以终止一个或更多个软件工作负载的多个参数之一。在至少一个实施例中，作业标识符1104是用于标识、指示或以其他方式向API(诸如终止工作负载API 1102)指定将由异构处理器内的一个或更多个PPU(诸如GPU)和/或一个或更多个加速器执行的一组操作或指令的数据值，如本文所述。

在至少一个实施例中，终止工作负载API 1102接收包括一个或更多个其他参数1106的一个或更多个参数作为输入。在至少一个实施例中，其他参数1106是包括信息的数据，该信息用于指示在执行终止工作负载API 1102以终止一个或更多个软件工作负载时可用的任何其他信息。在至少一个实施例中，作业标识符1104和/或其他参数1106中的一个或更多个是终止工作负载API 1102的必需参数。在至少一个实施例中，作业标识符1104和/或其他参数1106中的一个或更多个是终止工作负载API 1102的可选参数。

在至少一个实施例中，图11中未示出，处理器执行一个或更多个指令以执行一个或更多个API(诸如终止工作负载API 1102)，以执行第一应用程序编程接口(API)以选择第二API，以使用包括但不限于作业标识符1104和/或其他参数1106的一个或更多个参数来监控由第一API识别的一个或更多个软件工作负载的执行。在至少一个实施例中，图11中未示出，处理器执行一个或更多个指令以执行一个或更多个API(诸如终止工作负载API 1102)，以执行第一应用程序编程接口(API)以使第二API被执行，以使得使用包括但不限于作业标识符1104和/或其他参数1106的一个或更多个参数来提供一个或更多个软件工作负载的状态。

在至少一个实施例中，终止工作负载API 1102如果被调用，则使一个或更多个API(诸如，本文至少结合图8描述的一个或更多个API 806)添加一个或更多个操作或指令，以被添加、插入或以其他方式包括在将由异构处理器内的一个或更多个加速器执行的流或指令集中。在至少一个实施例中，终止工作负载API 1102如果被调用，则使一个或更多个API(诸如一个或更多个API 806)在并行计算环境(诸如，本文至少结合图8描述的并行计算环境808)中添加一个或更多个操作或指令，以被添加、插入或以其他方式包括在将由异构处理器内的一个或更多个加速器执行的流或指令集中。

在至少一个实施例中，响应于终止工作负载API 1102，一个或更多个API 806如果被执行，则使一个或更多个处理器执行终止工作负载API返回1120。在至少一个实施例中，终止工作负载API返回1120是指令集，该指令集如果被执行，则响应于终止工作负载API1102生成和/或指示一个或更多个数据值。在至少一个实施例中，终止工作负载API返回1120指示成功指标1122。在至少一个实施例中，成功指示符1122是包括用于指示终止工作负载API 1102的成功的任意值的数据。在至少一个实施例中，成功指示符1122包括指示由于执行终止工作负载API 1102而生成的一个或更多个特定类型的成功的信息。在至少一个实施例中，成功指示符1122包括指示由于终止工作负载API 1102而生成的一个或更多个其他数据值的信息。

在至少一个实施例中，终止工作负载API返回1120指示错误指示符1124。在至少一个实施例中，错误指示符1124是包括用于指示终止工作负载API 1102的失败的任意值的数据。在至少一个实施例中，错误指示符1124包括指示由于执行终止工作负载API 1102而生成的一个或更多个特定类型的错误的信息。在至少一个实施例中，错误指示符1124包括指示由于终止工作负载API 1102而生成的一个或更多个其他数据值的信息。

在至少一个实施例中，包括一个或更多个API 806(其包括但不限于终止工作负载API 1102)的并行计算环境808将各种类型的各种操作添加到流中，以由异构处理器中的一个或更多个加速器执行。在至少一个实施例中，流操作包括获取信号量操作。在至少一个实施例中，流操作包括释放信号量操作。在至少一个实施例中，流操作包括用于刷新和/或无效高速缓存存储器(诸如，异构处理器内的PPU(诸如GPU)的L2高速缓存存储器、和/或一个或更多个加速器的高速缓存存储器)的一个或更多个操作。在至少一个实施例中，流操作包括用于指示向外部设备(诸如异构处理器内的一个或更多个加速器)提交操作的一个或更多个操作。在至少一个实施例中，用于指示向外部设备提交操作的一个或更多个操作使用软件代码，诸如指示如本文至少结合图9描述的流操作的示例软件代码。

在至少一个实施例中，包括一个或更多个API 806(其包括但不限于终止工作负载API 1102)的并行计算环境808包括一个或更多个函数签名，其可用于指示用于将由异构处理器内的一个或更多个加速器执行的操作的一个或更多个回调函数。在至少一个实施例中，一个或更多个操作使一个或更多个回调函数被执行。在至少一个实施例中，用于使一个或更多个回调函数被执行的一个或更多个操作使用软件代码，诸如指示用于回调函数的函数签名的示例软件代码，如本文至少结合图9描述的。

在至少一个实施例中，为了指定异构处理器内的一个或更多个加速器来执行由终止工作负载API 1102向一个或更多个API 806指示的一个或更多个操作，一个或更多个API806的一个或更多个数据结构可用于指定所述一个或更多个API 806将提交针对其的所述一个或更多个操作的一个或更多个外部设备。在至少一个实施例中，可用于指定所述一个或更多个API 806将提交针对其的所述一个或更多个操作的一个或更多个外部设备的一个或更多个API 806的一个或更多个数据结构，使用软件代码，诸如指示表示异构处理器内的一个或更多个加速器的设备节点的数据结构的示例软件代码，如本文至少结合图9描述的。

在至少一个实施例中，为了指定由将由异构处理器内的一个或更多个加速器执行的一个或更多个操作所指示的一个或更多个操作的类型和数据，要使用一个或更多个API806的一个或更多个数据结构。在至少一个实施例中，用于指定由将由异构处理器内的一个或更多个加速器执行的一个或更多个操作所指示的一个或更多个操作的类型和数据的一个或更多个API 806的一个或更多个数据结构使用软件代码，诸如指示用于指定将由异构处理器内的一个或更多个加速器执行的一个或更多个操作的类型和数据的数据结构的示例软件代码，如本文至少结合图9描述的。

在至少一个实施例中，一个或更多个API 806包括指令，该指令如果被执行，则使一个或更多个操作或指令被添加到要由异构处理器内的一个或更多个加速器执行的流或其他指令集中。在至少一个实施例中，用于使一个或更多个操作或指令被添加到流或其他指令集中的指令将响应于终止工作负载API 1102而被执行，如上文所述。在至少一个实施例中，用于使一个或更多个操作或指令被添加到流或其他指令集中以响应于终止工作负载API 1102而被执行的指令使用软件代码，诸如指示并行计算环境808中的流操作API调用的示例软件代码，如本文至少结合图9描述的。

在至少一个实施例中，一个或更多个API 806包括指令，该指令如果被执行，则使得将由异构处理器内的一个或更多个加速器执行的一个或更多个操作或指令被添加到一个或更多个可执行图中。在至少一个实施例中，指令如果被执行，则使得将由异构处理器内的一个或更多个加速器执行的一个或更多个操作或指令被添加到一个或更多个可执行图形中，类似于将由异构处理器内的一个或更多个加速器执行的一个或更多个操作或指令如何响应于如本文所述的终止工作负载API 1102被添加到一个或更多个流或指令集中。在至少一个实施例中，如果被执行，则使得将由异构处理器内的一个或更多个加速器执行的一个或更多个操作或指令被添加到一个或更多个可执行图中的指令使用软件代码，诸如指示由并行计算环境808的一个或更多个API 806将一个或更多个操作或指令添加到一个或更多个可执行图中的示例软件代码，如本文至少结合图9描述的。

图12示出了根据至少一个实施例的用于执行一个或更多个应用程序编程接口(API)的过程1200。在至少一个实施例中，过程1200是由并行计算环境(诸如，如本文至少结合图8描述的并行计算环境808)使用异构处理器内的一个或更多个加速器执行一个或更多个API的过程。在至少一个实施例中，用于执行一个或更多个应用程序编程接口(API)的过程1200在步骤1204处开始1202，由此一个或更多个处理器用于执行包括一个或更多个指令的软件程序，这些指令如果被执行，则使所述一个或更多个处理器和/或一个或更多个其他处理器(诸如，一个或更多个异构处理器内的图形处理单元(GPU)和/或一个或更多个加速器)执行一个或更多个计算操作。在至少一个实施例中，在步骤1204处，将由一个或更多个处理器执行的软件程序包括一个或更多个指令，这些指令如果被执行，则使并行计算环境808的一个或更多个API 806被执行，如上文所述。在至少一个实施例中，在步骤1204之后，过程1200在步骤1206处继续。

在至少一个实施例中，在步骤1206处，执行过程1200的处理器确定是否要执行诸如本文中至少结合图9-11描述的那些之类的API(例如，启动工作负载API 902、监控工作负载API 1002和/或终止工作负载API 1102)的执行。在至少一个实施例中，在步骤1206处，如果确定不执行API(“否”分支)，则过程1200在步骤1216处继续。在至少一个实施例中，在步骤1206处，如果确定要执行API(“是”分支)，则过程1200在步骤1208处继续。

在至少一个实施例中，在步骤1208处，执行过程1200的处理器执行诸如本文至少结合图9-11描述的那些之类的API。在至少一个实施例中，在步骤1208处，一个或更多个处理器用于执行一个或更多个指令，以使得由所述一个或更多个处理器和/或一个或更多个其他处理器(诸如异构处理器内的GPU和/或加速器)执行诸如本文中至少结合图9-11描述的一个或更多个API调用(例如，启动工作负载API 902、监控工作负载API 1002和/或终止工作负载API 1102)，如上文所述。在至少一个实施例中，在步骤1208之后，过程1200在步骤1210处继续。

在至少一个实施例中，在步骤1210处，执行过程1200的处理器确定是否要由于执行一个或更多个指令而返回返回值，以使得诸如本文至少结合图9-11描述的一个或更多个API调用(例如，启动工作负载API 902、监控工作负载API 1002和/或终止工作负载API1102)由所述一个或更多个处理器和/或一个或更多个其他处理器(诸如异构处理器内的GPU和/或加速器)执行，如上所述。在至少一个实施例中，在步骤1210处，执行过程1200的处理器确定是否要使用诸如本文至少结合图9-11描述的API返回(例如，启动工作负载API返回920、监控工作负载API返回1020和/或终止工作负载API返回1120)来返回返回值。在至少一个实施例中，在步骤1210处，如果确定要返回返回值(“是”分支)，则过程1200在步骤1212处继续。在至少一个实施例中，在步骤1210处，如果确定不返回返回值(“否”分支)，则过程1200在步骤1214处继续。

在至少一个实施例中，在步骤1212处，设置返回值。在至少一个实施例中，在步骤1212处，通过将所述返回值存储在由诸如本文至少结合图9-11描述的API(例如，启动工作负载API 902、监控工作负载API 1002和/或终止工作负载API 1102)指定的存储器位置中来设置返回值。在至少一个实施例中，在步骤1212处，通过将所述返回值存储在包括在诸如本文至少结合图9-11描述的API返回(例如，启动工作负载API返回920、监控工作负载API返回1020和/或终止工作负载API返回1120)中的存储器位置中来设置返回值。在至少一个实施例中，在步骤1212之后，过程1200在步骤1214处继续。

在至少一个实施例中，在步骤1214处，使用诸如本文至少结合图9-11描述的API返回(例如，启动工作负载API返回920、监控工作负载API返回1020和/或终止工作负载API返回1120)返回成功或失败(例如，错误)。在至少一个实施例中，在步骤1214之后，过程1200在步骤1216处继续。

在至少一个实施例中，在步骤1216处，执行过程1200的处理器确定软件程序的执行(例如，在步骤1204处)是否完成。在至少一个实施例中，在步骤1216处，执行过程1200的处理器至少部分地基于一个或更多个处理器是否正在执行软件程序的指令(例如，在步骤1204处)来确定软件程序的执行(例如，在步骤1204处)是否完成。在至少一个实施例中，在步骤1216处，如果确定软件程序的执行(例如，步骤1204处)已完成，则过程1200结束1218。在至少一个实施例中，在步骤1216处，如果确定软件程序的执行(例如，在步骤1204处)未完成，则过程1200在步骤1204处继续，以继续执行软件程序的一个或更多个指令。

在至少一个实施例中，用于执行一个或更多个应用程序编程接口(API)的过程1200的操作以不同于图12示出的顺序执行。在至少一个实施例中，用于执行一个或更多个应用程序编程接口(API)的过程1200的操作被同时地或并行地执行。例如，在至少一个实施例中，用于执行一个或更多个应用程序编程接口(API)的过程1200的操作被同时地或并行地执行，这些操作不依赖于彼此(例如，与顺序无关)。在至少一个实施例中，用于执行一个或更多个应用程序编程接口(API)的过程1200的操作由在诸如本文所述的处理器上执行的多个线程来执行。

图13是根据至少一个实施例的示出在其中处理应用程序编程接口(API)的示例软件栈的框图1300。在至少一个实施例中，使用框图1300中示出的软件栈处理诸如本文至少结合图9描述的启动工作负载API 902之类的API，以使第一应用程序编程接口(API)选择第二API，以执行由第一API识别的一个或更多个软件工作负载。在至少一个实施例中，使用框图1300中示出的软件栈处理诸如本文至少结合图10描述的监控工作负载API 1002之类的API，以执行第一应用程序编程接口(API)以选择第二API，以监控由第一API识别的一个或更多个软件工作负载的执行。在至少一个实施例中，使用框图1300中示出的软件栈处理诸如本文至少结合图11描述的终止工作负载API 1102之类的API，以执行第一应用程序编程接口(API)以选择第二API，以终止由第一API识别的一个或更多个软件工作负载的执行。在至少一个实施例中，框图1300中示出的软件栈是诸如本文至少结合图47-50描述的那些之类的软件栈。在至少一个实施例中，框图1300中示出的软件栈是诸如本文至少结合图4描述的软件栈408和/或软件栈416之类的软件栈。在至少一个实施例中，应用程序1302执行命令以确定是否支持特征(feature)1304。在至少一个实施例中，应用程序1302执行命令以确定是否支持执行诸如本文所述的那些API的特征1304。

在至少一个实施例中，应用程序1302使用1306一个或更多个运行时API 1308确定是否支持特征1304。在至少一个实施例中，运行时API 1308使用1310一个或更多个驱动器API 1312确定是否支持特征1304。在至少一个实施例中，图13中未示出，应用程序1302使用一个或更多个驱动器API 1312确定是否支持特征1304。在至少一个实施例中，驱动器API1312查询1314计算机系统硬件1316以确定是否支持特征1304。

在至少一个实施例中，计算机系统硬件1316通过查询与处理器1334相关联的一组能力来确定处理器1334是否支持特征1304。在至少一个实施例中，处理器1334包括诸如本文所述的一个或更多个处理器(例如，本文至少结合图1描述的处理器114和/或处理器104中的一个或更多个处理器)。在至少一个实施例中，计算机系统硬件1316使用处理器1334的操作系统确定处理器1334是否支持特征1304。在至少一个实施例中，计算机系统硬件1316通过查询与图形处理器1336相关联的一组能力来确定图形处理器1336是否支持特征。在至少一个实施例中，图形处理器1336包括诸如本文所述的一个或更多个图形处理器(例如，本文至少结合图1描述的图形处理器106中的一个或更多个图形处理器)。在至少一个实施例中，计算机系统硬件1316使用处理器1334的操作系统确定图形处理器1336是否支持特征1304。在至少一个实施例中，计算机系统硬件1316使用图形处理器1336的操作系统确定图形处理器1336是否支持特征1304。

在至少一个实施例中，在计算机系统硬件1316确定是否支持特征1304之后，计算机系统硬件1316使用驱动器API 1312返回1318确定结果，该驱动器API 1312可以使用运行时API 1308返回1320确定结果，该运行时API 1308可以向应用程序1302返回1322确定结果。在至少一个实施例中，如果应用程序1302接收到指示支持1324特征1304的确定结果1324，则应用程序1302使用诸如本文所述的一个或更多个API执行特征1326。在至少一个实施例中，应用程序1302使用诸如本文所述的系统和方法执行特征1326。在至少一个实施例中，应用程序1302使用1328运行时API 1308执行特征1326，运行时API 1308包括但不限于诸如本文至少结合图9-11描述的那些之类的API的运行时版本。

在至少一个实施例中，运行时API 1308使用1330驱动器API 1312执行特征1326，驱动器API 1312包括但不限于诸如本文所述的API的驱动器版本。在至少一个实施例中，图13中未示出，应用程序1302使用1330驱动器API 1312执行特征1326。在至少一个实施例中，驱动器API 1312使用1332计算机系统硬件1316执行特征1326。

图14是根据至少一个实施例的示出处理器1402和模块的框图1400。在至少一个实施例中，处理器1402执行诸如本文所述的一个或更多个进程，以使第一应用程序编程接口(API)选择第二API，以执行由第一API识别的一个或更多个软件工作负载。在至少一个实施例中，处理器1402执行所述进程，以使一个或更多个电路使得第一应用程序编程接口(API)选择第二API，以使用结合图1-13描述的系统、方法、操作和技术执行由第一API识别的一个或更多个软件工作负载。

在至少一个实施例中，处理器1402执行诸如本文所述的一个或更多个进程，以执行第一应用程序编程接口(API)以选择第二API，以监控由第一API识别的一个或更多个软件工作负载的执行。在至少一个实施例中，处理器1402执行所述进程，以使得一个或更多个电路执行第一应用程序编程接口(API)以选择第二API，以使用结合图1-13描述的系统、方法、操作和技术来监控由第一API识别的一个或更多个软件工作负载的执行。

在至少一个实施例中，处理器1402执行诸如本文所述的一个或更多个进程，以执行第一应用程序编程接口(API)以选择第二API，以终止由第一API识别的一个或更多个软件工作负载的执行。在至少一个实施例中，处理器1402执行所述进程，以使一个或更多个电路执行第一应用程序编程接口(API)以选择第二API，以使用结合图1-13描述的系统、方法、操作和技术来终止由第一API识别的一个或更多个软件工作负载的执行。

在至少一个实施例中，处理器1402包括诸如结合图16-53描述的那些之类的一个或更多个处理器。在至少一个实施例中，处理器1402是诸如本文至少结合图1描述的处理器114、处理器104中的一个或更多个处理器和/或图形处理器106中的一个或更多个图形处理器之类的处理器。在至少一个实施例中，处理器1402是任何合适的处理单元和/或处理单元的组合，诸如一个或更多个CPU、GPU、GPGPU、PPU和/或其变体。在至少一个实施例中，处理器1402包括或可访问客户端模块1404、高性能计算模块1406、启动工作负载模块1408、监控工作负载模块1410和终止工作负载模块1412。在至少一个实施例中，客户端模块1404、高性能计算模块1406、启动工作负载模块1408、监控工作负载模块1410和终止工作负载模块1412是诸如本文所述的处理器1402和/或一个或更多个其他处理器的一部分。在至少一个实施例中，客户端模块1404、高性能计算模块1406、启动工作负载模块1408、监控工作负载模块1410和终止工作负载模块1412分布在多个处理器之间，该多个处理器通过总线、网络、通过写入共享存储器和/或任何合适的通信过程进行通信，如本文所述。

在至少一个实施例中，如在本文所述的任何实现方式中使用的模块，除非从上下文可明确或明确地相反声明，否则指的是被配置为提供本文所述功能的软件逻辑、固件逻辑、硬件逻辑和/或电路的任何组合。在至少一个实施例中，软件可体现为软件包、代码和/或指令集或指令，并且如由诸如处理器以本文描述的任何实现方式使用的“硬件”，可以例如单独地或以任意组合包括硬连线电路、可编程电路、状态机电路、固定功能电路、执行单元电路和/或存储由可编程电路执行的指令的固件。在至少一个实施例中，模块可以集体地或单独地体现为构成更大系统(例如，集成电路(IC)、片上系统(SoC)等)的一部分的电路。在至少一个实施例中，模块结合任何合适的处理单元和/或处理单元的组合(诸如，一个或更多个CPU、GPU、GPGPU、PPU和/或其变体)执行一个或更多个进程。

在至少一个实施例中，处理器1402使用客户端模块1404执行或以其他方式实现诸如本文所述的一个或更多个客户端环境。在至少一个实施例中，处理器1402使用客户端模块1404执行诸如本文所述的一个或更多个API(例如，启动工作负载API 902、监控工作负载API 1002和/或终止工作负载API 1102)。在至少一个实施例中，处理器1402通过至少包括指令或以其他方式编码指令来执行客户端模块1404和诸如本文所述的进程，该指令使得执行所述一个或更多个进程或以其他方式可被用于执行所述一个或更多个进程(例如，由处理器1402)。在至少一个实施例中，使用客户端模块1404的处理器获取或以其他方式被提供诸如本文所述的一个或更多个API。在至少一个实施例中，处理器1402使用客户端模块1404来使用本文至少结合图1-13描述的系统、方法、操作和技术执行或以其他方式实现一个或更多个客户端环境。在至少一个实施例中，处理器1402使用客户端模块1404执行一个或更多个操作，以使第一应用程序编程接口(API)选择第二API，以执行由第一API识别的一个或更多个软件工作负载。在至少一个实施例中，处理器1402使用客户端模块1404执行一个或更多个操作，以执行第一应用程序编程接口(API)以选择第二API，以监控由第一API识别的一个或更多个软件工作负载的执行。在至少一个实施例中，处理器1402使用客户端模块1404执行一个或更多个操作，以执行第一应用程序编程接口(API)以选择第二API，以终止由第一API识别的一个或更多个软件工作负载的执行。

在至少一个实施例中，处理器1402使用高性能计算模块1406执行或以其他方式实现诸如本文所述的一个或更多个高性能计算环境。在至少一个实施例中，处理器1402使用高性能计算模块1406执行诸如本文所述的一个或更多个API(例如，启动工作负载API 902、监控工作负载API 1002和/或终止工作负载API 1102)。在至少一个实施例中，处理器1402使用高性能计算模块1406通过至少包括指令或以其他方式编码指令来执行诸如本文所述的一个或更多个进程，这些指令使得执行所述一个或更多个进程或以其他方式可用于执行所述一个或更多个进程(例如，由处理器1402)。在至少一个实施例中，处理器1402使用高性能计算模块1406来结合客户端模块1404执行一个或更多个API。在至少一个实施例中，处理器1402使用高性能计算模块1406执行一个或更多个操作，以使得第一应用程序编程接口(API)选择第二API，以执行由第一API识别的一个或更多个软件工作负载。在至少一个实施例中，处理器1402使用高性能计算模块1406执行一个或更多个操作，以执行第一应用程序编程接口(API)以选择第二API，以监控由第一API识别的一个或更多个软件工作负载的执行。在至少一个实施例中，处理器1402使用高性能计算模块1406执行一个或更多个操作，以执行第一应用程序编程接口(API)以选择第二API，以终止由第一API识别的一个或更多个软件工作负载的执行。

在至少一个实施例中，处理器1402使用启动工作负载模块1408启动一个或更多个软件工作负载，如本文所述。在至少一个实施例中，启动工作负载模块1408通过至少包括指令或以其他方式编码指令来执行诸如本文所述的一个或更多个进程，这些指令使得执行所述一个或更多个进程或以其他方式可用于执行所述一个或更多个进程(例如，由处理器1402)。在至少一个实施例中，启动工作负载模块1408使得使用本文所述的系统、方法、操作和/或技术来启动一个或更多个软件工作负载。在至少一个实施例中，启动工作负载模块1408使得使用诸如启动工作负载API 902之类的API来启动一个或更多个软件工作负载。在至少一个实施例中，处理器使用启动工作负载模块1408执行一个或更多个操作，以使得第一应用程序编程接口(API)选择第二API来执行由第一API识别的一个或更多个软件工作负载。在至少一个实施例中，处理器使用启动工作负载模块1408执行一个或更多个操作，以执行第一应用程序编程接口(API)以选择第二API，以监控由第一API识别的一个或更多个软件工作负载的执行。在至少一个实施例中，处理器使用启动工作负载模块1408执行一个或更多个操作，以执行第一应用程序编程接口(API)以选择第二API，以终止由第一API识别的一个或更多个软件工作负载的执行。

在至少一个实施例中，处理器1402使用监控工作负载模块1410监控一个或更多个软件工作负载，如本文所述。在至少一个实施例中，监控工作负载模块1410通过至少包括指令或以其他方式编码指令来执行诸如本文所述的一个或更多个进程，这些指令使得执行所述一个或更多个进程或以其他方式可用于执行所述一个或更多个进程(例如，由处理器1402)。在至少一个实施例中，监控工作负载模块1410使得使用本文所述的系统、方法、操作和/或技术来监控一个或更多个软件工作负载。在至少一个实施例中，监控工作负载模块1410使得使用诸如监控工作负载API 1002之类的API来监控一个或更多个软件工作负载。在至少一个实施例中，处理器使用监控工作负载模块1410执行一个或更多个操作，以使第一应用程序编程接口(API)选择第二API来执行由第一API识别的一个或更多个软件工作负载。在至少一个实施例中，处理器使用监控工作负载模块1410执行一个或更多个操作，以执行第一应用程序编程接口(API)以选择第二API，以监控由第一API识别的一个或更多个软件工作负载的执行。在至少一个实施例中，处理器使用监控工作负载模块1410执行一个或更多个操作，以执行第一应用程序编程接口(API)以选择第二API，以终止由第一API识别的一个或更多个软件工作负载的执行。

在至少一个实施例中，处理器1402使用终止工作负载模块1412终止如本文所述的一个或更多个软件工作负载。在至少一个实施例中，终止工作负载模块1412通过至少包括指令或以其他方式编码指令来执行诸如本文所述的一个或更多个进程，这些指令使得执行所述一个或更多个进程或以其他方式可用于执行所述一个或更多个进程(例如，由处理器1402)。在至少一个实施例中，终止工作负载模块1412使得使用本文所述的系统、方法、操作和/或技术来终止一个或更多个软件工作负载。在至少一个实施例中，终止工作负载模块1412使得使用诸如终止工作负载API 1102之类的API来终止一个或更多个软件工作负载。在至少一个实施例中，处理器使用终止工作负载模块1412执行一个或更多个操作，以使第一应用程序编程接口(API)选择第二API，以执行由第一API识别的一个或更多个软件工作负载。在至少一个实施例中，处理器使用终止工作负载模块1412执行一个或更多个操作，以执行第一应用程序编程接口(API)以选择第二API，以监控由第一API识别的一个或更多个软件工作负载的执行。在至少一个实施例中，处理器使用终止工作负载模块1412执行一个或更多个操作，以执行第一应用程序编程接口(API)以选择第二API，以终止由第一API识别的一个或更多个软件工作负载的执行。

在至少一个实施例中，处理器1402包括电路系统(circuitry)，该电路系统用于使处理器1402的一个或更多个电路使得第一应用程序编程接口(API)选择第二API，以使用利用本文至少结合图1-13描述的系统、方法、操作和/或技术的客户端模块1404、高性能计算模块1406、启动工作负载模块1408、监控工作负载模块1410和/或终止工作负载模块1412中的一个或更多个来执行由第一API识别的一个或更多个软件工作负载。在至少一个实施例中，处理器1402包括电路系统，该电路系统用于使处理器1402的一个或更多个电路执行第一应用程序编程接口(API)以选择第二API，以使用利用本文至少结合图1-13描述的系统、方法、操作和/或技术的客户端模块1404、高性能计算模块1406、启动工作负载模块1408、监控工作负载模块1410和/或终止工作负载模块1412中的一个或更多个来监控由第一API识别的一个或更多个软件工作负载的执行。在至少一个实施例中，处理器1402包括电路系统，该电路系统用于使处理器1402的一个或更多个电路执行第一应用程序编程接口(API)以选择第二API，以使用利用本文至少结合图1-13描述的系统、方法、操作和/或技术的客户端模块1404、高性能计算模块1406、启动工作负载模块1408、监控工作负载模块1410和/或终止工作负载模块1412中的一个或更多个来终止由第一API识别的一个或更多个软件工作负载的执行。

图15是根据至少一个实施例的示出驱动器和/或运行时的框图1500，该驱动器和/或运行时包括一个或更多个库，用于提供一个或更多个应用程序编程接口(API)。在至少一个实施例中，软件程序1502是软件模块。在至少一个实施例中，软件程序1502包括一个或更多个软件模块，该软件模块包括但不限于本文至少结合图14描述的软件模块。在至少一个实施例中，软件模块如图14中进一步独占地描述的。在至少一个实施例中，一个或更多个API 1510是软件指令集，该软件指令集如果被执行，则使一个或更多个处理器执行一个或更多个计算操作。在至少一个实施例中，一个或更多个API 1510包括启动工作负载API902、监控工作负载API 1002和/或终止工作负载API 1102中的一个或更多个。在至少一个实施例中，一个或更多个API 1510是软件指令集，该软件指令集如果被执行，则使一个或更多个处理器执行一个或更多个计算操作，以使第一应用程序编程接口(API)选择第二API来执行由第一API识别的一个或更多个软件工作负载。在至少一个实施例中，一个或更多个API 1510是软件指令集，该软件指令集如果被执行，则使一个或更多个处理器执行一个或更多个计算操作，以执行第一应用程序编程接口(API)以选择第二API，以监控由第一API识别的一个或更多个软件工作负载的执行。在至少一个实施例中，一个或更多个API 1510是软件指令集，该软件指令集如果被执行，则使一个或更多个处理器执行一个或更多个计算操作，以执行第一应用程序编程接口(API)以选择第二API，以终止由第一API识别的一个或更多个软件工作负载的执行。

在至少一个实施例中，一个或更多个API 1510作为一个或更多个库1506、驱动器和/或运行时1504和/或本文进一步描述的软件和/或可执行代码的任何其他分组的一部分被分布或以其他方式提供。在至少一个实施例中，一个或更多个API 1510响应于软件程序1502的调用来执行一个或更多个计算操作。在至少一个实施例中，软件程序1502是软件代码、命令、指令或其他文本序列的集合，用于指示计算设备执行一个或更多个计算操作和/或调用要执行的一个或更多个其他指令集，诸如API 1510或API函数1512。在至少一个实施例中，由一个或更多个API 1510提供的功能包括软件函数1512，诸如可用于使用一个或更多个并行处理单元(PPU)(诸如图形处理器(GPU))加速软件程序1502的一个或更多个部分的软件函数。

在至少一个实施例中，API 1510是用于执行一个或更多个计算操作的一个或更多个电路的硬件接口。在至少一个实施例中，本文所述的一个或更多个软件API 1510被实现为用于执行本文结合图1-13所述的一种或更多种技术的一个或更多个电路。在至少一个实施例中，一个或更多个软件程序1502包括指令，该指令如果被执行，则使一个或更多个硬件设备和/或电路执行本文结合图1-13所述的一种或更多种技术。

在至少一个实施例中，软件程序1502(诸如用户实现的软件程序)利用一个或更多个应用程序编程接口(API)1510执行各种计算操作，诸如存储器预留、矩阵乘法、算术运算或由并行处理单元(PPU)(诸如图形处理单元(GPU))执行的任何计算操作，如本文进一步描述的。在至少一个实施例中，一个或更多个API 1510提供一组可调用函数1512(本文中称为API、API函数和/或函数)，这些可调用函数分别执行一个或更多个计算操作，诸如与并行计算相关的计算操作。例如，在一个实施例中，一个或更多个API 1510提供用于启动工作负载、监控工作负载和/或终止工作负载的函数1512，如本文所述。

在至少一个实施例中，一个或更多个软件程序1502与一个或更多个API 1510交互或以其他方式与其通信，以使用一个或更多个PPU(诸如GPU)执行一个或更多个计算操作。在至少一个实施例中，使用一个或更多个PPU的一个或更多个计算操作包括将通过至少部分地由所述一个或更多个PPU执行来加速的至少一组或更多组计算操作。在至少一个实施例中，一个或更多个软件程序1502与一个或更多个API 1510交互，以促进使用远程接口或本地接口的并行计算。

在至少一个实施例中，接口是软件指令，该软件指令如果被执行，提供对由一个或更多个API 1510提供的一个或更多个函数1512的访问。在至少一个实施例中，当软件开发人员结合包括或以其他方式提供对一个或更多个API 1510的访问的一个或更多个库1506编译一个或更多个软件程序1502时，软件程序1502使用本地接口。在至少一个实施例中，结合预编译的库1506或包括用于执行一个或更多个API 1510的指令的未编译的源代码静态地编译一个或更多个软件程序1502。在至少一个实施例中，一个或更多个软件程序1502被动态地编译，并且所述一个或更多个软件程序利用链接器链接到包括一个或更多个API1510的一个或更多个预编译的库1506。

在至少一个实施例中，当软件开发人员执行软件程序时，软件程序1502使用远程接口，该软件程序利用包括一个或更多个API 1510的库1506或以其他方式通过网络或其他远程通信介质与库1506进行通信。在至少一个实施例中，包括一个或更多个API 1510的一个或更多个库1506将由远程计算服务(诸如计算资源服务提供者)执行。在另一个实施例中，包括一个或更多个API 1510的一个或更多个库1506将由向一个或更多个软件程序1502提供所述一个或更多个API 1510的任何其他计算主机执行。

在至少一个实施例中，执行或使用一个或更多个软件程序1502的处理器调用、使用、执行或以其他方式实现一个或更多个API 1510，以分配和以其他方式管理将由所述软件程序1502使用的存储器。在至少一个实施例中，一个或更多个软件程序1502利用一个或更多个API 1510分配和以其他方式管理将由所述软件程序1502的一个或更多个部分使用的存储器，以使用一个或更多个PPU(诸如GPU)或本文进一步描述的任何其他加速器或处理器进行加速。这些软件程序1502请求处理器使用由一个或更多个API 1510在一个实施例中提供的函数1512启动工作负载、监控工作负载和/或终止工作负载。

在至少一个实施例中，API 1510是用于促进并行计算的API。在至少一个实施例中，API 1510是本文进一步描述的任何其他API。在至少一个实施例中，API 1510由驱动器和/或运行时1504提供。在至少一个实施例中，API 1510由CUDA用户模式驱动器提供。在至少一个实施例中，API 1510由CUDA运行时提供。在至少一个实施例中，驱动器和/或运行时1504是数据值和软件指令，这些软件指令如果被执行，在加载和执行软件程序1502的一个或更多个部分期间执行或以其他方式促进API 1510的一个或更多个函数1512的操作。在至少一个实施例中，驱动器和/或运行时1504是数据值和软件指令，这些软件指令如果被执行，在执行软件程序1502期间执行或以其他方式促进API 1510的一个或更多个函数1512的操作。在至少一个实施例中，一个或更多个软件程序1502利用由驱动器和/或运行时1504实现或以其他方式提供的一个或更多个API 1510，在由一个或更多个PPU(诸如GPU)执行期间由所述一个或更多个软件程序1502执行组合算术运算。

在至少一个实施例中，一个或更多个软件程序1502利用由驱动器和/或运行时1504提供的一个或更多个API 1510来执行一个或更多个PPU(诸如GPU)的组合算术运算。在至少一个实施例中，一个或更多个API 1510通过驱动器和/或运行时1504提供组合算术运算，如上文所述。在至少一个实施例中，一个或更多个软件程序1502利用由驱动器和/或运行时1504提供的一个或更多个API 1510分配或以其他方式预留一个或更多个PPU(诸如GPU)的存储器1514的一个或更多个块。在至少一个实施例中，一个或更多个软件程序1502利用由驱动器和/或运行时1504提供的一个或更多个API 1510分配或以其他方式预留存储器的块。在至少一个实施例中，一个或更多个API 1510用于执行组合算术运算，如本文结合图1-13所述。

为了改善软件程序1502的可用性和/或优化所述软件程序1502的一个或更多个部分以由一个或更多个PPU(诸如GPU)加速，在一个实施例中，一个或更多个API 1510提供一个或更多个API函数1512以启动工作负载、监控工作负载和/或终止工作负载，其中所述工作负载由如上所述并且本文结合图1-13进一步描述的一个或更多个计算设备使用或可用。在至少一个实施例中，框图1500描绘了包括一个或更多个电路的处理器，该一个或更多个电路用于执行一个或更多个软件程序以将两个或更多个应用程序编程接口(API)组合成单个API。在至少一个实施例中，框图1500描绘了包括一个或更多个处理器的系统，该一个或更多个处理器用于执行一个或更多个软件程序以将两个或更多个应用程序编程接口(API)组合为单个API。在至少一个实施例中，处理器使用API来启动、监控和/或终止本文所述的工作负载1516。在至少一个实施例中，处理器使用API来启动、监控和/或终止工作负载1516，其中所述处理器通过使得一个或更多个电路使第一应用程序编程接口(API)选择第二API，以执行由第一API识别的一个或更多个软件工作负载，来启动、监控和/或终止工作负载1516。在至少一个实施例中，处理器使用API来启动、监控和/或终止工作负载1516，其中所述处理器通过使一个或更多个电路执行第一应用程序编程接口(API)以选择第二API，以监控由第一API识别的一个或更多个软件工作负载的执行，来启动、监控和/或终止工作负载1516。在至少一个实施例中，处理器使用API来启动、监控和/或终止工作负载1516，其中所述处理器通过使一个或更多个电路执行第一应用程序编程接口(API)以选择第二API，以终止由第一API识别的一个或更多个软件工作负载的执行，来启动、监控和/或终止工作负载1516。

服务器和数据中心

以下附图阐述了但不限于可以用于实现至少一个实施例的基于示例性网络服务器和数据中心的系统。

图16示出了根据至少一个实施例的分布式系统1600。在至少一个实施例中，分布式系统1600包括一个或更多个客户端计算设备1602、1604、1606和1608，其被配置成在一个或更多个网络1610上执行和操作客户端应用，诸如网络(web)浏览器、专有客户端和/或其变体。在至少一个实施例中，服务器1612可以经由网络1610与远程客户端计算设备1602、1604、1606和1608通信地耦合。

在至少一个实施例中，服务器1612可适于运行一个或更多个服务或软件应用，诸如可管理跨多个数据中心的单点登录(SSO)访问的会话活动的服务和应用。在至少一个实施例中，服务器1612还可以提供其他服务，或者软件应用，其可以包括非虚拟和虚拟环境。在至少一个实施例中，这些服务可作为基于web的服务或云服务或在软件即服务(SaaS)模型下被提供给客户端计算设备1602、1604、1606和/或1608的用户。在至少一个实施例中，操作客户端计算设备1602、1604、1606和/或1608的用户又可以利用一个或更多个客户端应用来与服务器1612交互以利用由这些组件提供的服务。

在至少一个实施例中，系统1600的软件组件1618、1620和1622在服务器1612上实现。在至少一个实施例中，系统1600的一个或更多个组件和/或由这些组件提供的服务也可由客户端计算设备1602、1604、1606和/或1608中的一个或更多个来实现。在至少一个实施例中，操作客户端计算设备的用户然后可以利用一个或更多个客户端应用来使用由这些组件提供的服务。在至少一个实施例中，这些组件可以用硬件、固件、软件或其组合来实现。应当理解，各种不同的系统配置是可能的，其可以不同于分布式系统1600。因此，图16所示的实施例是用于实现实施例系统的分布式系统的一个示例，并且不旨在是限制性的。

在至少一个实施例中，客户端计算设备1602、1604、1606和/或1608可以包括不同类型的计算系统。在至少一个实施例中，客户端计算设备可以包括便携式手持设备(例如，蜂窝电话、/>计算平板、个人数字助理(PDA))或可穿戴设备(例如，Google/>头戴式显示器)，运行软件(如Microsoft Windows/>)和/或各种移动操作系统(诸如iOS、Windows Phone、Android、BlackBerry 10、Palm OS和/或其变体)。在至少一个实施例中，设备可以支持不同应用，诸如不同互联网相关的应用、电子邮件、短消息服务(SMS)应用，并且可以使用各种其他通信协议。在至少一个实施例中，客户端计算设备还可以包括通用个人计算机，举例来说，所述通用个人计算机包括运行各种版本的Microsoft/>Apple/>和/或Linux操作系统的个人计算机和/或膝上型计算机。在至少一个实施例中，客户端计算设备可以是运行各种可商购的/>或类似UNIX的操作系统中的任一种的工作站计算机，包括但不限于各种GNU/Linux操作系统，诸如Google Chrome OS。在至少一个实施例中，客户端计算设备还可以包括能够通过一个或更多个网络1610进行通信的电子设备，诸如瘦客户端计算机、启用互联网的游戏系统(例如，具有或不具有/>手势输入设备的微软Xbox游戏控制台)、和/或个人消息传递设备。尽管图16中的分布式系统1600被示为具有四个客户端计算设备，但可支持任何数量的客户端计算设备。其他设备(诸如具有传感器的设备等)可与服务器1612交互。

在至少一个实施例中，分布式系统1600中的网络1610可以是能够使用各种可用协议中的任何协议来支持数据通信的任何类型的网络，包括但不限于TCP/IP(传输控制协议/互联网协议)、SNA(系统网络架构)、IPX(互联网分组交换)、AppleTalk和/或其变体。在至少一个实施例中，网络1610可以是局域网(LAN)，基于以太网的网络、令牌环、广域网、互联网、虚拟网络、虚拟专用网(VPN)、内联网、外联网、公共交换电话网络(PSTN)、红外网络、无线网络(例如，在电气与电子协会(IEEE)802.11协议组、和/或任何其他无线协议中的任一者下运行的网络)，和/或这些和/或其他网络的任何组合。

在至少一个实施例中，服务器1612可以由一个或更多个通用计算机、专用服务器计算机(举例来说，包括PC(个人计算机)服务器、服务器、中程服务器、大型计算机、机架式服务器等)、服务器农场、服务器集群或任何其他适当的布置和/或组合组成。在至少一个实施例中，服务器1612可包括运行虚拟操作系统的一个或更多个虚拟机或涉及虚拟化的其他计算架构。在至少一个实施例中，可以虚拟化一个或更多个灵活的逻辑存储设备池，以便为服务器维护虚拟存储设备。在至少一个实施例中，虚拟网络可由服务器1612使用软件定义的网络来控制。在至少一个实施例中，服务器1612可适于运行一个或更多个服务或软件应用。

在至少一个实施例中，服务器1612可以运行任何操作系统，以及任何可商购的服务器操作系统。在至少一个实施例中，服务器1612还可以运行各种附加服务器应用和/或中层应用中的任一种，包括HTTP(超文本传输协议)服务器、FTP(文件传输协议)服务器、CGI(公共网关接口)服务器、服务器、数据库服务器和/或其变体。在至少一个实施例中，示例性数据库服务器包括但不限于从Oracle、Microsoft、Sybase、IBM(国际商业机器)和/或其变体可商购的那些。

在至少一个实施例中，服务器1612可包括一个或更多个应用，用于分析和合并从客户端计算设备1602、1604、1606和1608的用户接收的数据馈送和/或事件更新。在至少一个实施例中，数据馈送和/或事件更新可以包括但不限于，从一个或更多个第三方信息源和连续数据流接收的馈送、/>更新或实时更新，其可以包括与传感器数据应用、金融报价器、网络性能测量工具(例如，网络监视和业务管理应用)相关的实时事件，点击流分析工具、汽车交通监测和/或其变化。在至少一个实施例中，服务器1612还可以包括用于经由客户端计算设备1602、1604、1606和1608的一个或更多个显示设备来显示数据馈送和/或实时事件的一个或更多个应用。

在至少一个实施例中，分布式系统1600还可包括一个或更多个数据库1614和1616。在至少一个实施例中，数据库可提供用于存储信息(诸如用户交互信息、使用模式信息、适配规则信息和其他信息)的机制。在至少一个实施例中，数据库1614和1616可以驻留在各种位置中。在至少一个实施例中，数据库1614和1616中的一个或更多个可以驻留在服务器1612本地(和/或驻留在服务器1612中)的非暂态存储介质上。在至少一个实施例中，数据库1614和1616可以远离服务器1612并且经由基于网络的连接或专用连接与服务器1612通信。在至少一个实施例中，数据库1614和1616可以驻留在存储区域网络(SAN)中。在至少一个实施例中，用于执行归属于服务器1612的功能的任何必要的文件可以适当地本地存储在服务器1612上和/或远程存储。在至少一个实施例中，数据库1614和1616可以包括关系数据库，诸如适于响应于SQL格式化的命令而存储、更新和检索数据的数据库。

在至少一个实施例中，关于图16所示或描述的至少一个组件用于执行结合图1-15描述的技术和/或功能。在至少一个实施例中，关于图16所示或描述的至少一个组件用于使第一应用程序编程接口(API)选择第二API，以执行由第一API识别的一个或更多个软件工作负载。在至少一个实施例中，关于图16所示或描述的至少一个组件用于执行第一应用程序编程接口(API)以选择第二API，以监控由第一API识别的一个或更多个软件工作负载的执行。在至少一个实施例中，关于图16所示或描述的至少一个组件用于执行第一应用程序编程接口(API)以选择第二API，以终止由第一API识别的一个或更多个软件工作负载的执行。在至少一个实施例中，关于图16所示或描述的至少一个组件用于执行关于框图100、框图200、过程300、框图400、过程500、过程600、过程700、框图800、框图900、框图1000、框图1100、过程1200、框图1300、框图1400、框图1500和/或本文所描述的其他系统、方法或操作描述的至少一个方面。

图17示出了根据至少一个实施例的示例性数据中心1700。在至少一个实施例中，数据中心1700包括但不限于数据中心基础设施层1710、框架层1720、软件层1730和应用层1740。

在至少一个实施例中，如图17所示，数据中心基础设施层1710可以包括资源协调器1712、分组的计算资源1714和节点计算资源(“节点C.R.”)1716(1)-1716(N)，其中“N”表示任何完整的正整数。在至少一个实施例中，节点C.R.1716(1)-1716(N)可以包括但不限于任意数量的中央处理单元(“CPU”)或其他处理器(包括加速器、现场可编程门阵列(“FPGA”)、图形处理器等)、存储器设备(例如，动态只读存储器)、存储设备(例如，固态硬盘或磁盘驱动器)、网络输入/输出(“NW I/O”)设备、网络交换机、虚拟机(“VM”)、功率模块和冷却模块等。在至少一个实施例中，节点C.R.1716(1)-1716(N)中的一个或更多个节点C.R.可以是具有一个或更多个上述计算资源的服务器。

在至少一个实施例中，分组的计算资源1714可以包括容纳在一个或更多个机架内的节点C.R.的单独分组(未示出)，或者容纳在各个地理位置的数据中心内的许多机架(也未示出)。分组的计算资源1714内的节点C.R.的单独分组可以包括可以被配置或分配为支持一个或更多个工作负载的分组的计算、网络、存储器或存储资源。在至少一个实施例中，可以将包括CPU或处理器的几个节点C.R.分组在一个或更多个机架内，以提供计算资源来支持一个或更多个工作负载。在至少一个实施例中，一个或更多个机架还可以包括任意数量的电源模块、冷却模块和网络交换机，以任意组合。

在至少一个实施例中，资源协调器1712可以配置或以其他方式控制一个或更多个节点C.R.1716(1)-1716(N)和/或分组的计算资源1714。在至少一个实施例中，资源协调器1712可以包括用于数据中心1700的软件设计基础结构(“SDI”)管理实体。在至少一个实施例中，资源协调器1712可以包括硬件、软件或其某种组合。

在至少一个实施例中，如图17所示，框架层1720包括但不限于作业调度器1732、配置管理器1734、资源管理器1736和分布式文件系统1738。在至少一个实施例中，框架层1720可以包括支持软件层1730的软件1752和/或应用程序层1740的一个或更多个应用程序1742的框架。在至少一个实施例中，软件1752或应用程序1742可以分别包括基于Web的服务软件或应用程序，例如由Amazon Web Services、Google Cloud和Microsoft Azure提供的服务或应用程序。在至少一个实施例中，框架层1720可以是但不限于一种免费和开放源软件网络应用框架，例如可以利用分布式文件系统1738来进行大范围数据处理(例如“大数据”)的Apache SparkTM(以下称为“Spark”)。在至少一个实施例中，作业调度器1732可以包括Spark驱动器，以促进对数据中心1700的各个层所支持的工作负载进行调度。在至少一个实施例中，配置管理器1734可以能够配置不同的层，例如软件层1730和包括Spark和用于支持大规模数据处理的分布式文件系统1738的框架层1720。在至少一个实施例中，资源管理器1736能够管理映射到或分配用于支持分布式文件系统1738和作业调度器1732的集群或分组计算资源。在至少一个实施例中，集群或分组计算资源可以包括数据中心基础设施层1710上的分组的计算资源1714。在至少一个实施例中，资源管理器1736可以与资源协调器1712协调以管理这些映射的或分配的计算资源。

在至少一个实施例中，包括在软件层1730中的软件1752可以包括由节点C.R.1716(1)-1716(N)的至少一部分，分组计算资源1714和/或框架层1720的分布式文件系统1738使用的软件。一种或更多种类型的软件可以包括但不限于Internet网页搜索软件、电子邮件病毒扫描软件、数据库软件和流视频内容软件。

在至少一个实施例中，应用层1740中包括的一个或更多个应用程序1742可以包括由节点C.R.1716(1)-1716(N)的至少一部分、分组的计算资源1714和/或框架层1720的分布式文件系统1738使用的一种或更多种类型的应用程序。一种或更多种类型的应用程序可以包括但不限于CUDA应用程序、5G网络应用程序、人工智能应用程序、数据中心应用程序、和/或其变体。

在至少一个实施例中，配置管理器1734、资源管理器1736和资源协调器1712中的任何一个可以基于以任何技术上可行的方式获取的任意数量和类型的数据来实现任意数量和类型的自我修改动作。在至少一个实施例中，自我修改动作可以减轻数据中心1700的数据中心操作员做出可能不好的配置决定并且可以避免数据中心的未充分利用和/或执行差的部分。

在至少一个实施例中，关于图17所示或描述的至少一个组件用于执行结合图1-15描述的技术和/或功能。在至少一个实施例中，关于图17所示或描述的至少一个组件用于使第一应用程序编程接口(API)选择第二API，以执行由第一API识别的一个或更多个软件工作负载。在至少一个实施例中，关于图17所示或描述的至少一个组件用于执行第一应用程序编程接口(API)以选择第二API，以监控由第一API识别的一个或更多个软件工作负载的执行。在至少一个实施例中，关于图17所示或描述的至少一个组件用于执行第一应用程序编程接口(API)以选择第二API，以终止由第一API识别的一个或更多个软件工作负载的执行。在至少一个实施例中，关于图17所示或描述的至少一个组件用于执行关于框图100、框图200、过程300、框图400、过程500、过程600、过程700、框图800、框图900、框图1000、框图1100、过程1200、框图1300、框图1400、框图1500和/或本文所描述的其他系统、方法或操作描述的至少一个方面。

图18图示了根据至少一个实施例的由互连的多个网络服务器计算机1802形成的客户端-服务器网络1804。在至少一个实施例中，在系统1800中，每个网络服务器计算机1802存储其他网络服务器计算机1802和链接到广域网1804中的客户端计算机1806和网络1808可访问的数据。在至少一个实施例中，当客户端计算机1806和一个或更多个网络1808与网络1804连接和断开连接时，以及当一个或更多个干线服务器计算机1802被添加到网络1804或从网络1804移除时，客户端-服务器网络1804的配置可随时间改变。在至少一个实施例中，当客户端计算机1806和网络1808与网络服务器计算机1802连接时，客户端-服务器网络包括这样的客户端计算机1806和网络1808。在至少一个实施例中，术语计算机包括能够接受数据、将规定的过程应用于数据以及提供过程的结果的任何设备或机器。

在至少一个实施例中，客户端-服务器网络1804存储网络服务器计算机1802、远程网络1808和客户端计算机1806可访问的信息。在至少一个实施例中，网络服务器计算机1802由大型计算机、小型计算机和/或各自具有一个或更多个处理器的微型计算机形成。在至少一个实施例中，服务器计算机1802通过有线和/或无线传输介质(诸如导线、光纤电缆)和/或微波传输介质、卫星传输介质或其他导电、光学或电磁波传输介质链接在一起。在至少一个实施例中，客户端计算机1806通过类似的有线或无线传输介质访问网络服务器计算机1802。在至少一个实施例中，客户端计算机1806可以使用调制解调器和标准电话通信网络链接到客户端-服务器网络1804中。在至少一个实施例中，替代性的运营商系统(如电缆和卫星通信系统)还可以用于链接到客户端-服务器网络1804中。在至少一个实施例中，可以使用其他私有或时间共享的运营商系统。在至少一个实施例中，网络1804是全球信息网络，诸如互联网。在至少一个实施例中，网络是使用与互联网类似的协议但具有添加的安全措施和受限的访问控制的私有内联网。在至少一个实施例中，网络1804是使用专有通信协议的私有或半私有网络。

在至少一个实施例中，客户端计算机1806是任何终端用户计算机，并且还可以是具有一个或更多个微处理器的大型计算机、小型计算机或微型计算机。在至少一个实施例中，服务器计算机1802有时可用作访问另一服务器计算机1802的客户端计算机。在至少一个实施例中，远程网络1808可以是局域网、通过用于互联网的独立服务提供商(ISP)被添加到广域网中的网络、或通过具有固定的或随时间改变的配置的有线或无线传输介质互连的另一组计算机。在至少一个实施例中，客户端计算机1806可以独立地或通过远程网络1808链接到网络1804中并且访问网络1804。

在至少一个实施例中，关于图18所示或描述的至少一个组件用于执行结合图1-15描述的技术和/或功能。在至少一个实施例中，关于图18所示或描述的至少一个组件用于使第一应用程序编程接口(API)选择第二API，以执行由第一API识别的一个或更多个软件工作负载。在至少一个实施例中，关于图18所示或描述的至少一个组件用于执行第一应用程序编程接口(API)以选择第二API，以监控由第一API识别的一个或更多个软件工作负载的执行。在至少一个实施例中，关于图18所示或描述的至少一个组件用于执行第一应用程序编程接口(API)以选择第二API，以终止由第一API识别的一个或更多个软件工作负载的执行。在至少一个实施例中，关于图18所示或描述的至少一个组件用于执行关于框图100、框图200、过程300、框图400、过程500、过程600、过程700、框图800、框图900、框图1000、框图1100、过程1200、框图1300、框图1400、框图1500和/或本文所描述的其他系统、方法或操作描述的至少一个方面。

图19示出了根据至少一个实施例的示例系统1900，其包括连接一个或更多个计算机器的计算机网络1908。在至少一个实施例中，网络1908可以是任何类型的电连接的计算机组，包括例如以下网络：互联网、内联网、局域网(LAN)、广域网(WAN)或这些网络类型的互连组合。在至少一个实施例中，网络1908内的连接可以是远程调制解调器、以太网(IEEE802.3)、令牌环(IEEE 802.5)、光纤分布式数据链路接口(FDDI)、异步传输模式(ATM)或任何其他通信协议。在至少一个实施例中，链接到网络的计算设备可以是台式机、服务器、便携式、手持式、机顶盒、个人数字助理(PDA)、终端、或任何其他期望的类型或配置。在至少一个实施例中，取决于它们的功能性，网络连接的设备可以在处理能力、内部存储器和其他性能方面广泛地变化。在至少一个实施例中，网络内的通信以及去往或来自连接到网络的计算设备的通信可以是有线或无线的。在至少一个实施例中，网络1908可以至少部分地包括世界范围的公共互联网，其通常根据客户端-服务器模型根据传输控制协议/互联网协议(TCP/IP)规范连接多个用户。在至少一个实施例中，客户端-服务器网络是用于在两个计算机之间通信的主导模型。在至少一个实施例中，客户端计算机(“客户端”)向服务器计算机(“服务器”)发出一个或更多个命令。在至少一个实施例中，服务器通过访问可用网络资源并根据客户端命令向客户端返回信息来履行客户端命令。在至少一个实施例中，客户端计算机系统和驻留在网络服务器上的网络资源被分配网络地址，用于网络的元件之间的通信期间的识别。在至少一个实施例中，从其他网络连接的系统到服务器的通信将包括作为通信的一部分的相关服务器/网络资源的网络地址，使得数据/请求的适当目的地被识别为接收者。在至少一个实施例中，当网络1908包括全球互联网时，网络地址是TCP/IP格式的IP地址，其可至少部分地将数据路由到电子邮件账户、网站或驻留在服务器上的其他互联网工具。在至少一个实施例中，驻留在网络服务器上的信息和服务可以通过域名(例如www.site.com)(其映射到网络服务器的IP地址)对客户端计算机的web浏览器可用。

在至少一个实施例中，多个客户端1902、1904和1906经由相应的通信链路连接至网络1908。在至少一个实施例中，这些客户端中的每一个可以经由任何期望形式的通信(诸如经由拨号调制解调器连接、电缆链路、数字用户线(DSL)、无线或卫星链路、或任何其他形式的通信)来访问网络1908。在至少一个实施例中，每个客户端可以使用与网络1908兼容的任何机器(例如，个人计算机(PC)、工作站、专用终端、个人数据助理(PDA)或其他类似的设备)进行通信。在至少一个实施例中，客户端1902、1904和1906可以位于或可以不位于相同的地理区域中。

在至少一个实施例中，多个服务器1910、1912和1914连接到网络1908以服务于与网络1908通信的客户端。在至少一个实施例中，每个服务器通常是管理网络资源并对客户端命令作出响应的强大的计算机或设备。在至少一个实施例中，服务器包括存储程序指令和数据的计算机可读数据存储介质，诸如硬盘驱动器和RAM存储器。在至少一个实施例中，服务器1910、1912、1914运行响应于客户端命令的应用程序。在至少一个实施例中，服务器1910可以运行用于响应对HTML页面的客户端请求的web服务器应用，并且还可以运行用于接收和路由电子邮件的邮件服务器应用。在至少一个实施例中，在服务器1910上还可以运行其他应用程序，诸如用于将音频/视频数据流式传输至客户端的FTP服务器或媒体服务器。在至少一个实施例中，不同的服务器可以专用于执行不同的任务。在至少一个实施例中，服务器1910可以是为不同用户管理与网站相关的资源的专用web服务器，而服务器1912可以专用于提供电子邮件(email)管理。在至少一个实施例中，其他服务器可以专用于媒体(音频、视频等)、文件传输协议(FTP)或通常通过网络可用或提供的任何两个或更多个服务的组合。在至少一个实施例中，每个服务器可以在与其他服务器的位置相同或不同的位置中。在至少一个实施例中，可存在为用户执行镜像任务的多个服务器，从而减轻拥塞或最小化定向到和来自单个服务器的流量。在至少一个实施例中，服务器1910、1912、1914在维护和通过网络1908递送第三方内容的业务中的web托管提供者的控制下。

在至少一个实施例中，web托管提供商向两个不同类型的客户端递送服务。在至少一个实施例中，可被称为浏览器的一种类型从服务器1910、1912和1914请求内容，诸如网页、电子邮件消息、视频剪辑等。在至少一个实施例中，第二类型(其可以被称为用户)雇佣web托管提供商来维护网络资源(诸如网站)并使其可用于浏览器。在至少一个实施例中，用户与web托管提供商签订合同，以根据用户期望利用的服务器资源的量使存储器空间、处理器容量和通信带宽可用于他们期望的网络资源。

在至少一个实施例中，为了使web托管提供商为这两个客户端提供服务，必须适当地配置管理由服务器托管的网络资源的应用程序。在至少一个实施例中，程序配置过程涉及定义参数集，所述参数集至少部分地控制应用程序对浏览器请求的响应，并且还至少部分地定义特定用户可用的服务器资源。

在一个实施例中，内联网服务器1916经由通信链路与网络1908通信。在至少一个实施例中，内联网服务器1916与服务器管理器1918通信。在至少一个实施例中，服务器管理器1918包括在服务器1910、1912和1914中使用的应用程序配置参数的数据库。在至少一个实施例中，用户经由内联网服务器1916修改数据库1920，并且服务器管理器1918与服务器1910、1912和1914交互以修改应用程序参数，使得它们匹配数据库的内容。在至少一个实施例中，用户通过经由客户端1902连接到内联网服务器1916并且输入诸如用户名和密码之类的认证信息来登录到内联网服务器1916。

在至少一个实施例中，当用户希望登录新服务或修改现有服务时，内联网服务器1916对用户进行认证并向用户提供允许用户访问特定应用程序的配置参数的交互式屏幕显示/控制面板。在至少一个实施例中，向用户呈现描述用户的网站或其他网络资源的配置的方面的多个可修改文本框。在至少一个实施例中，如果用户期望增加在服务器上为其网站保留的存储器空间，则向用户提供其中用户指定期望的存储器空间的字段。在至少一个实施例中，响应于接收到该信息，内联网服务器1916更新数据库1920。在至少一个实施例中，服务器管理器1918将该信息转发到适当的服务器，并且在应用程序操作期间使用新的参数。在至少一个实施例中，内联网服务器1916被配置为向用户提供对用户已与web托管服务提供商签订的托管网络资源(例如，网页、电子邮件、FTP站点、媒体站点等)的配置参数的访问。

在至少一个实施例中，关于图19所示或描述的至少一个组件用于执行结合图1-15描述的技术和/或功能。在至少一个实施例中，关于图19所示或描述的至少一个组件用于使第一应用程序编程接口(API)选择第二API，以执行由第一API识别的一个或更多个软件工作负载。在至少一个实施例中，关于图19所示或描述的至少一个组件用于执行第一应用程序编程接口(API)以选择第二API，以监控由第一API识别的一个或更多个软件工作负载的执行。在至少一个实施例中，关于图19所示或描述的至少一个组件用于执行第一应用程序编程接口(API)以选择第二API，以终止由第一API识别的一个或更多个软件工作负载的执行。在至少一个实施例中，关于图19所示或描述的至少一个组件用于执行关于框图100、框图200、过程300、框图400、过程500、过程600、过程700、框图800、框图900、框图1000、框图1100、过程1200、框图1300、框图1400、框图1500和/或本文所描述的其他系统、方法或操作描述的至少一个方面。

图20A示出了根据至少一个实施例的联网计算机系统2000A。在至少一个实施例中，联网计算机系统2000A包括多个节点2002、2018、2020(例如，个人计算机(“PC”))。在至少一个实施例中，个人计算机或节点2002包括处理器2014、存储器2016、摄像机2004、麦克风2006、鼠标2008、扬声器2010和监视器2012。在至少一个实施例中，节点2002、2018、2020可以各自运行例如给定公司内的内部网络的一个或更多个桌面服务器，或者可以是不限于特定环境的通用网络的服务器。在至少一个实施例中，网络的每PC节点有一个服务器，使得网络的每个PC节点表示具有特定网络URL地址的特定网络服务器。在至少一个实施例中，每个服务器默认为该服务器的用户的默认网页，该默认网页本身可包含指向该服务器上该用户的进一步子页面、或者指向网络上的其他服务器或其他服务器上的页面的嵌入式URL。

在至少一个实施例中，节点2002、2018、2020和网络的其他节点经由介质2022互连。在至少一个实施例中，介质2022可以是诸如综合服务数字网(“ISDN”)的通信信道。在至少一个实施例中，联网计算机系统的各个节点可以通过各种通信介质连接，包括局域网(“LAN”)、简易老式电话线(“POTS”)(有时被称为公共交换电话网络(“PSTN”))、和/或其变体。在至少一个实施例中，网络的各个节点还可以构成经由诸如互联网之类的网络互连的计算机系统用户。在至少一个实施例中，(在给定实例处从网络的特定节点运行的)网络上的每个服务器在网络内具有唯一地址或标识，该唯一地址或标识可以根据URL指定。

在至少一个实施例中，多个多点会议单元(“MCU”)因此可以用于向会议系统的各个节点或“端点”和从会议系统的各个节点或“端点”传输数据。在至少一个实施例中，除了各种其他通信介质(诸如，通过互联网连接的节点)之外，节点和/或MCU可经由ISDN链路或通过局域网(“LAN”)互连。在至少一个实施例中，会议系统的节点通常可以直接连接到通信介质(诸如LAN)或通过MCU连接，并且会议系统可以包括其他节点或元件，诸如路由器、服务器和/或其变体。

在至少一个实施例中，处理器2014是通用可编程处理器。在至少一个实施例中，联网计算机系统2000A的节点的处理器还可以是专用视频处理器。在至少一个实施例中，节点的不同外围设备和组件(诸如节点2002的那些)可以与其他节点的那些不同。在至少一个实施例中，节点2018和节点2020可以被配置为与节点2002相同或不同。在至少一个实施例中，除了PC系统之外，节点还可以在任何合适的计算机系统上实现。

在至少一个实施例中，关于图20A所示或描述的至少一个组件用于执行结合图1-15描述的技术和/或功能。在至少一个实施例中，关于图20A所示或描述的至少一个组件用于使第一应用程序编程接口(API)选择第二API，以执行由第一API识别的一个或更多个软件工作负载。在至少一个实施例中，关于图20A所示或描述的至少一个组件用于执行第一应用程序编程接口(API)以选择第二API，以监控由第一API识别的一个或更多个软件工作负载的执行。在至少一个实施例中，关于图20A所示或描述的至少一个组件用于执行第一应用程序编程接口(API)以选择第二API，以终止由第一API识别的一个或更多个软件工作负载的执行。在至少一个实施例中，关于图20A所示或描述的至少一个组件用于执行关于框图100、框图200、过程300、框图400、过程500、过程600、过程700、框图800、框图900、框图1000、框图1100、过程1200、框图1300、框图1400、框图1500和/或本文所描述的其他系统、方法或操作描述的至少一个方面。

图20B示出了根据至少一个实施例的联网计算机系统2000B。在至少一个实施例中，系统2000B示出了网络(诸如LAN 2124)，该网络可以用于互连可以彼此通信的各种节点。在至少一个实施例中，附接到LAN 2024的是多个节点，诸如PC节点2026、2028、2030。在至少一个实施例中，节点还可经由网络服务器或其他装置连接到LAN。在至少一个实施例中，系统2100B包括其他类型的节点或元件，例如，其包括路由器、服务器和节点。

在至少一个实施例中，关于图20B所示或描述的至少一个组件用于执行结合图1-15描述的技术和/或功能。在至少一个实施例中，关于图20B所示或描述的至少一个组件用于使第一应用程序编程接口(API)选择第二API，以执行由第一API识别的一个或更多个软件工作负载。在至少一个实施例中，关于图20B所示或描述的至少一个组件用于执行第一应用程序编程接口(API)以选择第二API，以监控由第一API识别的一个或更多个软件工作负载的执行。在至少一个实施例中，关于图20B所示或描述的至少一个组件用于执行第一应用程序编程接口(API)以选择第二API，以终止由第一API识别的一个或更多个软件工作负载的执行。在至少一个实施例中，关于图20B所示或描述的至少一个组件用于执行关于框图100、框图200、过程300、框图400、过程500、过程600、过程700、框图800、框图900、框图1000、框图1100、过程1200、框图1300、框图1400、框图1500和/或本文所描述的其他系统、方法或操作描述的至少一个方面。

图20C示出根据至少一个实施例的联网计算机系统2000C。在至少一个实施例中，系统2000C示出了具有跨主干通信网络(诸如互联网2032)的通信的WWW系统，主干通信网络可用于互连网络的各种节点。在至少一个实施例中，WWW是在互联网的顶部上操作的一组协议，并且允许图形界面系统在其上操作以便通过互联网访问信息。在至少一个实施例中，附接到WWW中的互联网2032的是多个节点，例如PC 2040、2042、2044。在至少一个实施例中，节点通过WWW HTTP服务器(诸如服务器2034、2036)与WWW的其他节点对接。在至少一个实施例中，PC 2044可以是形成网络2032的节点的PC，并且PC 2044本身运行它的服务器2036，尽管为了说明的目的在图20C中单独地示出PC 2044和服务器2036。

在至少一个实施例中，WWW是一种分布式类型的应用程序，其特征为WWW HTTP、WWW的协议，它在互联网的传输控制协议/互联网协议(“TCP/IP”)的顶部上运行。在至少一个实施例中，WWW因此可以由在互联网上运行的一组协议(即，HTTP)作为其“主干”来表征。

在至少一个实施例中，web浏览器是在兼容WWW类型的网络系统中在网络的节点上运行的应用程序，其允许特定服务器或节点的用户查看这样的信息，并因此允许用户搜索使用嵌入在从理解HTTP的网络上的服务器可获得的文档或文件中的超文本链接链接在一起的图形和基于文本的文件。在至少一个实施例中，当用户使用诸如互联网之类的网络上的另一服务器来检索与第一节点相关联的第一服务器的给定网页时，所检索到的文档可具有嵌入在其中的不同超文本链接，并且在检索用户的本地创建页面的本地副本。在至少一个实施例中，当用户点击超文本链接时，与所选择的超文本链接相关的本地存储的信息通常足以允许用户的机器打开通过互联网到由超文本链接指示的服务器的连接。

在至少一个实施例中，多于一个用户可例如通过LAN(诸如LAN 2038，诸如关于WWWHTTP服务器2034所示)耦合到每个HTTP服务器。在至少一个实施例中，系统2000C还可以包括其他类型的节点或元件。在至少一个实施例中，WWW HTTP服务器是在诸如PC的机器上运行的应用。在至少一个实施例中，每个用户可以被认为具有唯一的“服务器”，如关于PC2044所示。在至少一个实施例中，服务器可以被认为是诸如WWW HTTP服务器2034之类的服务器，该服务器为LAN或更多个节点或更多个LAN提供对网络的访问。在至少一个实施例中，存在多个用户，每个用户具有台式PC或网络的节点，每个台式PC潜在地为其用户建立服务器。在至少一个实施例中，每个服务器与特定网络地址或URL相关联，当被访问时，该特定网络地址或URL为该用户提供默认网页。在至少一个实施例中，网页可以包含进一步的链接(嵌入式URL)，其指向该服务器上的该用户的进一步的子页面，或者指向网络上的其他服务器或者指向网络上的其他服务器上的页面。

在至少一个实施例中，关于图20C所示或描述的至少一个组件用于执行结合图1-15描述的技术和/或功能。在至少一个实施例中，关于图20C所示或描述的至少一个组件用于使第一应用程序编程接口(API)选择第二API，以执行由第一API识别的一个或更多个软件工作负载。在至少一个实施例中，关于图20C所示或描述的至少一个组件用于执行第一应用程序编程接口(API)以选择第二API，以监控由第一API识别的一个或更多个软件工作负载的执行。在至少一个实施例中，关于图20C所示或描述的至少一个组件用于执行第一应用程序编程接口(API)以选择第二API，以终止由第一API识别的一个或更多个软件工作负载的执行。在至少一个实施例中，关于图20C所示或描述的至少一个组件用于执行关于框图100、框图200、过程300、框图400、过程500、过程600、过程700、框图800、框图900、框图1000、框图1100、过程1200、框图1300、框图1400、框图1500和/或本文所描述的其他系统、方法或操作描述的至少一个方面。

云计算和服务

以下附图阐述但不限于可以用于实现至少一个实施例的示例性的基于云的系统。

在至少一个实施例中，云计算是一种计算风格，其中动态可扩展和通常虚拟化的资源作为服务通过互联网来提供。在至少一个实施例中，用户不需要具有支持他们的技术基础设施的知识、技术基础设施的专业知识或对技术基础设施的控制，该技术基础设施可以被称为“在云中”。在至少一个实施例中，云计算将基础设施合并为服务、平台即服务、软件即服务、以及具有依赖于互联网的常见主题以满足用户的计算需求的其他变型。在至少一个实施例中，典型的云部署(诸如在私有云(例如，企业网络)中)或公共云(例如，互联网)中的数据中心(DC)可由数千个服务器(或可替代地，VM)、数百个以太网、光纤信道或以太网光纤信道(FCoE)端口、交换和存储基础设施等组成。在至少一个实施例中，云还可以由网络服务基础设施组成，如IPsec VPN集线器、防火墙、负载平衡器、广域网(WAN)优化器等。在至少一个实施例中，远程订户可以通过经由VPN隧道(如IPsec VPN隧道)连接来安全地访问云应用和服务。

在至少一个实施例中，云计算是一种用于使能对可配置计算资源(例如，网络、服务器、存储装置、应用程序和服务)的共享池的方便、按需的网络访问的模型，所述可配置计算资源可以用最小的管理努力或服务提供商交互来快速配置和释放。

在至少一个实施例中，云计算的特征在于按需自助服务，其中消费者可根据需要自动地单方面供应计算能力，诸如服务器时间和网络存储，而无需与每个服务提供商的人类互动。在至少一个实施例中，云计算的特征在于广泛的网络访问，其中能力在网络上可用并且通过标准机制来访问，所述标准机制促进由异构的瘦或厚客户端平台(例如，移动电话、膝上型计算机和PDA)的使用。在至少一个实施例中，云计算的特征在于资源池，其中提供商的计算资源被池化以使用多租户模型服务于多个消费者，其中不同的物理和虚拟资源根据消费者需求被动态地签名和重新分配。在至少一个实施例中，存在位置独立性的感觉，因为消费者通常对所提供的资源的确切位置没有控制或知识，但可能能够在较高抽象级别(例如，国家、州或数据中心)指定位置。在至少一个实施例中，资源的示例包括存储、处理、存储器、网络带宽和虚拟机。在至少一个实施例中，云计算的特征在于快速弹性，其中能力可被快速且弹性地供应(在一些情况下是自动地)，以快速缩小和快速释放以快速放大。在至少一个实施例中，对于消费者，可用于供应的能力通常显得不受限制并且可以在任何时间以任何数量购买。在至少一个实施例中，云计算由测量的服务来表征，其中云系统通过在适合于服务类型(例如，存储、处理、带宽和活动用户账户)的某种抽象级别处利用计量能力来自动地控制和优化资源使用。在至少一个实施例中，资源使用可以被监控、控制和报告，从而为所利用的服务的提供商和消费者两者提供透明度。

在至少一个实施例中，云计算可与各种服务相关联。在至少一个实施例中，云软件即服务(SaaS)可以指代提供给消费者的能力是使用在云基础设施上运行的提供商的应用的服务。在至少一个实施例中，应用可通过诸如web浏览器(例如，基于web的电子邮件)的瘦客户端接口从不同客户端设备访问。在至少一个实施例中，消费者不管理或控制包括网络、服务器、操作系统、存储或甚至各个应用能力的底层云基础结构，可能的例外是有限的用户特定的应用配置设置。

在至少一个实施例中，云平台即服务(PaaS)可以指这样的服务：其中提供给消费者的能力是将消费者创建或获取的应用程序部署到云基础设施上，这些应用程序是使用由提供商支持的编程语言和工具创建的。在至少一个实施例中，消费者不管理或控制包括网络、服务器、操作系统或存储的底层云基础结构，但是具有对所部署的应用程序以及可能的应用托管环境配置的控制。

在至少一个实施例中，云基础设施即服务(IaaS)可以指这样的服务：其中向消费者提供的能力是提供处理、存储、网络和消费者能够部署和运行可包括操作系统和应用的任意软件的其他基本计算资源。在至少一个实施例中，消费者不管理或控制底层云基础设施，而是具有对操作系统、存储、所部署的应用程序的控制，以及对选择的联网组件(例如，主机防火墙)的可能有限的控制。

在至少一个实施例中，可以不同方式部署云计算。在至少一个实施例中，私有云可指仅针对组织操作的云基础设施。在至少一个实施例中，私有云可由组织或第三方管理，并且可存在于场所内或场所外。在至少一个实施例中，社区云可以指由若干组织共享并且支持具有共享关注(例如，任务、安全要求、策略和合规性考虑)的特定社区的云基础设施。在至少一个实施例中，社区云可由组织或第三方管理，并且可存在于场所内或场所外。在至少一个实施例中，公共云可以指代对一般公众或大型产业组可用并且由提供云服务的组织拥有的云基础设施。在至少一个实施例中，混合云可以指云基础设施是两个或更多个云(私有、社区或公共的)的组成部分，这些云仍然是唯一的实体，但是通过实现数据和应用便携性的标准化或专有技术(例如，用于云之间的负载平衡的云突发)绑定在一起。在至少一个实施例中，云计算环境是面向服务的，其关注于无状态性、低耦合、模块性和语义互操作性。

图21示出根据至少一个实施例的系统环境2100的一个或更多个组件，其中服务可被提供为第三方网络服务。在至少一个实施例中，第三方网络可被称为云、云网络、云计算网络和/或其变体。在至少一个实施例中，系统环境2100包括一个或更多个客户端计算设备2104、2106和2108，客户端计算设备2104、2106和2108可被用户用来与提供第三方网络服务(其可被称为云计算服务)的第三方网络基础设施系统2102交互。在至少一个实施例中，第三方网络基础设施系统2102可包括一个或更多个计算机和/或服务器。

应了解，图21中所描绘的第三方网络基础设施系统2102可具有除了所描绘的那些组件之外的其他组件。进一步地，图21描绘了第三方网络基础设施系统的实施例。在至少一个实施例中，第三方网络基础设施系统2102可具有比图21中描绘的更多或更少的组件，可组合两个或更多个组件，或可具有不同的组件配置或布置。

在至少一个实施例中，客户端计算设备2104、2106和2108可被配置成操作客户端应用，诸如web浏览器，可由客户端计算设备的用户用来与第三方网络基础设施系统2102交互以使用由第三方网络基础设施系统2102提供的服务的专有客户端应用或一些其他应用。尽管示例性系统环境2100被示为具有三个客户端计算设备，但是可以支持任何数量的客户端计算设备。在至少一个实施例中，其他设备，诸如具有传感器的设备等，可与第三方网络基础设施系统2102交互。在至少一个实施例中，一个或更多个网络2110可以促进客户端计算设备2104、2106和2108与第三方网络基础设施系统2102之间的通信和数据交换。

在至少一个实施例中，由第三方网络基础设施系统2102提供的服务可包括按需可用于第三方网络基础设施系统的用户的服务的主机。在至少一个实施例中，还可以提供各种服务，包括但不限于在线数据存储和备份解决方案、基于Web的电子邮件服务、托管的办公套件和文档协作服务、数据库管理和处理、管理的技术支持服务、和/或其变体。在至少一个实施例中，由第三方网络基础设施系统提供的服务可以动态地扩展以满足其用户的需要。

在至少一个实施例中，由第三方网络基础设施系统2102提供的服务的特定实例化可被称为“服务实例”。在至少一个实施例中，通常，经由通信网络(诸如互联网)从第三方网络服务提供商系统对用户可用的任何服务被称为“第三方网络服务”。在至少一个实施例中，在公共第三方网络环境中，组成第三方网络服务提供商系统的服务器和系统不同于客户自己的场所内服务器和系统。在至少一个实施例中，第三方网络服务提供商系统可以托管应用，并且用户可以经由通信网络(诸如互联网)按需订购和使用应用。

在至少一个实施例中，计算机网络第三方网络基础设施中的服务可包括对存储、托管数据库、托管网络服务器、软件应用或由第三方网络供应商提供给用户的其他服务的受保护的计算机网络访问。在至少一个实施例中，服务可包括通过互联网对第三方网络上的远程存储装置的密码保护的访问。在至少一个实施例中，服务可以包括基于网络服务的托管关系数据库和脚本语言中间件引擎，以便由联网开发者私人使用。在至少一个实施例中，服务可包括对托管在第三方网络供应商的网站上的电子邮件软件应用的访问。

在至少一个实施例中，第三方网络基础设施系统2102可包括以自助、基于订阅、可弹性扩展、可靠、高度可用和安全方式递送给客户的一套应用、中间件和数据库服务提供物。在至少一个实施例中，第三方网络基础设施系统2102还可以提供“大数据”相关的计算和分析服务。在至少一个实施例中，术语“大数据”通常用于指可以由分析师和研究人员存储和操纵的极大数据集，以便使大量数据可视化、检测趋势、和/或以其他方式与数据交互。在至少一个实施例中，大数据和相关应用可以由基础设施系统在许多级别上和以不同规模托管和/或操纵。在至少一个实施例中，并行链接的数十个、数百个或数千个处理器可对此类数据起作用以便呈现该数据或模拟对数据或其所表示的内容的外力。在至少一个实施例中，这些数据集可涉及结构化数据(诸如在数据库中或以其他方式根据结构化模型组织的结构化数据)和/或非结构化数据(例如，电子邮件、图像、数据blob(二进制大对象)、网页、复杂事件处理)。在至少一个实施例中，通过利用实施例的能力来将更多(或更少)计算资源相对快速地聚焦到目标上，第三方网络基础设施系统可以更好地可用于基于来自企业、政府机构、研究组织、私人个人、想法相同的个人或组织的组、或其他实体的需求在大数据集上执行任务。

在至少一个实施例中，第三方网络基础设施系统2102可以被适配成自动地提供、管理和跟踪顾客对由第三方网络基础设施系统2102提供的服务的订阅。在至少一个实施例中，第三方网络基础设施系统2102可以经由不同的部署模型提供第三方网络服务。在至少一个实施例中，可在公共第三方网络模型下提供服务，其中第三方网络基础设施系统2102由销售第三方网络服务的组织拥有，并且使得服务可用于一般公众或不同的行业企业。在至少一个实施例中，可在私有第三方网络模型下提供服务，在该私有第三方网络模型中，第三方网络基础设施系统2102仅针对单个组织操作，并且可为组织内的一个或更多个实体提供服务。在至少一个实施例中，第三方网络服务也可在社区第三方网络模型下提供，其中第三方网络基础设施系统2102和第三方网络基础设施系统2102提供的服务由相关社区中的若干组织共享。在至少一个实施例中，也可在混合第三方网络模型下提供第三方网络服务，该混合第三方网络模型是两个或更多个不同模型的组合。

在至少一个实施例中，由第三方网络基础设施系统2102提供的服务可包括在软件即服务(SaaS)类别、平台即服务(PaaS)类别、基础设施即服务(IaaS)类别或包括混合服务的其他服务类别下提供的一个或更多个服务。在至少一个实施例中，客户经由订阅订单可订购由第三方网络基础设施系统2102提供的一个或更多个服务。在至少一个实施例中，第三方网络基础设施系统2102然后执行处理以在客户的订阅订单中提供服务。

在至少一个实施例中，由第三方网络基础设施系统2102提供的服务可以包括但不限于应用服务、平台服务和基础设施服务。在至少一个实施例中，应用服务可由第三方网络基础设施系统经由SaaS平台提供。在至少一个实施例中，SaaS平台可被配置为提供属于SaaS类别的第三方网络服务。在至少一个实施例中，SaaS平台可以提供在集成开发和部署平台上构建并递送一套按需应用的能力。在至少一个实施例中，SaaS平台可以管理和控制用于提供SaaS服务的底层软件和基础设施。在至少一个实施例中，通过利用由SaaS平台提供的服务，客户可利用在第三方网络基础设施系统上执行的应用。在至少一个实施例中，客户可以获得应用服务，而不需要客户购买单独的许可证和支持。在至少一个实施例中，可提供各种不同的SaaS服务。在至少一个实施例中，示例包括但不限于为大组织的销售性能管理、企业集成和商业灵活性提供解决方案的服务。

在至少一个实施例中，平台服务可由第三方网络基础设施系统2102经由PaaS平台提供。在至少一个实施例中，PaaS平台可被配置为提供属于PaaS类别的第三方网络服务。在至少一个实施例中，平台服务的示例可以包括但不限于使组织能够将现有应用合并在共享的公共架构上的服务，以及建立利用由平台提供的共享服务的新应用的能力。在至少一个实施例中，PaaS平台可以管理和控制用于提供PaaS服务的底层软件和基础设施。在至少一个实施例中，客户可获取由第三方网络基础设施系统2102提供的PaaS服务，而无需客户购买单独的许可证和支持。

在至少一个实施例中，通过利用由PaaS平台提供的服务，客户可采用由第三方网络基础设施系统支持的编程语言和工具，并且还控制所部署的服务。在至少一个实施例中，由第三方网络基础设施系统提供的平台服务可包括数据库第三方网络服务、中间件第三方网络服务和第三方网络服务。在至少一个实施例中，数据库第三方网络服务可支持共享服务部署模型，所述共享服务部署模型使组织能够汇聚数据库资源并以数据库第三方网络的形式向客户提供数据库即服务。在至少一个实施例中，在第三方网络基础设施系统中，中间件第三方网络服务可以为客户提供平台以开发和部署不同业务应用，并且第三方网络服务可以为客户提供平台以部署应用。

在至少一个实施例中，各种不同的基础设施服务可由第三方网络基础设施系统中的IaaS平台提供。在至少一个实施例中，基础设施服务促进利用由SaaS平台和PaaS平台提供的服务的客户对底层计算资源(诸如存储、网络和其他基础计算资源)的管理和控制。

在至少一个实施例中，第三方网络基础设施系统2102还可包括用于提供用于向第三方网络基础设施系统的客户提供各种服务的资源的基础设施资源2130。在至少一个实施例中，基础设施资源2130可包括硬件(诸如服务器、存储和联网资源)的预集成和优化的组合，用于执行由PaaS平台和SaaS平台提供的服务和其他资源。

在至少一个实施例中，第三方网络基础设施系统2102中的资源可由多个用户共享并且按照需求动态地重新分配。在至少一个实施例中，可以向不同时区中的用户分配资源。在至少一个实施例中，第三方网络基础设施系统2102可以使得第一时区中的第一组用户能够利用第三方网络基础设施系统的资源持续指定小时数，并且随后使得能够将相同资源重新分配给位于不同时区中的另一组用户，从而使资源利用率最大化。

在至少一个实施例中，可提供由第三方网络基础设施系统2102的不同组件或模块共享的多个内部共享服务2132，用于实现由第三方网络基础设施系统2102提供服务。在至少一个实施例中，这些内部共享服务可包括但不限于安全和身份服务、集成服务、企业库服务、企业管理器服务、病毒扫描和白名单服务、高可用性、备份和恢复服务、用于使能第三方网络支持的服务、电子邮件服务、通知服务、文件传输服务和/或其变体。

在至少一个实施例中，第三方网络基础设施系统2102可在第三方网络基础设施系统中提供第三方网络服务(例如，SaaS、PaaS和IaaS服务)的全面管理。在至少一个实施例中，第三方网络管理功能可包括用于供应、管理和跟踪由第三方网络基础设施系统2102接收的客户的订阅的能力和/或其变体。

在至少一个实施例中，如图21所示，第三方网络管理功能可以由一个或更多个模块提供，诸如订单管理模块2120、订单协调模块2121、订单供应模块2124、订单管理和监控模块2126和身份管理模块2128。在至少一个实施例中，这些模块可包括一个或更多个计算机和/或服务器或使用一个或更多个计算机和/或服务器来提供，所述一个或更多个计算机和/或服务器可以是通用计算机、专用服务器计算机、服务器农场、服务器集群或任何其他适当的布置和/或组合。

在至少一个实施例中，在步骤2134，使用客户端设备(诸如客户端计算设备2104、2106或2108)的客户可通过请求由第三方网络基础设施系统2102提供的一个或更多个服务并对由第三方网络基础设施系统2102提供的一个或更多个服务的订阅下订单来与第三方网络基础设施系统2102交互。在至少一个实施例中，客户可访问第三方网络用户界面(UI)，诸如第三方网络UI 2112、第三方网络UI 2114和/或第三方网络UI 2116，并经由这些UI进行订购订单。在至少一个实施例中，由第三方网络基础设施系统2102响应于客户下订单而接收的订单信息可包括识别客户和由第三方网络基础设施系统2102提供的、客户想要订阅的一个或更多个服务的信息。

在至少一个实施例中，在步骤2136，从客户接收的订单信息可存储在订单数据库2118中。在至少一个实施例中，如果这是新订单，则可以为订单创建新记录。在至少一个实施例中，订单数据库2118可以是由第三方网络基础设施系统2118操作的并且结合其他系统元件操作的若干数据库之一。

在至少一个实施例中，在步骤2138，可以将订单信息转发到订单管理模块2120，该订单管理模块可以被配置成执行与订单相关的计费和记账功能，诸如验证订单，并且在验证后，预订一订单。

在至少一个实施例中，在步骤2140，关于订单的信息可被传送到订单协调模块2122，该订单协调模块2122被配置为针对由客户下的订单协调服务和资源的供应。在至少一个实施例中，订单协调模块2122可以使用订单供应模块2124的服务进行供应。在至少一个实施例中，订单协调模块2122使得能够管理与每个订单相关联的业务过程，并且应用业务逻辑来确定订单是否应继续供应。

在至少一个实施例中，在步骤2142，当接收到新订阅的订单时，订单协调模块2122向订单供应模块2124发送分配资源和配置满足订阅订单所需的资源的请求。在至少一个实施例中，订单供应模块2124实现针对由客户订购的服务的资源分配。在至少一个实施例中，订单供应模块2124提供由第三方网络基础设施系统2100提供的第三方网络服务与用于供应用于提供所请求的服务的资源的物理实现层之间的抽象级别。在至少一个实施例中，这使得订单协调模块2122能够与实现细节隔离，诸如服务和资源实际上是实时供应的，还是预先供应的并且仅在请求时分配/指派。

在至少一个实施例中，在步骤2144，一旦服务和资源被供应，可以向订阅客户发送指示所请求的服务现在准备好使用的通知。在至少一个实施例中，信息(例如，链接)可以被发送到客户，其使客户能够开始使用所请求的服务。

在至少一个实施例中，在步骤2146，客户订阅的订单可由订单管理和监控模块2126管理和跟踪。在至少一个实施例中，订单管理和监控模块2126可以被配置成收集关于订阅服务的客户使用的使用统计。在至少一个实施例中，可以针对所使用的存储量、所传输的数据量、用户数量、以及系统上电时间和系统下电时间的量和/或其变化来收集统计。

在至少一个实施例中，第三方网络基础设施系统2100可包括身份管理模块2128，该身份管理模块2128被配置成提供身份服务，诸如第三方网络基础设施系统2100中的访问管理和授权服务。在至少一个实施例中，身份管理模块2128可控制关于希望利用由第三方网络基础设施系统2102提供的服务的客户的信息。在至少一个实施例中，这样的信息可以包括认证这样的客户的身份的信息和描述那些客户被授权相对于各种系统资源(例如，文件、目录、应用、通信端口、存储器段等)执行哪些动作的信息。在至少一个实施例中，身份管理模块2128还可包括管理关于每个顾客的描述性信息以及关于可如何访问和修改该描述性信息和可由谁来访问和修改该描述性信息。

在至少一个实施例中，关于图21所示或描述的至少一个组件用于执行结合图1-15描述的技术和/或功能。在至少一个实施例中，关于图21所示或描述的至少一个组件用于使第一应用程序编程接口(API)选择第二API，以执行由第一API识别的一个或更多个软件工作负载。在至少一个实施例中，关于图21所示或描述的至少一个组件用于执行第一应用程序编程接口(API)以选择第二API，以监控由第一API识别的一个或更多个软件工作负载的执行。在至少一个实施例中，关于图21所示或描述的至少一个组件用于执行第一应用程序编程接口(API)以选择第二API，以终止由第一API识别的一个或更多个软件工作负载的执行。在至少一个实施例中，关于图21所示或描述的至少一个组件用于执行关于框图100、框图200、过程300、框图400、过程500、过程600、过程700、框图800、框图900、框图1000、框图1100、过程1200、框图1300、框图1400、框图1500和/或本文所描述的其他系统、方法或操作描述的至少一个方面。

图22示出了根据至少一个实施例的云计算环境2202。在至少一个实施例中，云计算环境2202包括一个或更多个计算机系统/服务器2204，诸如个人数字助理(PDA)或蜂窝电话2206A、台式计算机2206B、膝上型计算机2206C和/或汽车计算机系统2206N之类的计算设备与该一个或更多个计算机系统/服务器2204通信。在至少一个实施例中，这允许基础设施、平台和/或软件作为服务从云计算环境2202提供，以便不需要每个客户端单独地维护这样的资源。应当理解，图22中示出的计算设备2206A-N的类型旨在仅是说明性的，并且云计算环境2202可通过任何类型的网络和/或网络/可寻址连接(例如，使用web浏览器)与任何类型的计算机化设备通信。

在至少一个实施例中，可被表示为云计算节点的计算机系统/服务器2204可与许多其他通用或专用计算系统环境或配置一起操作。在至少一个实施例中，可以适合于与计算机系统/服务器2204一起使用的计算系统、环境、和/或配置的示例包括但不限于个人计算机系统、服务器计算机系统、瘦客户端、厚客户端、手持式或膝上型设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费电子产品，网络PC、小型计算机系统、大型计算机系统和包括任何上述系统或设备的分布式云计算环境，和/或其变体。

在至少一个实施例中，计算机系统/服务器2204可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般上下文中描述。在至少一个实施例中，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、逻辑、数据结构等。在至少一个实施例中，示例性计算机系统/服务器2204可以在分布式云计算环境中实践，其中任务由通过通信网络链接的远程处理设备来执行。在至少一个实施例中，在分布式云计算环境中，程序模块可位于包括存储器存储设备的本地和远程计算机系统存储介质两者中。

在至少一个实施例中，关于图22所示或描述的至少一个组件用于执行结合图1-15描述的技术和/或功能。在至少一个实施例中，关于图22所示或描述的至少一个组件用于使第一应用程序编程接口(API)选择第二API，以执行由第一API识别的一个或更多个软件工作负载。在至少一个实施例中，关于图22所示或描述的至少一个组件用于执行第一应用程序编程接口(API)以选择第二API，以监控由第一API识别的一个或更多个软件工作负载的执行。在至少一个实施例中，关于图22所示或描述的至少一个组件用于执行第一应用程序编程接口(API)以选择第二API，以终止由第一API识别的一个或更多个软件工作负载的执行。在至少一个实施例中，关于图22所示或描述的至少一个组件用于执行关于框图100、框图200、过程300、框图400、过程500、过程600、过程700、框图800、框图900、框图1000、框图1100、过程1200、框图1300、框图1400、框图1500和/或本文所描述的其他系统、方法或操作描述的至少一个方面。

图23示出了根据至少一个实施例的由云计算环境2202(图22)提供的一组功能抽象层。应提前理解，图23中所示的组件、层和功能仅旨在是说明性的，并且组件、层和功能可以变化。

在至少一个实施例中，硬件和软件层2302包括硬件和软件组件。在至少一个实施例中，硬件组件的示例包括大型机、基于各种RISC(精简指令集计算机)架构的服务器、各种计算系统、超级计算系统、存储设备、网络、联网组件和/或其变体。在至少一个实施例中，软件组件的示例包括网络应用服务器软件、各种应用服务器软件、各种数据库软件、和/或其变体。

在至少一个实施例中，虚拟化层2304提供抽象层，从该抽象层可以提供以下示例性虚拟实体：虚拟服务器、虚拟存储、虚拟网络(包括虚拟私有网络)、虚拟应用、虚拟客户端和/或其变体。

在至少一个实施例中，管理层2306提供各种功能。在至少一个实施例中，资源供应提供用于在云计算环境内执行任务的计算资源和其他资源的动态获取。在至少一个实施例中，计量(metering)提供了在云计算环境内利用资源时的使用跟踪，以及针对这些资源的消耗的计费或发票。在至少一个实施例中，资源可以包括应用软件许可证。在至少一个实施例中，安全性为用户和任务提供身份验证，以及对数据和其他资源的保护。在至少一个实施例中，用户界面为用户和系统管理员两者提供对云计算环境的访问。在至少一个实施例中，服务水平管理提供云计算资源分配和管理，使得满足所需的服务水平。在至少一个实施例中，服务水平协议(SLA)管理提供云计算资源的预布置和获取，根据SLA预期对该云计算资源的未来需求。

在至少一个实施例中，工作负载层2308提供利用云计算环境的功能。在至少一个实施例中，可以从该层提供的工作负载和功能的示例包括：地图和导航、软件开发和管理、教育服务、数据分析和处理、交易处理和服务递送。

在至少一个实施例中，关于图23所示或描述的至少一个组件用于执行结合图1-15描述的技术和/或功能。在至少一个实施例中，关于图23所示或描述的至少一个组件用于使第一应用程序编程接口(API)选择第二API，以执行由第一API识别的一个或更多个软件工作负载。在至少一个实施例中，关于图23所示或描述的至少一个组件用于执行第一应用程序编程接口(API)以选择第二API，以监控由第一API识别的一个或更多个软件工作负载的执行。在至少一个实施例中，关于图23所示或描述的至少一个组件用于执行第一应用程序编程接口(API)以选择第二API，以终止由第一API识别的一个或更多个软件工作负载的执行。在至少一个实施例中，关于图23所示或描述的至少一个组件用于执行关于框图100、框图200、过程300、框图400、过程500、过程600、过程700、框图800、框图900、框图1000、框图1100、过程1200、框图1300、框图1400、框图1500和/或本文所描述的其他系统、方法或操作描述的至少一个方面。

超级计算

以下附图阐述了但不限于可以用于实现至少一个实施例的示例性的基于超级计算机的系统。

在至少一个实施例中，超级计算机可以指展现出显著并行性并且包括至少一个芯片的硬件系统，其中系统中的芯片通过网络互连并且被放置在分层组织的外壳中。在至少一个实施例中，用若干机架填充机房的大型硬件系统是超级计算机的一个具体的示例，每个机架包含若干板/机架模块，每个板/机架模块包含全部由可扩展网络互连的若干芯片。在至少一个实施例中，这种大型硬件系统的单个机架是超级计算机的另一个示例。在至少一个实施例中，展现出显著并行性并且包含若干硬件组件的单个芯片同样可以被认为是超级计算机，因为随着特征尺寸可能减小，可以结合在单个芯片中的硬件数量也可能增加。

图24示出了根据至少一个实施例的芯片级的超级计算机。在至少一个实施例中，在FPGA或ASIC芯片内部，在被称为线程单元的有限状态机(2404)内执行主计算。在至少一个实施例中，任务和同步网络(2402)连接有限状态机并且被用于以正确的顺序分派线程和执行操作。在至少一个实施例中，使用存储器网络(2406，2410)来访问多级分区的片上高速缓存层级(2408，2412)。在至少一个实施例中，使用存储器控制器(2416)和片外存储器网络(2414)来访问片外存储器。在至少一个实施例中，当设计不适合于单个逻辑芯片时，I/O控制器(2418)用于跨芯片通信。

在至少一个实施例中，关于图24所示或描述的至少一个组件用于执行结合图1-15描述的技术和/或功能。在至少一个实施例中，关于图24所示或描述的至少一个组件用于使第一应用程序编程接口(API)选择第二API，以执行由第一API识别的一个或更多个软件工作负载。在至少一个实施例中，关于图24所示或描述的至少一个组件用于执行第一应用程序编程接口(API)以选择第二API，以监控由第一API识别的一个或更多个软件工作负载的执行。在至少一个实施例中，关于图24所示或描述的至少一个组件用于执行第一应用程序编程接口(API)以选择第二API，以终止由第一API识别的一个或更多个软件工作负载的执行。在至少一个实施例中，关于图24所示或描述的至少一个组件用于执行关于框图100、框图200、过程300、框图400、过程500、过程600、过程700、框图800、框图900、框图1000、框图1100、过程1200、框图1300、框图1400、框图1500和/或本文所描述的其他系统、方法或操作描述的至少一个方面。

图25示出根据至少一个实施例的在机架模块级别的超级计算机。在至少一个实施例中，在机架模块内，存在连接至构成主加速器存储器的一个或更多个DRAM单元(2504)的多个FPGA或ASIC芯片(2502)。在至少一个实施例中，每个FPGA/ASIC芯片使用板上的宽总线用差分高速信令(2506)连接到其相邻的FPGA/ASIC芯片。在至少一个实施例中，每个FPGA/ASIC芯片还连接到至少一个高速串行通信电缆。

在至少一个实施例中，关于图25所示或描述的至少一个组件用于执行结合图1-15描述的技术和/或功能。在至少一个实施例中，关于图25所示或描述的至少一个组件用于使第一应用程序编程接口(API)选择第二API，以执行由第一API识别的一个或更多个软件工作负载。在至少一个实施例中，关于图25所示或描述的至少一个组件用于执行第一应用程序编程接口(API)以选择第二API，以监控由第一API识别的一个或更多个软件工作负载的执行。在至少一个实施例中，关于图25所示或描述的至少一个组件用于执行第一应用程序编程接口(API)以选择第二API，以终止由第一API识别的一个或更多个软件工作负载的执行。在至少一个实施例中，关于图25所示或描述的至少一个组件用于执行关于框图100、框图200、过程300、框图400、过程500、过程600、过程700、框图800、框图900、框图1000、框图1100、过程1200、框图1300、框图1400、框图1500和/或本文所描述的其他系统、方法或操作描述的至少一个方面。

图26示出了根据至少一个实施例的机架级的超级计算机。图27示出了根据至少一个实施例的整个系统级的超级计算机。在至少一个实施例中，参见图26和图27，在机架中的机架模块之间并且跨整个系统的机架，使用高速串行光缆或铜电缆(2602、2702)来实现可扩展的、可能不完整的超立方体网络。在至少一个实施例中，加速器的FPGA/ASIC芯片中的一个通过PCI-Express连接被连接到主机系统(2704)。在至少一个实施例中，主机系统包括应用的软件部分在其上运行的主机微处理器(2708)以及由与加速器上的存储器保持一致的一个或更多个主机存储器DRAM单元(2706)组成的存储器。在至少一个实施例中，主机系统可以是机架之一上的单独模块，或可以与超级计算机的模块之一集成。在至少一个实施例中，立方体连接的循环拓扑提供通信链路以为大型超级计算机创建超立方体网络。在至少一个实施例中，机架模块上的小组FPGA/ASIC芯片可充当单个超立方体节点，使得与单个芯片相比，每组的外部链路的总数增加。在至少一个实施例中，组包含机架模块上的芯片A、B、C和D，该机架模块具有连接环形组织中的A、B、C和D的内部宽差分总线。在至少一个实施例中，存在将机架模块连接到外部世界的12条串行通信电缆。在至少一个实施例中，机架模块上的芯片A连接至串行通信电缆0、1、2。在至少一个实施例中，芯片B连接至电缆3、4、5。在至少一个实施例中，芯片C连接至6、7、8。在至少一个实施例中，芯片D连接至9、10、11。在至少一个实施例中，构成机架模块的整个组{A，B，C，D}可以形成超级计算机系统内的超立方体节点，其中多达212＝4096个机架模块(16384FPGA/ASIC芯片)。在至少一个实施例中，为了使芯片A在组{A，B，C，D}的链路4上向外发送消息，必须首先用板上差分宽总线连接将消息路由到芯片B。在至少一个实施例中，在链路4上到达去往芯片A的组{A，B，C，D}(即，到达B)的消息也必须首先被路由到组{A，B，C，D}内部的正确目的地芯片(A)。在至少一个实施例中，还可以实现其他大小的并行超级计算机系统。

在至少一个实施例中，关于图26所示或描述的至少一个组件用于执行结合图1-15描述的技术和/或功能。在至少一个实施例中，关于图26所示或描述的至少一个组件用于使第一应用程序编程接口(API)选择第二API，以执行由第一API识别的一个或更多个软件工作负载。在至少一个实施例中，关于图26所示或描述的至少一个组件用于执行第一应用程序编程接口(API)以选择第二API，以监控由第一API识别的一个或更多个软件工作负载的执行。在至少一个实施例中，关于图26所示或描述的至少一个组件用于执行第一应用程序编程接口(API)以选择第二API，以终止由第一API识别的一个或更多个软件工作负载的执行。在至少一个实施例中，关于图26所示或描述的至少一个组件用于执行关于框图100、框图200、过程300、框图400、过程500、过程600、过程700、框图800、框图900、框图1000、框图1100、过程1200、框图1300、框图1400、框图1500和/或本文所描述的其他系统、方法或操作描述的至少一个方面。

在至少一个实施例中，关于图27所示或描述的至少一个组件用于执行结合图1-15描述的技术和/或功能。在至少一个实施例中，关于图27所示或描述的至少一个组件用于使第一应用程序编程接口(API)选择第二API，以执行由第一API识别的一个或更多个软件工作负载。在至少一个实施例中，关于图27所示或描述的至少一个组件用于执行第一应用程序编程接口(API)以选择第二API，以监控由第一API识别的一个或更多个软件工作负载的执行。在至少一个实施例中，关于图27所示或描述的至少一个组件用于执行第一应用程序编程接口(API)以选择第二API，以终止由第一API识别的一个或更多个软件工作负载的执行。在至少一个实施例中，关于图27所示或描述的至少一个组件用于执行关于框图100、框图200、过程300、框图400、过程500、过程600、过程700、框图800、框图900、框图1000、框图1100、过程1200、框图1300、框图1400、框图1500和/或本文所描述的其他系统、方法或操作描述的至少一个方面。

人工智能

以下附图阐述了但不限于可以用于实现至少一个实施例的示例性的基于人工智能的系统。

图28A示出了用于执行与一个或更多个实施例相关联的推理和/或训练操作的推理和/或训练逻辑2815。下面结合图28A和/或图28B提供关于推理和/或训练逻辑2815的细节。

在至少一个实施例中，推理和/或训练逻辑2815可以包括但不限于，代码和/或数据存储2801，用于存储前向和/或输出权重和/或输入/输出数据，和/或在一个或更多个实施例的各方面中用于配置被训练和/或用于推理的神经网络的神经元或层的其他参数。在至少一个实施例中，训练逻辑2815可以包括或被耦合到代码和/或数据存储2801，用于存储图形代码或其他软件以控制定时和/或顺序，其中将加载权重和/或其他参数信息来配置逻辑，包括整数和/或浮点单元(统称为算术逻辑单元(ALU))。在至少一个实施例中，代码(诸如图代码)基于这样的代码所对应的神经网络的架构将权重或其他参数信息加载到处理器ALU中。在至少一个实施例中，代码和/或数据存储2801存储神经网络的每个层的权重参数和/或输入/输出数据，该神经网络在使用一个或更多个实施例的各方面的训练和/或推理期间在输入/输出数据和/或权重参数的前向传播期间与一个或更多个实施例结合训练或使用。在至少一个实施例中，代码和/或数据存储2801的任何部分可与其他片上或片外数据存储装置一起被包括，包括处理器的L1、L2或L3高速缓存存储器或系统存储器。

在至少一个实施例中，代码和/或数据存储2801的任何部分可在一个或更多个处理器或其他硬件逻辑设备或电路内部或外部。在至少一个实施例中，代码和/或代码和/或数据存储2801可以是高速缓存存储器、动态随机可寻址存储器(“DRAM”)、静态随机可寻址存储器(“SRAM”)、非易失性存储器(例如，闪存)或其他存储装置。在至少一个实施例中，对代码和/或代码和/或数据存储2801是在处理器内部还是外部，例如，或包括DRAM、SRAM、闪存或一些其他存储类型的选择，可以取决于片上相对于片外的可用存储，正在执行的训练和/或推理功能的延时要求、在神经网络的推理和/或训练中使用的数据的批大小，或这些因素的一些组合。

在至少一个实施例中，推理和/或训练逻辑2815可以包括但不限于：代码和/或数据存储2805，用于存储与在一个或更多个实施例的各方面中被训练和/或用于推理的神经网络的神经元或层相对应的反向和/或输出权重和/或输入/输出数据。在至少一个实施例中，代码和/或数据存储2805存储神经网络的每一层的权重参数和/或输入/输出数据，该神经网络在使用一个或更多个实施例的各方面的训练和/或推理期间的输入/输出数据和/或权重参数的反后传播期间与一个或更多个实施例结合训练或使用。在至少一个实施例中，训练逻辑2815可以包括或被耦合到代码和/或数据存储2805，以存储图代码或其他软件来控制定时和/或顺序，其中将加载权重和/或其他参数信息以配置逻辑，包括整数和/或浮点单元(统称为算术逻辑单元(ALU))。

在至少一个实施例中，代码(诸如图代码)使基于这样的代码所对应的神经网络的架构将权重或其他参数信息加载到处理器ALU中。在至少一个实施例中，代码和/或数据存储2805的任何部分可与其他片上或片外数据存储包括在一起，包括处理器的L1、L2或L3高速缓存或系统存储器。在至少一个实施例中，代码和/或数据存储2805的任何部分可以在一个或更多个处理器或其他硬件逻辑设备或电路的内部或外部。在至少一个实施例中，代码和/或数据存储2805可以是高速缓存存储器、DRAM、SRAM、非易失性存储器(例如，闪存)或其他存储装置。在至少一个实施例中，对代码和/或数据存储2805是在处理器内部还是外部，例如，或包括DRAM、SRAM、闪存或一些其他存储类型的选择，可以取决于片上相对于片外的可用存储，正在执行的训练和/或推理功能的延时要求、在神经网络的推理和/或训练中使用的数据的批大小，或这些因素的一些组合。

在至少一个实施例中，代码和/或数据存储2801和代码和/或数据存储2805可为单独的存储结构。在至少一个实施例中，代码和/或数据存储2801和代码和/或数据存储2805可以是组合的存储结构。在至少一个实施例中，代码和/或数据存储2801和代码和/或数据存储2805可部分组合且部分分离。在至少一个实施例中，代码和/或数据存储2801和代码和/或数据存储2805的任何部分可与其他片上或片外数据存储(包括处理器的L1、L2或L3高速缓存或系统存储器)包括在一起。

在至少一个实施例中，推理和/或训练逻辑2815可以包括但不限于，一个或更多个算术逻辑单元(“ALU”)2810，包括整数和/或浮点单元，用于至少部分地基于训练和/或推理代码(例如，图形代码)或由训练和/或推理代码(例如，图形代码)指示来执行逻辑和/或数学运算，其结果可以产生存储在激活存储2820中的激活(例如，来自神经网络内的层或神经元的输出值)，所述激活存储是存储在代码和/或数据存储2801和/或代码和/或数据存储2805中的输入/输出和/或权重参数数据的函数。在至少一个实施例中，根据响应于执行指令或其他代码、由ALU 2810执行的线性代数和/或基于矩阵的数学来生成存储在激活存储2820中的激活，其中存储在代码和/或数据存储2805和/或数据存储2801中的权重值与其他值(诸如偏置值、梯度信息、动量值或其他参数或超参数)一起被用作操作数，该其他值中的任何或全部值可被存储在代码和/或数据存储2805或代码和/或数据存储2801或芯片上或芯片外的另一存储中。

在至少一个实施例中，一个或更多个ALU 2810被包括在一个或更多个处理器或其他硬件逻辑器件或电路内，而在另一个实施例中，一个或更多个ALU 2810可以在处理器或使用它们的其他硬件逻辑器件或电路(例如，协处理器)的外部。在至少一个实施例中，ALU2810可以被包括在处理器的执行单元内或者以其他方式在可由处理器的执行单元可访问的ALU库内，所述处理器的执行单元在同一处理器内或分布在不同类型的不同处理器(例如，中央处理单元、图形处理单元、固定功能单元等)之间。在至少一个实施例中，代码和/或数据存储2801、代码和/或数据存储2805、以及激活存储2820可以共享处理器或其他硬件逻辑器件或电路，而在另一个实施例中，它们可以在不同的处理器或其他硬件逻辑器件或电路中，或在相同和不同处理器或其他硬件逻辑器件或电路的某种组合中。在至少一个实施例中，激活存储2820的任何部分可以与其他片上或片外数据存储包括在一起，所述其他片上或片外数据存储包括处理器的L1、L2或L3高速缓存或系统存储器。此外，推理和/或训练代码可与处理器或其他硬件逻辑或电路可访问并使用处理器的获取、解码、调度、执行、引退(retirement)和/或其他逻辑电路来获取和/或处理的其他代码一起存储。

在至少一个实施例中，激活存储2820可以是高速缓存存储器、DRAM、SRAM、非易失性存储器(例如，闪存)或其他存储装置。在至少一个实施例中，激活存储2820可以完全或部分地在一个或更多个处理器或其他逻辑电路之内或外部。在至少一个实施例中，对激活存储2820是在处理器内部还是外部，例如，或包括DRAM、SRAM、闪存或一些其他存储类型的选择，可以取决于片上相对于片外的可用存储，正在执行的训练和/或推理功能的延时要求、在神经网络的推理和/或训练中使用的数据的批大小，或这些因素的一些组合。

在至少一个实施例中，图28A中所示出的推理和/或训练逻辑2815可以与专用集成电路(“ASIC”)结合使用，诸如来自谷歌的处理单元、来自Graphcore^TM的推理处理单元(IPU)、或来自英特尔公司的/>(例如，“Lake Crest”)处理器。在至少一个实施例中，图28A中所示出的推理和/或训练逻辑2815可以结合中央处理单元(“CPU”)硬件、图形处理单元(“GPU”)硬件或其他硬件(如现场可编程门阵列(“FPGA”))使用。

在至少一个实施例中，关于图28A所示或描述的至少一个组件用于执行结合图1-15描述的技术和/或功能。在至少一个实施例中，关于图28A所示或描述的至少一个组件用于使第一应用程序编程接口(API)选择第二API，以执行由第一API识别的一个或更多个软件工作负载。在至少一个实施例中，关于图28A所示或描述的至少一个组件用于执行第一应用程序编程接口(API)以选择第二API，以监控由第一API识别的一个或更多个软件工作负载的执行。在至少一个实施例中，关于图28A所示或描述的至少一个组件用于执行第一应用程序编程接口(API)以选择第二API，以终止由第一API识别的一个或更多个软件工作负载的执行。在至少一个实施例中，关于图28A所示或描述的至少一个组件用于执行关于框图100、框图200、过程300、框图400、过程500、过程600、过程700、框图800、框图900、框图1000、框图1100、过程1200、框图1300、框图1400、框图1500和/或本文所描述的其他系统、方法或操作描述的至少一个方面。

图28B示出了根据至少一个实施例的推理和/或训练逻辑2815。在至少一个实施例中，推理和/或训练逻辑2815可包括但不限于其中计算资源是专用的或以其他方式结合与神经网络内的一个或更多个神经元层相对应的权重值或其他信息排他地使用的硬件逻辑。在至少一个实施例中，图28B中所示出的推理和/或训练逻辑2815可以结合专用集成电路(ASIC)(如来自谷歌的处理单元、来自Graphcore^TM的推理处理单元(IPU)、或来自英特尔公司的/>(例如，“Lake Crest”)处理器来使用。在至少一个实施例中，图28B中示出的推理和/或训练逻辑2815可结合中央处理单元(CPU)硬件、图形处理单元(GPU)硬件或其他硬件(诸如现场可编程门阵列(FPGA))使用。在至少一个实施例中，推理和/或训练逻辑2815包括但不限于代码和/或数据存储2801以及代码和/或数据存储2805，其可以用于存储代码(例如，图代码)、权重值和/或其他信息，包括偏置值、梯度信息、动量值和/或其他参数或超参数信息。在图28B中所说明的至少一个实施例中，代码和/或数据存储2801和代码和/或数据存储2805中的每一者分别与专用计算资源(例如，计算硬件2802和计算硬件2806)相关联。在至少一个实施例中，计算硬件2802和计算硬件2806中的每一个分组括一个或更多个ALU，该一个或更多个ALU仅分别对存储在代码和/或数据存储2801和代码和/或数据存储2805中的信息执行数学函数(诸如线性代数函数)，其结果被存储在激活存储2820中。

在至少一个实施例中，每个代码和/或数据存储2801和2805以及相应的计算硬件2802和2806，分别对应于神经网络的不同层，使得来自代码和/或数据存储2801和计算硬件2802中的一个存储/计算对2801/2802的结果激活作为输入被提供给代码和/或数据存储2805和计算硬件2806中的下一个存储/计算对2805/2806，以便镜像神经网络的概念组织。在至少一个实施例中，存储/计算对2801/2802和2805/2806中的每一个可对应于多于一个神经网络层。在至少一个实施例中，在存储/计算对2801/2802和2805/2806之后或与存储/计算对2801/2802和2805/2806并行的附加存储/计算对(未示出)可被包括在推理和/或训练逻辑2815中。

在至少一个实施例中，关于图28B所示或描述的至少一个组件用于执行结合图1-15描述的技术和/或功能。在至少一个实施例中，关于图28B所示或描述的至少一个组件用于使第一应用程序编程接口(API)选择第二API，以执行由第一API识别的一个或更多个软件工作负载。在至少一个实施例中，关于图28B所示或描述的至少一个组件用于执行第一应用程序编程接口(API)以选择第二API，以监控由第一API识别的一个或更多个软件工作负载的执行。在至少一个实施例中，关于图28B所示或描述的至少一个组件用于执行第一应用程序编程接口(API)以选择第二API，以终止由第一API识别的一个或更多个软件工作负载的执行。在至少一个实施例中，关于图28B所示或描述的至少一个组件用于执行关于框图100、框图200、过程300、框图400、过程500、过程600、过程700、框图800、框图900、框图1000、框图1100、过程1200、框图1300、框图1400、框图1500和/或本文所描述的其他系统、方法或操作描述的至少一个方面。

图29示出根据至少一个实施例的深度神经网络的训练和部署。在至少一个实施例中，使用训练数据集2902来训练未经训练的神经网络2906。在至少一个实施例中，训练框架2904是PyTorch框架，而在其他实施例中，训练框架2904是TensorFlow、Boost、Caffe、Microsoft Cognitive Toolkit/CNTK、MXNet、Chainer、Keras、Deeplearning4j或其他训练框架。在至少一个实施例中，训练框架2904对未经训练的神经网络2906进行训练，并使其能够使用本文中所描述的处理资源来训练以生成经训练的神经网络2908。在至少一个实施例中，权重可以随机选择或通过使用深度信念网络进行预训练来选择。在至少一个实施例中，训练可以以监督、部分监督或无监督的方式来执行。

在至少一个实施例中，使用监督学习来训练未经训练的神经网络2906，其中训练数据集2902包括与用于输入的期望输出配对的输入，或者其中训练数据集2902包括具有已知输出的输入，并且未经训练的神经网络2906的输出被手动地分级。在至少一个实施例中，以监督方式来训练未经训练的神经网络2906，并且处理来自训练数据集2902的输入，并将结果输出与预期或期望输出的集合进行比较。在至少一个实施例中，然后误差被反向传播通过未经训练的神经网络2906。在至少一个实施例中，训练框架2904调整控制未经训练的神经网络2906的权重。在至少一个实施例中，训练框架2904包括用于监控未经训练的神经网络2906朝向模型(诸如经训练的神经网络2908)收敛多好的工具，该模型适于基于输入数据(诸如新数据集2912)来生成正确答案(诸如结果2914)。在至少一个实施例中，训练框架2904重复地训练未经训练的神经网络2906，同时使用损失函数和调整算法(诸如随机梯度下降)来调整权重以精炼未经训练的神经网络2906的输出。在至少一个实施例中，训练框架2904训练未经训练的神经网络2906，直到未经训练的神经网络2906实现所期望的准确度。在至少一个实施例中，经训练的神经网络2908然后可被部署以实现任何数量的机器学习操作。

在至少一个实施例中，使用无监督学习来训练未经训练的神经网络2906，其中未经训练的神经网络2906尝试使用未标记的数据来训练其自身。在至少一个实施例中，无监督学习训练数据集2902将包括输入数据而没有任何相关联的输出数据或“地面真值”数据。在至少一个实施例中，未经训练的神经网络2906可以学习训练数据集2902内的分组，并且可以确定各个输入如何与未经训练的数据集(例如，新数据集2912)相关。在至少一个实施例中，无监督训练可被用于在经训练的神经网络2908中生成能够执行在减少新数据集2912的维度中有用的操作的自组织映射。在至少一个实施例中，无监督训练还可用于执行异常检测，其允许识别新数据集2912中偏离新数据集2912的正常模式的数据点。

在至少一个实施例中，可以使用半监督学习，半监督学习是其中在训练数据集2902中包括标记数据和未标记数据的混合的技术。在至少一个实施例中，训练框架2904可被用于执行增量学习，诸如通过转移学习技术。在至少一个实施例中，增量学习使得经训练的神经网络2908能够适应新的数据集2912，而不会忘记在初始训练期间注入在经训练的神经网络2908内的知识。

在至少一个实施例中，关于图29所示或描述的至少一个组件用于执行结合图1-15描述的技术和/或功能。在至少一个实施例中，关于图29所示或描述的至少一个组件用于使第一应用程序编程接口(API)选择第二API，以执行由第一API识别的一个或更多个软件工作负载。在至少一个实施例中，关于图29所示或描述的至少一个组件用于执行第一应用程序编程接口(API)以选择第二API，以监控由第一API识别的一个或更多个软件工作负载的执行。在至少一个实施例中，关于图29所示或描述的至少一个组件用于执行第一应用程序编程接口(API)以选择第二API，以终止由第一API识别的一个或更多个软件工作负载的执行。在至少一个实施例中，关于图29所示或描述的至少一个组件用于执行关于框图100、框图200、过程300、框图400、过程500、过程600、过程700、框图800、框图900、框图1000、框图1100、过程1200、框图1300、框图1400、框图1500和/或本文所描述的其他系统、方法或操作描述的至少一个方面。

5G网络

以下附图阐述了但不限于可以用于实现至少一个实施例的示例性基于5G网络的系统。

图30示出了根据至少一个实施例的网络的系统3000的架构。在至少一个实施例中，系统3000被示为包括用户设备(UE)3002和UE 3004。在至少一个实施例中，UE 3002和3004被示为智能电话(例如，可连接到一个或更多个蜂窝网络的手持触摸屏移动计算设备)，但还可包括任何移动或非移动计算设备，诸如个人数字助理(PDA)、寻呼机、膝上型计算机、台式计算机、无线手持设备或包括无线通信接口的任何计算设备。

在至少一个实施例中，UE 3002和UE 3004中的任何一个可包括物联网(IoT)UE，该IoT UE可包括为利用短暂UE连接的低功率IoT应用设计的网络接入层。在至少一个实施例中，IoT UE可利用诸如用于经由公共陆地移动网络(PLMN)、基于邻近的服务(ProSe)或设备到设备(D2D)通信、传感器网络或IoT网络与MTC服务器或设备交换数据的技术，诸如机器对机器(M2M)或机器类型通信(MTC)。在至少一个实施例中，M2M或MTC数据交换可以是机器发起的数据交换。在至少一个实施例中，IoT网络描述互连IoT UE，该IoT UE可包括具有短寿命连接的可唯一标识的嵌入式计算设备(在互联网基础结构内)。在至少一个实施例中，IoTUE可执行后台应用(例如，保活消息、状态更新等)以促进IoT网络的连接。

在至少一个实施例中，UE 3002和UE 3004可以被配置为与无线电接入网(RAN)3016连接(例如，通信地耦合)。在至少一个实施例中，RAN 3016可以是例如演进的通用移动电信系统(UMTS)陆地无线电接入网络(E-UTRAN)、NextGen RAN(NG RAN)或一些其他类型的RAN。在至少一个实施例中，UE 3002和UE 3004分别利用连接3012和连接3014，每个连接包括物理通信接口或层。在至少一个实施例中，连接3012和3014被示为空中接口，用于实现通信耦合，并且可以与蜂窝通信协议一致，诸如全球移动通信系统(GSM)协议，码分多址(CDMA)网络协议、即按即讲(PTT)协议、蜂窝PTT(POC)协议、通用移动电信系统(UMTS)协议、3GPP长期演进(LTE)协议、第五代(5G)协议、新无线电(NR)协议及其变型。

在至少一个实施例中，UE 3002和3004还可经由ProSe接口3006直接交换通信数据。在至少一个实施例中，ProSe接口3006可替代地被称为边链路接口，其包括一个或更多个逻辑信道，包括但不限于物理边链路控制信道(PSCCH)、物理边链路共享信道(PSSCH)、物理边链路发现信道(PSDCH)和物理边链路广播信道(PSBCH)。

在至少一个实施例中，UE 3004被示为配置成经由连接3008接入接入点(AP)3010。在至少一个实施例中，连接3008可以包括本地无线连接，诸如与任何IEEE 802.11协议一致的连接，其中AP 3010将包括无线保真路由器。在至少一个实施例中，AP 3010被示为连接到互联网而不连接到无线系统的核心网。

在至少一个实施例中，RAN 3016可包括启用连接3012和3014的一个或更多个接入节点。在至少一个实施例中，这些接入节点(AN)可被称为基站(BS)、NodeB、演进型NodeB(eNB)、下一代NodeB(gNB)、RAN节点等，并且可包括地面站(例如，地面接入点)或提供地理区域(例如，小区)内的覆盖的卫星站。在至少一个实施例中，RAN 3016可包括用于提供宏蜂窝小区的一个或更多个RAN节点(例如，宏RAN节点3018)和用于提供毫微微蜂窝小区或微微蜂窝小区(例如，与宏蜂窝小区相比具有较小覆盖区域、较小用户容量、或较高带宽的蜂窝小区)的一个或更多个RAN节点(例如，低功率(LP)RAN节点3020)。

在至少一个实施例中，RAN节点3018和3020中的任一个可终止空中接口协议并且可以为UE 3002和3004的第一联系点。在至少一个实施例中，RAN节点3018和3020中的任一个可实现RAN 3016的各种逻辑功能，包括但不限于无线电网络控制器(RNC)功能，诸如无线电承载管理、上行链路和下行链路动态无线电资源管理和数据分组调度和移动性管理。

在至少一个实施例中，UE 3002和UE 3004可被配置为使用正交频分复用(OFDM)通信信号根据各种通信技术通过多载波通信信道彼此通信或者与RAN节点3018和RAN节点3020中的任一个通信，通信技术诸如但不限于正交频分多址(OFDMA)通信技术(例如，用于下行链路通信)或单载波频分多址(SC-FDMA)通信技术(例如，用于上行链路和ProSe或边链路通信)，和/或其变体。在至少一个实施例中，OFDM信号可包括多个正交子载波。

在至少一个实施例中，下行链路资源网格可以用于从RAN节点3018和3020中的任一个到UE 3002和3004的下行链路传输，而上行链路传输可以利用类似的技术。在至少一个实施例中，网格可以是称为资源网格或时频资源网格的时频网格，其是每个时隙中下行链路中的物理资源。在至少一个实施例中，这种时频平面表示是OFDM系统的常见实践，这使得其对于无线电资源分配来说是直观的。在至少一个实施例中，资源网格的每列和每行分别对应于一个OFDM符号和一个OFDM子载波。在至少一个实施例中，时域中的资源网格的持续时间对应于无线电帧中的一个时隙。在至少一个实施例中，资源网格中的最小时间-频率单元被表示为资源元素。在至少一个实施例中，每个资源网格包括多个资源块，其描述某些物理信道到资源元素的映射。在至少一个实施例中，每个资源块包括资源元素的集合。在至少一个实施例中，在频域中，这可以表示当前可以被分配的最小数量的资源。在至少一个实施例中，存在使用这样的资源块传送的若干不同的物理下行链路信道。

在至少一个实施例中，物理下行链路共享信道(PDSCH)可以运载用户数据和更高层信令给UE 3002和3004。在至少一个实施例中，物理下行链路控制信道(PDCCH)可运载关于与PDSCH信道相关的传输格式和资源分配的信息等。在至少一个实施例中，其还可以向UE3002和3004通知与上行链路共享信道有关的传输格式、资源分配和HARQ(混合自动重传请求)信息。在至少一个实施例中，通常，下行链路调度(将控制和共享信道资源块分配给小区内的UE 3002)可以在RAN节点3018和3020中的任一个处基于从UE 3002和3004中的任一个反馈的信道质量信息来执行。在至少一个实施例中，下行链路资源分配信息可以在用于(例如分配给)UE 3002和3004中的每一个的PDCCH上发送。

在至少一个实施例中，PDCCH可以使用控制信道元素(CCE)来传送控制信息。在至少一个实施例中，在被映射到资源元素之前，PDCCH复值符号可以首先被组织成四元组，然后可以使用子块交织器对其进行置换以用于速率匹配。在至少一个实施例中，可以使用这些CCE中的一个或更多个来传送每个PDCCH，其中每个CCE可以对应于被称为资源元素组(REG)的四个物理资源元素的九个集合。在至少一个实施例中，四个正交相移键控(QPSK)符号可以被映射到每个REG。在至少一个实施例中，取决于下行链路控制信息(DCI)的大小和信道条件，可以使用一个或更多个CCE来发送PDCCH。在至少一个实施例中，可以有在LTE中定义的具有不同数目的CCE的四个或更多个不同的PDCCH格式(例如，聚合等级，L＝1、2、4或8)。

在至少一个实施例中，使用PDSCH资源的增强型物理下行链路控制信道(EPDCCH)可以用于控制信息传输。在至少一个实施例中，可以使用一个或更多个增强型控制信道元素(ECCE)来发送EPDCCH。在至少一个实施例中，每个ECCE可以对应于被称为增强型资源元素组(EREG)的四个物理资源元素的九个集合。在至少一个实施例中，ECCE在一些情况下可以具有其他数目的EREG。

在至少一个实施例中，RAN 3016被示为经由S1接口3022通信地耦合至核心网(CN)3038。在至少一个实施例中，CN 3038可以是演进的分组核心(EPC)网络、NextGen分组核心(NPC)网络或一些其他类型的CN。在至少一个实施例中，S1接口3022被分成两部分：S1-U接口3026，其运载RAN节点3018和3020与服务网关(S-GW)3030之间的业务数据；以及S1-移动性管理实体(MME)接口3024，其为RAN节点3018和3020与MME 3028之间的信令接口。

在至少一个实施例中，CN 3038包括MME 3028、S-GW 3030、分组数据网络(PDN)网关(P-GW)3034和归属订户服务器(HSS)3032。在至少一个实施例中，MME 3028可以在功能上类似于传统服务通用分组无线电服务(GPRS)支持节点(SGSN)的控制平面。在至少一个实施例中，MME 3028可以管理接入中的移动性方面，例如网关选择和跟踪区域列表管理。在至少一个实施例中，HSS 3032可以包括用于网络用户的数据库，该数据库包括用于支持网络实体处理通信会话的订阅相关信息。在至少一个实施例中，CN 3038可以包括一个或更多个HSS 3032，这取决于移动用户的数量、设备的容量、网络的组织等。在至少一个实施例中，HSS 3032可以提供对路由/漫游、认证、授权、命名/寻址解析、位置依赖性等的支持。

在至少一个实施例中，S-GW 3030可以终止朝向RAN 3016的S1接口3022，并且在RAN 3016和CN 3038之间路由数据分组。在至少一个实施例中，S-GW 3030可以是用于RAN间节点切换的本地移动性锚点，并且还可以提供用于3GPP间移动性的锚点。在至少一个实施例中，其他责任可以包括合法拦截、收费和一些策略强制执行。

在至少一个实施例中，P-GW 3034可以终止朝向PDN的SGi接口。在至少一个实施例中，P-GW 3034可以经由互联网协议(IP)接口3042在EPC网络(例如，CN 3038)和外部网络(诸如包括应用服务器3040(或者称为应用功能(AF))的网络)之间路由数据分组。在至少一个实施例中，应用服务器3040可以是采用核心网络(例如，UMTS分组服务(PS)域、LTE PS数据服务等)提供使用IP承载资源的应用的元件。在至少一个实施例中，P-GW 3034被示出为经由互联网协议(IP)接口3042通信地耦合到应用服务器3040。在至少一个实施例中，应用服务器3040还可被配置为经由CN 3038支持UE 3002和3004的一个或更多个通信服务(例如，互联网协议语音(VoIP)会话、PTT会话、群组通信会话、社交网络服务等)。

在至少一个实施例中，P-GW 3034还可以是用于策略实施和收费数据收集的节点。在至少一个实施例中，策略和计费执行功能(PCRF)3036是CN 3038的策略和计费控制元件。在至少一个实施例中，在非漫游场景中，在与UE的互联网协议连接性接入网络(IP-CAN)会话相关联的归属公共陆地移动网络(HPLMN)中可以存在单个PCRF。在至少一个实施例中，在具有本地流量突破的漫游场景中，可存在与UE的IP-CAN会话相关联的两个PCRF：HPLMN内的归属PCRF(H-PCRF)和受访公共陆地移动网络(VPLMN)内的受访PCRF(V-PCRF)。在至少一个实施例中，PCRF 3036可以经由P-GW 3034通信地耦合到应用服务器3040。在至少一个实施例中，应用服务器3040可以向PCRF 3036发信号，以指示新的服务流，并选择适当的服务质量(QoS)和计费参数。在至少一个实施例中，PCRF 3036可以将这个规则供应到具有适当的业务流模板(TFT)和标识符的QoS类(QCI)的策略和计费执行功能(PCEF)(未示出)，所述PCEF开始由应用服务器3040指定的QoS和计费。

在至少一个实施例中，关于图30所示或描述的至少一个组件用于执行结合图1-15描述的技术和/或功能。在至少一个实施例中，关于图30所示或描述的至少一个组件用于使第一应用程序编程接口(API)选择第二API，以执行由第一API识别的一个或更多个软件工作负载。在至少一个实施例中，关于图30所示或描述的至少一个组件用于执行第一应用程序编程接口(API)以选择第二API，以监控由第一API识别的一个或更多个软件工作负载的执行。在至少一个实施例中，关于图30所示或描述的至少一个组件用于执行第一应用程序编程接口(API)以选择第二API，以终止由第一API识别的一个或更多个软件工作负载的执行。在至少一个实施例中，关于图30所示或描述的至少一个组件用于执行关于框图100、框图200、过程300、框图400、过程500、过程600、过程700、框图800、框图900、框图1000、框图1100、过程1200、框图1300、框图1400、框图1500和/或本文所描述的其他系统、方法或操作描述的至少一个方面。

图31示出了根据一些实施例的网络的系统3100的架构。在至少一个实施例中，系统3100被示为包括UE 3102、5G接入节点或RAN节点(被示为(R)AN节点3108)，用户平面功能(被示出为UPF 3104)，数据网络(DN 3106)，例如，其可以是运营商服务、互联网接入或第三方服务、以及5G核心网络(5GC)(示为CN 3110)。

在至少一个实施例中，CN 3110包括认证服务器功能(AUSF 3114)；核心接入和移动性管理功能(AMF 3112)；会话管理功能(SMF 3118)；网络暴露功能(NEF 3116)；策略控制功能(PCF 3122)；网络功能(NF)储存库功能(NRF 3120)；统一数据管理(UDM 3124)；以及应用功能(AF 3126)。在至少一个实施例中，CN 3110还可包括未示出的其他元件，诸如结构化数据存储网络功能(SDSF)、非结构化数据存储网络功能(UDSF)及其变型。

在至少一个实施例中，UPF 3104可充当RAT内和RAT间移动性的锚点、互连到DN3106的外部PDU会话点、和支持多归属PDU会话的分支点。在至少一个实施例中，UPF 3104还可以执行分组路由和转发、分组检查、实施策略规则的用户平面部分、合法拦截分组(UP收集)；业务使用报告、为用户平面执行QoS处理(例如分组过滤、门控、UL/DL速率执行)、执行上行链路业务验证(例如，SDF到QoS流映射)、上行链路和下行链路中的传输级分组标记、以及下行链路分组缓存和下行链路数据通知触发。在至少一个实施例中，UPF 3104可包括上行链路分类器，用于支持将业务流路由到数据网络。在至少一个实施例中，DN 3106可表示各种网络运营商服务、互联网接入或第三方服务。

在至少一个实施例中，AUSF 3114可以存储用于UE 3102的认证的数据，并且处理与认证相关的功能。在至少一个实施例中，AUSF 3114可以促进用于各种接入类型的公共认证框架。

在至少一个实施例中，AMF 3112可以负责注册管理(例如，用于注册UE 3102等)、连接管理、可达性管理、移动性管理、和AMF相关事件的合法拦截、以及接入认证和授权。在至少一个实施例中，AMF 3112可以为SMF 3118提供SM消息的传输，并且充当用于路由SM消息的透明代理。在至少一个实施例中，AMF 3112还可以提供UE 3102与SMS功能(SMSF)(图31未示出)之间的短消息服务(SMS)消息的传输。在至少一个实施例中，AMF 3112可以充当安全锚定功能(SEA)，其可以包括与AUSF 3114和UE 3102的交互以及接收作为UE 3102认证过程的结果而建立的中间密钥。在至少一个实施例中，在使用基于USIM的认证的情况下，AMF3112可以从AUSF 3114检索安全材料。在至少一个实施例中，AMF 3112还可以包括安全上下文管理(SCM)功能，其从SEA接收它用来导出接入网络专用密钥的密钥。此外，在至少一个实施例中，AMF 3112可以是RAN CP接口的终止点(N2参考点)、NAS(NI)信令的终止点，并且执行NAS加密和完整性保护。

在至少一个实施例中，AMF 3112还可以支持通过N3互通功能(IWF)接口与UE 3102的NAS信令。在至少一个实施例中，N3IWF可以用于提供对不受信实体的访问。在至少一个实施例中，N3IWF可以分别是控制平面和用户平面的N2和N3接口的终止点，因此，可针对PDU会话和QoS处理来自SMF和AMF的N2信令，对IPSec和N3隧道的分组进行封装/解封装，在上行链路中标记N3用户平面分组，并且考虑到与通过N2接收的这种标记相关联的QoS要求，实施对应于N3分组标记的QoS。在至少一个实施例中，N3IWF还可以在UE 3102和AMF 3112之间中继上行链路和下行链路控制平面NAS(NI)信令，并且在UE 3102和UPF 3104之间中继上行链路和下行链路用户平面分组。在至少一个实施例中，N3IWF还提供用于与UE 3102的IPsec隧道建立的机制。

在至少一个实施例中，SMF 3118可负责会话管理(例如，会话建立、修改和释放，包括UPF和AN节点之间的隧道保持)；UE IP地址分配和管理(包括可选的授权)；UP功能的选择和控制；在UPF处配置流量转向以将流量路由到合适的目的地；朝向策略控制功能的接口终止；策略强制执行和QoS的控制部分；合法拦截(用于SM事件和到LI系统的接口)；NAS消息的SM部分的终止；下行链路数据通知；AN特定SM信息的发起者，其经由AMF在N2上发送到AN；确定会话的SSC模式。在至少一个实施例中，SMF 3118可包括以下漫游功能：处理本地实施以应用QoS SLAB(VPLMN)；收费数据收集和收费接口(VPLMN)；合法拦截(在VPLMN中用于SM事件并且接口到LI系统)；支持与外部DN交互以传输用于由外部DN进行的PDU会话授权/认证的信令。

在至少一个实施例中，NEF 3116可以提供用于安全地暴露由3GPP网络功能为第三方提供的服务和能力、内部暴露/重新暴露、应用功能(例如，AF 3126)、边缘计算或雾计算系统等的装置。在至少一个实施例中，NEF 3116可认证、授权和/或节流AF。在至少一个实施例中，NEF 3116还可以转换与AF 3126交换的信息和与内部网络功能交换的信息。在至少一个实施例中，NEF 3116可以在AF服务标识符和内部5GC信息之间转换。在至少一个实施例中，NEF 3116还可以基于其他网络功能的暴露的能力从其他网络功能(NF)接收信息。在至少一个实施例中，该信息可作为结构化数据存储在NEF 3116处，或使用标准化接口存储在数据存储NF处。在至少一个实施例中，所存储的信息然后可由NEF 3116重新暴露给其他NF和AF，和/或用于其他目的，诸如分析。

在至少一个实施例中，NRF 3120可以支持服务发现功能，从NF实例接收NF发现请求，以及向NF实例提供所发现的NF实例的信息。在至少一个实施例中，NRF 3120还维护可用NF实例及其支持的服务的信息。

在至少一个实施例中，PCF 3122可向控制平面功能提供策略规则以实施它们，并且还可支持统一策略框架以管理网络行为。在至少一个实施例中，PCF 3122还可实现前端(FE)，用于访问UDM 3124的UDR中与策略决策相关的订阅信息。

在至少一个实施例中，UDM 3124可处理订阅相关信息以支持网络实体处理通信会话，并且可存储UE 3102的订阅数据。在至少一个实施例中，UDM 3124可以包括两个部分，应用FE和用户数据存储库(UDR)。在至少一个实施例中，UDM可以包括UDM FE，该UDM FE负责处理凭证、位置管理、订阅管理等。在至少一个实施例中，若干不同前端可在不同交易中服务同一用户。在至少一个实施例中，UDM-FE访问UDR中存储的子订阅信息，并执行认证凭证处理；用户标识处理；接入授权；注册/移动性管理；以及订阅管理。在至少一个实施例中，UDR可与PCF 3122交互。在至少一个实施例中，UDM 3124还可支持SMS管理，其中SMS-FE实现如前所述的类似应用逻辑。

在至少一个实施例中，AF 3126可以提供对业务路由的应用影响、对网络能力暴露(NCE)的接入，以及与策略框架的交互以用于策略控制。在至少一个实施例中，NCE可以是允许5GC和AF 3126经由NEF 3116向彼此提供信息的机制，NEF 3116可以用于边缘计算实现。在至少一个实施例中，网络运营商和第三方服务可被托管在UE 3102的附接接入点附近，以通过减少的端到端延时和传输网络上的负载来实现高效的服务递送。在至少一个实施例中，对于边缘计算实现，5GC可选择靠近UE 3102的UPF 3104，并经由N6接口执行从UPF 3104到DN 3106的业务引导。在至少一个实施例中，这可以基于由AF 3126提供的UE订阅数据、UE位置和信息。在至少一个实施例中，AF 3126可以影响UPF(重新)选择和业务路由。在至少一个实施例中，基于运营商部署，当AF 3126被认为是受信实体时，网络运营商可以允许AF3126直接与相关NF交互。

在至少一个实施例中，CN 3110可以包括SMSF，其可以负责SMS订阅检查和验证，并且中继去往/来自UE 3102的SM消息到/来自其他实体，例如SMS-GMSC/IWMSC/SMS路由器。在至少一个实施例中，SMS还可以与AMF 3112和UDM 3124交互，以用于UE 3102可用于SMS传送的通知过程(例如，设置UE不可达标志，并且当UE 3102可用于SMS时通知UDM 3124)。

在至少一个实施例中，系统3100可以包括以下基于服务的接口：Namf：AMF展现的基于服务的接口；Nsmf：SMF展现的基于服务的接口；Nnef：NEF展现的基于服务的接口；Npcf：PCF展现的基于服务的接口；Nudm：UDM展现的基于服务的接口；Naf：AF展现的基于服务的接口；Nnrf：NRF展现的基于服务的接口；以及Nausf：AUSF展现的基于服务的接口。

在至少一个实施例中，系统3100可以包括以下参考点：N1：UE和AMF之间的参考点；N2：(R)AN和AMF之间的参考点；N3：(R)AN和UPF之间的参考点；N4：SMF和UPF之间的参考点；以及N6：UPF和数据网络之间的参考点。在至少一个实施例中，NF中的NF服务之间可能存在更多的参考点和/或基于服务的接口，然而，为清楚起见，这些接口和参考点已经被省略。在至少一个实施例中，NS参考点可以在PCF与AF之间；N7参考点可以在PCF与SMF之间；N11参考点在AMF与SMF之间等等。在至少一个实施例中，CN 3110可以包括Nx接口，Nx接口是MME和AMF 3112之间的CN间接口，以便实现CN 3110和CN 3110之间的互通。

在至少一个实施例中，系统3100可包括多个RAN节点(诸如(R)AN节点3108)，其中在连接到5GC 410的两个或更多个(R)AN节点3108(例如，gNB)之间，在连接到CN 3110的(R)AN节点3108(例如gNB)和eNB(例如宏RAN节点)之间，和/或在连接到CN 3110的两个eNB之间定义Xn接口。

在至少一个实施例中，Xn接口可以包括Xn用户平面(Xn-U)接口和Xn控制平面(Xn-C)接口。在至少一个实施例中，Xn-U可以提供用户平面PDU的无保证的递送，并且支持/提供数据转发和流控制功能。在至少一个实施例中，Xn-C可提供管理和错误处理功能、管理Xn-C接口的功能；对处于连接模式(例如，CM-CONNECTED)的UE 3102的移动性支持，其包括管理针对一个或更多个(R)AN节点3108之间的连接模式的UE移动性的功能。在至少一个实施例中，移动性支持可包括从旧(源)服务(R)AN节点3108到新(目标)服务(R)AN节点3108的上下文传送；以及控制旧(源)服务(R)AN节点3108至新(目标)服务(R)AN节点3108之间的用户平面隧道。

在至少一个实施例中，Xn-U的协议栈可以包括在互联网协议(IP)传输层上构建的传输网络层和在UDP和/或一个或更多个IP层的顶部上用于承载用户平面PDU的GTP-U层。在至少一个实施例中，Xn-C协议栈可以包括应用层信令协议(称为Xn应用协议(Xn-AP))和建立在SCTP层上的传输网络层。在至少一个实施例中，SCTP层可以在IP层的顶部上。在至少一个实施例中，SCTP层提供应用层消息的有保证的递送。在至少一个实施例中，在传输IP层中，点对点传输被用于递送信令PDU。在至少一个实施例中，Xn-U协议栈和/或Xn-C协议栈可以与本文中示出和描述的用户平面和/或控制平面协议栈相同或相似。

在至少一个实施例中，关于图31所示或描述的至少一个组件用于执行结合图1-15描述的技术和/或功能。在至少一个实施例中，关于图31所示或描述的至少一个组件用于使第一应用程序编程接口(API)选择第二API，以执行由第一API识别的一个或更多个软件工作负载。在至少一个实施例中，关于图31所示或描述的至少一个组件用于执行第一应用程序编程接口(API)以选择第二API，以监控由第一API识别的一个或更多个软件工作负载的执行。在至少一个实施例中，关于图31所示或描述的至少一个组件用于执行第一应用程序编程接口(API)以选择第二API，以终止由第一API识别的一个或更多个软件工作负载的执行。在至少一个实施例中，关于图31所示或描述的至少一个组件用于执行关于框图100、框图200、过程300、框图400、过程500、过程600、过程700、框图800、框图900、框图1000、框图1100、过程1200、框图1300、框图1400、框图1500和/或本文所描述的其他系统、方法或操作描述的至少一个方面。

图32是根据一些实施例的控制平面协议栈的图示。在至少一个实施例中，控制平面3200被示为UE 3002(或可替代地，UE 3004)、RAN 3016和MME 3028之间的通信协议栈。

在至少一个实施例中，PHY层3202可以通过一个或更多个空中接口发送或接收由MAC层3204使用的信息。在至少一个实施例中，PHY层3202还可以执行链路自适应或自适应调制和编码(AMC)、功率控制、小区搜索(例如，用于初始同步和切换目的)和由较高层(例如，RRC层3210)使用的其他测量。在至少一个实施例中，PHY层3202还可以进一步对传输信道执行错误检测、传输信道的前向纠错(FEC)编码/解码、物理信道的调制/解调、交织、速率匹配、映射到物理信道、以及多输入多输出(MIMO)天线处理。

在至少一个实施例中，MAC层3204可执行逻辑信道和传输信道之间的映射，将来自一个或更多个逻辑信道的MAC服务数据单元(SDU)复用到要经由传输信道递送到PHY的传输块(TB)上，将MAC SDU从经由传输信道从PHY递送的传输块(TB)解复用到一个或更多个逻辑信道，将MAC SDU复用到TB上、调度信息报告、通过混合自动重传请求(HARD)的纠错，以及逻辑信道优先化。

在至少一个实施例中，RLC层3206可在多种操作模式下操作，包括：透明模式(TM)、非确认模式(UM)和确认模式(AM)。在至少一个实施例中，RLC层3206可以执行上层协议数据单元(PDU)的传输、通过针对AM数据传输的自动重复请求(ARQ)的纠错、以及用于UM和AM数据传输的RLC SDU的级联、分段和重组。在至少一个实施例中，RLC层3206还可以执行用于AM数据传输的RLC数据PDU的重新分段，对用于UM和AM数据传输的RLC数据PDU进行重排序，检测用于UM和AM数据传输的重复数据，丢弃用于UM和AM数据传输的RLC SDU，检测AM数据传输的协议错误，以及执行RLC重建。

在至少一个实施例中，PDCP层3208可以执行IP数据的报头压缩和解压缩，维持PDCP序列号(SN)，在重建较低层时执行较高层PDU的序列内递送，在为映射在RLC AM上的无线电承载重建较低层时消除较低层SDU的复制，对控制平面数据进行加密和解密，对控制平面数据进行完整性保护和完整性验证，基于控制定时器的数据丢弃，以及执行安全操作(例如，加密、解密、完整性保护、完整性验证等)。

在至少一个实施例中，RRC层3210的主要服务和功能可包括系统信息的广播(例如，包括在与非接入层(NAS)相关的主信息块(MIB)或系统信息块(SIB)中)，与接入层(AS)有关的系统信息的广播、UE与E-UTRAN之间的RRC连接的寻呼、建立、维持和释放(例如，RRC连接寻呼、RRC连接建立、RRC连接修改和RRC连接释放)，点对点无线承载的建立、配置、维护和释放，包括密钥管理的安全功能，无线电接入技术(RAT)间移动性，以及用于UE测量报告的测量配置。在至少一个实施例中，所述MIB和SIB可包括一个或更多个信息元素(IE)，每个信息元素可包括单独的数据字段或数据结构。

在至少一个实施例中，UE 3002和RAN 3016可以利用Uu接口(例如，LTE-Uu接口)来经由包括PHY层3202、MAC层3204、RLC层3206、PDCP层3208和RRC层3210的协议栈交换控制平面数据。

在至少一个实施例中，非接入层(NAS)协议(NAS协议3212)形成UE 3002与MME3028之间的控制平面的最高层。在至少一个实施例中，NAS协议3212支持UE 3002的移动性和会话管理过程以建立和维持UE 3002与P-GW 3034之间的IP连接。

在至少一个实施例中，Si应用协议(Si-AP)层(Si-AP层3222)可以支持Si接口的功能并且包括基本过程(EP)。在至少一个实施例中，EP是RAN 3016和CN 3038之间的交互单元。在至少一个实施例中，S1-AP层服务可以包括两个组：UE关联服务和非UE关联服务。在至少一个实施例中，这些服务执行功能，包括但不限于：E-UTRAN无线电接入承载(E-RAB)管理、UE能力指示、移动性、NAS信令传输、RAN信息管理(RIM)和配置转移。

在至少一个实施例中，流控制传输协议(SCTP)层(可替代地称为流控制传输协议/互联网协议(SCTP/IP)层)(SCTP层3220)可以部分地基于IP层3218所支持的IP协议来确保RAN 3016与MME 3028之间的信令消息的可靠传递。在至少一个实施例中，L2层3216和L1层3214可以指由RAN节点和MME用来交换信息的通信链路(例如，有线或无线)。

在至少一个实施例中，RAN 3016和一个或更多个MME 3028可以利用S1-MME接口来经由包括L1层3214、L2层3216、IP层3218、SCTP层3220和Si-AP层3222的协议栈交换控制平面数据。

在至少一个实施例中，关于图32所示或描述的至少一个组件用于执行结合图1-15描述的技术和/或功能。在至少一个实施例中，关于图32所示或描述的至少一个组件用于使第一应用程序编程接口(API)选择第二API，以执行由第一API识别的一个或更多个软件工作负载。在至少一个实施例中，关于图32所示或描述的至少一个组件用于执行第一应用程序编程接口(API)以选择第二API，以监控由第一API识别的一个或更多个软件工作负载的执行。在至少一个实施例中，关于图32所示或描述的至少一个组件用于执行第一应用程序编程接口(API)以选择第二API，以终止由第一API识别的一个或更多个软件工作负载的执行。在至少一个实施例中，关于图32所示或描述的至少一个组件用于执行关于框图100、框图200、过程300、框图400、过程500、过程600、过程700、框图800、框图900、框图1000、框图1100、过程1200、框图1300、框图1400、框图1500和/或本文所描述的其他系统、方法或操作描述的至少一个方面。

图33是根据至少一个实施例的用户平面协议栈的图示。在至少一个实施例中，用户平面3300被示为UE 3002、RAN 3016、S-GW 3030和P-GW 3034之间的通信协议栈。在至少一个实施例中，用户平面3300可以利用与控制平面3200相同的协议层。在至少一个实施例中，例如，UE 3002和RAN 3016可以利用Uu接口(例如，LTE-Uu接口)来经由包括PHY层3202、MAC层3204、RLC层3206、PDCP层3208的协议栈来交换用户平面数据。

在至少一个实施例中，用于用户平面的通用分组无线电服务(GPRS)隧道协议(GTP-U)层(GTP-U层3304)可以用于在GPRS核心网络内和在无线电接入网络和核心网络之间运载用户数据。在至少一个实施例中，例如，所传输的用户数据可以是IPv4、IPv6或PPP格式中的任何格式的分组。在至少一个实施例中，UDP和IP安全(UDP/IP)层(UDP/IP层3302)可以提供数据完整性的校验和、用于在源和目的地寻址不同功能的端口号、以及对所选数据流的加密和认证。在至少一个实施例中，RAN 3016和S-GW 3030可以利用S1-U接口来经由包括L1层3214、L2层3216、UDP/IP层3302和GTP-U层3304的协议栈来交换用户平面数据。在至少一个实施例中，S-GW 3030和P-GW 3034可以利用S5/S8a接口来经由包括L1层3214、L2层3216、UDP/IP层3302和GTP-U层3304的协议栈交换用户平面数据。在至少一个实施例中，如以上关于图32所讨论的，NAS协议支持UE 3002的移动性和会话管理过程以建立和维持UE3002与P-GW 3034之间的IP连接。

在至少一个实施例中，关于图33所示或描述的至少一个组件用于执行结合图1-15描述的技术和/或功能。在至少一个实施例中，关于图33所示或描述的至少一个组件用于使第一应用程序编程接口(API)选择第二API，以执行由第一API识别的一个或更多个软件工作负载。在至少一个实施例中，关于图33所示或描述的至少一个组件用于执行第一应用程序编程接口(API)以选择第二API，以监控由第一API识别的一个或更多个软件工作负载的执行。在至少一个实施例中，关于图33所示或描述的至少一个组件用于执行第一应用程序编程接口(API)以选择第二API，以终止由第一API识别的一个或更多个软件工作负载的执行。在至少一个实施例中，关于图33所示或描述的至少一个组件用于执行关于框图100、框图200、过程300、框图400、过程500、过程600、过程700、框图800、框图900、框图1000、框图1100、过程1200、框图1300、框图1400、框图1500和/或本文所描述的其他系统、方法或操作描述的至少一个方面。

图34示出了根据至少一个实施例的核心网络的组件3400。在至少一个实施例中，CN 3038的组件可以在一个物理节点或单独的物理节点中实现，所述单独的物理节点包括用于从机器可读介质或计算机可读介质(例如，非暂态机器可读存储介质)读取和执行指令的组件。在至少一个实施例中，网络功能虚拟化(NFV)用于经由存储在一个或更多个计算机可读存储介质(以下进一步详细描述)中的可执行指令来虚拟化任何或所有的上述网络节点功能。在至少一个实施例中，CN 3038的逻辑实例化可以被称为网络切片3402(例如，网络切片3402被示出为包括HSS 3032、MME 3028和S-GW 3030)。在至少一个实施例中，CN 3038的一部分的逻辑实例化可以被称为网络子切片3404(例如，网络子切片3404被示出为包括P-GW 3034和PCRF 3036)。

在至少一个实施例中，NFV架构和基础设施可以用于将一个或更多个网络功能虚拟化到包括行业标准服务器硬件、存储硬件或交换机的组合的物理资源上，所述网络功能可替代地由专用硬件执行。在至少一个实施例中，NFV系统可用于执行一个或更多个EPC组件/功能的虚拟或可重新配置的实现方式。

在至少一个实施例中，关于图34所示或描述的至少一个组件用于执行结合图1-15描述的技术和/或功能。在至少一个实施例中，关于图34所示或描述的至少一个组件用于使第一应用程序编程接口(API)选择第二API，以执行由第一API识别的一个或更多个软件工作负载。在至少一个实施例中，关于图34所示或描述的至少一个组件用于执行第一应用程序编程接口(API)以选择第二API，以监控由第一API识别的一个或更多个软件工作负载的执行。在至少一个实施例中，关于图34所示或描述的至少一个组件用于执行第一应用程序编程接口(API)以选择第二API，以终止由第一API识别的一个或更多个软件工作负载的执行。在至少一个实施例中，关于图34所示或描述的至少一个组件用于执行关于框图100、框图200、过程300、框图400、过程500、过程600、过程700、框图800、框图900、框图1000、框图1100、过程1200、框图1300、框图1400、框图1500和/或本文所描述的其他系统、方法或操作描述的至少一个方面。

图35是示出了根据至少一个实施例的用于支持网络功能虚拟化(NFV)的系统3500的组件的框图。在至少一个实施例中，系统3500被示为包括虚拟化基础设施管理器(被示为VIM 3502)、网络功能虚拟化基础设施(如NFVI 3504所示)、VNF管理器(如VNFM 3506所示)、虚拟化网络功能(示出为VNF 3508)、元件管理器(示出为EM 3510)、NFV协调器(示出为NFVO3512)、以及网络管理器(示为NM 3514)。

在至少一个实施例中，VIM 3502管理NFVI 3504的资源。在至少一个实施例中，NFVI 3504可包括用于执行系统3500的物理或虚拟资源和应用(包括管理程序)。在至少一个实施例中，VIM 3502可以利用NFVI 3504来管理虚拟资源的生命周期(例如，与一个或更多个物理资源相关联的虚拟机(VM)的创建、维护和拆除)、跟踪VM实例、跟踪性能、VM实例和相关联的物理资源的故障和安全性、以及向其他管理系统暴露VM实例和相关联的物理资源。

在至少一个实施例中，VNFM 3506可以管理VNF 3508。在至少一个实施例中，VNF3508可以用于执行EPC组件/功能。在至少一个实施例中，VNFM 3506可以管理VNF 3508的生命周期并且跟踪VNF 3508的虚拟方面的性能、故障和安全性。在至少一个实施例中，EM3510可以跟踪VNF 3508的功能方面的性能、故障和安全性。在至少一个实施例中，跟踪来自VNFM 3506和EM 3510的数据可以包括，例如，由VIM 3502或NFVI 3504使用的性能测量(PM)数据。在至少一个实施例中，VNFM 3506和EM 3510两者可以放大/缩小系统3500的VNF的数量。

在至少一个实施例中，NFVO 3512可协调、授权、释放和占用NFVI 3504的资源，以便提供所请求的服务(例如，以执行EPC功能、组件或切片)。在至少一个实施例中，NM 3514可提供负责管理网络的终端用户功能包，该网络可包括具有VNF、非虚拟化网络功能或两者的网络元件(VNF的管理可经由EM 3510发生)。

在至少一个实施例中，关于图35所示或描述的至少一个组件用于执行结合图1-15描述的技术和/或功能。在至少一个实施例中，关于图35所示或描述的至少一个组件用于使第一应用程序编程接口(API)选择第二API，以执行由第一API识别的一个或更多个软件工作负载。在至少一个实施例中，关于图35所示或描述的至少一个组件用于执行第一应用程序编程接口(API)以选择第二API，以监控由第一API识别的一个或更多个软件工作负载的执行。在至少一个实施例中，关于图35所示或描述的至少一个组件用于执行第一应用程序编程接口(API)以选择第二API，以终止由第一API识别的一个或更多个软件工作负载的执行。在至少一个实施例中，关于图35所示或描述的至少一个组件用于执行关于框图100、框图200、过程300、框图400、过程500、过程600、过程700、框图800、框图900、框图1000、框图1100、过程1200、框图1300、框图1400、框图1500和/或本文所描述的其他系统、方法或操作描述的至少一个方面。

基于计算机的系统

以下各图提出但不限于可用于实现至少一个实施例的示例性的基于计算机的系统。

图36示出了根据至少一个实施例的处理系统3600。在至少一个实施例中，系统3600包括一个或更多个处理器3602和一个或更多个图形处理器3608，并且可以是单处理器台式机系统、多处理器工作站系统或具有大量处理器3602或处理器核心3607的服务器系统。在至少一个实施例中，处理系统3600是结合在片上系统(SoC)集成电路内的处理平台，以用于移动、手持或嵌入式设备。

在至少一个实施例中，处理系统3600可以包括或结合在基于服务器的游戏平台中，包括游戏和媒体控制台的游戏控制台、移动游戏控制台、手持游戏控制台或在线游戏控制台。在至少一个实施例中，处理系统3600是移动电话、智能电话、平板计算设备或移动互联网设备。在至少一个实施例中，处理系统3600还可包括与可穿戴设备耦合或集成在可穿戴设备中，例如智能手表可穿戴设备、智能眼镜设备、增强现实设备或虚拟现实设备。在至少一个实施例中，处理系统3600是电视或机顶盒设备，其具有一个或更多个处理器3602以及由一个或更多个图形处理器3608生成的图形界面。

在至少一个实施例中，一个或更多个处理器3602每个分组括一个或更多个处理器核心3607，以处理指令，该指令在被执行时执行针对系统和用户软件的操作。在至少一个实施例中，一个或更多个处理器核心3607中的每一个被配置为处理特定指令集3609。在至少一个实施例中，指令集3609可以促进复杂指令集计算(CISC)、精简指令集计算(RISC)，或通过超长指令字(VLIW)进行计算。在至少一个实施例中，多个处理器核心3607可以各自处理不同的指令集3609，该指令集3609可以包括有助于仿真其他指令集的指令。在至少一个实施例中，处理器核心3607还可以包括其他处理设备，例如数字信号处理器(DSP)。

在至少一个实施例中，处理器3602包括高速缓存存储器(cache)3604。在至少一个实施例中，处理器3602可以具有单个内部高速缓存或更多个级别的内部高速缓存。在至少一个实施例中，高速缓存存储器在处理器3602的各个组件之间共享。在至少一个实施例中，处理器3602还使用外部高速缓存(例如，三级(L3)高速缓存或最后一级高速缓存(LLC))(未示出)，其可以使用已知的高速缓存一致性技术在处理器核心3607之间共享该逻辑。在至少一个实施例中，处理器3602中另外包括寄存器文件3606，处理器3602可以包括用于存储不同类型的数据的不同类型的寄存器(例如，整数寄存器、浮点寄存器、状态寄存器和指令指针寄存器)。在至少一个实施例中，寄存器文件3606可以包括通用寄存器或其他寄存器。

在至少一个实施例中，一个或更多个处理器3602与一个或更多个接口总线3610耦合，以在处理器3602与系统3600中的其他组件之间传输通信信号，例如地址、数据或控制信号。在至少一个实施例中，接口总线3610在一个实施例中可以是处理器总线，例如直接媒体接口(DMI)总线的版本。在至少一个实施例中，接口总线3610不限于DMI总线，并且可以包括一个或更多个外围组件互连总线(例如，PCI，PCI Express)、存储器总线或其他类型的接口总线。在至少一个实施例中，处理器3602包括集成存储器控制器3616和平台控制器集线器3630。在至少一个实施例中，存储器控制器3616促进存储设备与处理系统3600的其他组件之间的通信，而平台控制器集线器(PCH)3630通过本地I/O总线提供到输入/输出(I/O)设备的连接。

在至少一个实施例中，存储器设备3620可以是动态随机存取存储器(DRAM)设备、静态随机存取存储器(SRAM)设备、闪存设备、相变存储设备或具有适当的性能以用作处理器内存。在至少一个实施例中，存储设备3620可以用作处理系统3600的系统存储器，以存储数据3622和指令3621，以在一个或更多个处理器3602执行应用或过程时使用。在至少一个实施例中，存储器控制器3616还与可选的外部图形处理器3612耦合，其可以与处理器3602中的一个或更多个图形处理器3608通信以执行图和媒体操作。在至少一个实施例中，显示设备3611可以连接至处理器3602。在至少一个实施例中，显示设备3611可以包括内部显示设备中的一个或更多个，例如在移动电子设备或便携式计算机设备或通过显示器接口(例如显示端口(DisplayPort)等)连接的外部显示设备。在至少一个实施例中，显示设备3611可以包括头戴式显示器(HMD)，诸如用于虚拟现实(VR)应用或增强现实(AR)应用中的立体显示设备。

在至少一个实施例中，平台控制器集线器3630使外围设备能够通过高速I/O总线连接到存储设备3620和处理器3602。在至少一个实施例中，I/O外围设备包括但不限于音频控制器3646、网络控制器3634、固件接口3628、无线收发器3626、触摸传感器3625、数据存储设备3624(例如，硬盘驱动器、闪存等)。在至少一个实施例中，数据存储设备3624可以经由存储器接口(例如，SATA)或经由外围总线来连接，诸如外围组件互连总线(例如，PCI、PCIe)。在至少一个实施例中，触摸传感器3625可以包括触摸屏传感器、压力传感器或指纹传感器。在至少一个实施例中，无线收发器3626可以是Wi-Fi收发器、蓝牙收发器或移动网络收发器，诸如3G、4G或长期演进(LTE)收发器。在至少一个实施例中，固件接口3628使能与系统固件的通信，例如，并且可以是统一的可扩展固件接口(UEFI)。在至少一个实施例中，网络控制器3634可以启用到有线网络的网络连接。在至少一个实施例中，高性能网络控制器(未示出)与接口总线3610耦合。在至少一个实施例中，音频控制器3646是多通道高清晰度音频控制器。在至少一个实施例中，处理系统3600包括可选的传统(legacy)I/O控制器3640，用于将遗留(例如，个人系统2(PS/2))设备耦合到处理系统3600。在至少一个实施例中，平台控制器集线器3630还可以连接到一个或更多个通用串行总线(USB)控制器3642，该控制器连接输入设备，诸如键盘和鼠标3643组合、相机3644或其他USB输入设备。

在至少一个实施例中，存储器控制器3616和平台控制器集线器3630的实例可以集成到离散的外部图形处理器中，例如外部图形处理器3612。在至少一个实施例中，平台控制器集线器3630和/或存储控制器3616可以在一个或更多个处理器3602的外部。例如，在至少一个实施例中，处理系统3600可以包括外部存储控制器3616和平台控制器集线器3630，其可以配置成在与处理器3602通信的系统芯片组中的存储器控制器集线器和外围控制器集线器。

在至少一个实施例中，关于图36所示或描述的至少一个组件用于执行结合图1-15描述的技术和/或功能。在至少一个实施例中，关于图36所示或描述的至少一个组件用于使第一应用程序编程接口(API)选择第二API，以执行由第一API识别的一个或更多个软件工作负载。在至少一个实施例中，关于图36所示或描述的至少一个组件用于执行第一应用程序编程接口(API)以选择第二API，以监控由第一API识别的一个或更多个软件工作负载的执行。在至少一个实施例中，关于图36所示或描述的至少一个组件用于执行第一应用程序编程接口(API)以选择第二API，以终止由第一API识别的一个或更多个软件工作负载的执行。在至少一个实施例中，关于图36所示或描述的至少一个组件用于执行关于框图100、框图200、过程300、框图400、过程500、过程600、过程700、框图800、框图900、框图1000、框图1100、过程1200、框图1300、框图1400、框图1500和/或本文所描述的其他系统、方法或操作描述的至少一个方面。

图37示出了根据至少一个实施例的计算机系统3700。在至少一个实施例中，计算机系统3700可以是具有互连的设备和组件，SOC，或某种组合的系统。在至少一个实施例中，计算机系统3700由处理器3702形成，该处理器3702可以包括用于执行指令的执行单元。在至少一个实施例中，计算机系统3700可以包括但不限于组件，例如处理器3702，其采用包括逻辑的执行单元以执行用于过程数据的算法。在至少一个实施例中，计算机系统3700可以包括处理器，例如可从加利福尼亚圣塔克拉拉的英特尔公司(Intel Corporation ofSanta Clara,California)获得的处理器家族、XeonTM、/>XScaleTM和/或StrongARMTM，/>Core^TM或/>Nervana^TM微处理器，尽管也可以使用其他系统(包括具有其他微处理器的PC、工程工作站、机顶盒等)。在至少一个实施例中，计算机系统3700可以执行可从华盛顿州雷蒙德市的微软公司(Microsoft Corporation ofRedmond,Wash.)获得的WINDOWS操作系统版本，尽管其他操作系统(例如UNIX和Linux)、嵌入式软件和/或图形用户界面也可以使用。

在至少一个实施例中，计算机系统3700可以用在其他设备中，例如手持设备和嵌入式应用。手持设备的一些示例包括蜂窝电话、互联网协议(Internet Protocol)设备、数码相机、个人数字助理(“PDA”)和手持PC。在至少一个实施例中，嵌入式应用可以包括微控制器、数字信号处理器(“DSP”)、SoC、网络计算机(“NetPC”)、机顶盒、网络集线器、广域网(“WAN”)交换机，或根据至少一个实施例可以执行一个或更多个指令的任何其他系统。

在至少一个实施例中，计算机系统3700可包括但不限于处理器3702，该处理器3702可包括但不限于一个或更多个执行单元3708，其可以配置为执行计算统一设备架构(“CUDA”)(由加利福尼亚州圣克拉拉的NVIDIA Corporation开发)程序。在至少一个实施例中，CUDA程序是用CUDA编程语言编写的软件应用程序的至少一部分。在至少一个实施例中，计算机系统3700是单处理器台式机或服务器系统。在至少一个实施例中，计算机系统3700可以是多处理器系统。在至少一个实施例中，处理器3702可以包括但不限于CISC微处理器、RISC微处理器、VLIW微处理器、实现指令集组合的处理器，或任何其他处理器设备，例如，诸如数字信号处理器。在至少一个实施例中，处理器3702可以耦合到处理器总线3710，该处理器总线3710可以在处理器3702与计算机系统3700中的其他组件之间传输数据信号。

在至少一个实施例中，处理器3702可以包括但不限于1级(“L1”)内部高速缓存存储器(“cache”)3704。在至少一个实施例中，处理器3702可以具有单个内部高速缓存或多级内部高速缓存。在至少一个实施例中，高速缓存存储器可以驻留在处理器3702的外部。在至少一个实施例中，处理器3702可以包括内部和外部高速缓存的组合。在至少一个实施例中，寄存器文件3706可以在各种寄存器中存储不同类型的数据，包括但不限于整数寄存器、浮点寄存器、状态寄存器和指令指针寄存器。

在至少一个实施例中，包括但不限于执行整数和浮点运算的逻辑的执行单元3708，其也位于处理器3702中。处理器3702还可以包括微码(“ucode”)只读存储器(“ROM”)，用于存储某些宏指令的微代码。在至少一个实施例中，执行单元3708可以包括用于处理封装指令集3709的逻辑。在至少一个实施例中，通过将封装指令集3709包括在通用处理器3702的指令集中，以及要执行指令的相关电路，可以使用通用处理器3702中的封装数据来执行许多多媒体应用程序使用的操作。在至少一个实施例中，可以通过使用处理器的数据总线的全宽度来在封装的数据上执行操作来加速和更有效地执行许多多媒体应用程序，这可能不需要在处理器的数据总线上传输较小的数据单元来一次对一个数据元素执行一个或更多个操作。

在至少一个实施例中，执行单元3708也可以用在微控制器、嵌入式处理器、图形设备、DSP和其他类型的逻辑电路中。在至少一个实施例中，计算机系统3700可以包括但不限于存储器3720。在至少一个实施例中，存储器3720可以被实现为DRAM设备、SRAM设备、闪存设备或其他存储设备。存储器3720可以存储由处理器3702可以执行的由数据信号表示的指令3719和/或数据3721。

在至少一个实施例中，系统逻辑芯片可以耦合到处理器总线3710和存储器3720。在至少一个实施例中，系统逻辑芯片可以包括但不限于存储器控制器集线器(“MCH”)3716，并且处理器3702可以经由处理器总线3710与MCH 3716通信。在至少一个实施例中，MCH3716可以提供到存储器3720的高带宽存储器路径3718以用于指令和数据存储以及用于图形命令、数据和纹理的存储。在至少一个实施例中，MCH 3716可以在处理器3702、存储器3720和计算机系统3700中的其他组件之间启动数据信号，并且在处理器总线3710、存储器3720和系统I/O 3722之间桥接数据信号。在至少一个实施例中，系统逻辑芯片可以提供用于耦合到图形控制器的图形端口。在至少一个实施例中，MCH 3716可以通过高带宽存储器路径3718耦合到存储器3720，并且图形/视频卡3712可以通过加速图形端口(AcceleratedGraphics Port)(“AGP”)互连3714耦合到MCH 3716。

在至少一个实施例中，计算机系统3700可以使用系统I/O 3722作为专有集线器接口总线来将MCH 3716耦合到I/O控制器集线器(“ICH”)3730。在至少一个实施例中，ICH3730可以通过本地I/O总线提供与某些I/O设备的直接连接。在至少一个实施例中，本地I/O总线可以包括但不限于用于将外围设备连接到存储器3720、芯片组和处理器3702的高速I/O总线。示例可以包括但不限于音频控制器3729、固件集线器(“Flash BIOS”)3728、无线收发器3726、数据存储3724、包含用户输入3725的传统I/O控制器3723和键盘接口、串行扩展端口3727(例如USB)和网络控制器3734。数据存储3724可以包括硬盘驱动器、软盘驱动器、CD-ROM设备、闪存设备或其他大容量存储设备。

在至少一个实施例中，图37示出了包括互连的硬件设备或“芯片”的系统。在至少一个实施例中，图37可以示出示例性SoC。在至少一个实施例中，图37中示出的设备可以与专有互连、标准化互连(例如，PCIe)或其某种组合互连。在至少一个实施例中，系统3700的一个或更多个组件使用计算快速链路(CXL)互连来互连。

在至少一个实施例中，关于图37所示或描述的至少一个组件用于执行结合图1-15描述的技术和/或功能。在至少一个实施例中，关于图37所示或描述的至少一个组件用于使第一应用程序编程接口(API)选择第二API，以执行由第一API识别的一个或更多个软件工作负载。在至少一个实施例中，关于图37所示或描述的至少一个组件用于执行第一应用程序编程接口(API)以选择第二API，以监控由第一API识别的一个或更多个软件工作负载的执行。在至少一个实施例中，关于图37所示或描述的至少一个组件用于执行第一应用程序编程接口(API)以选择第二API，以终止由第一API识别的一个或更多个软件工作负载的执行。在至少一个实施例中，关于图37所示或描述的至少一个组件用于执行关于框图100、框图200、过程300、框图400、过程500、过程600、过程700、框图800、框图900、框图1000、框图1100、过程1200、框图1300、框图1400、框图1500和/或本文所描述的其他系统、方法或操作描述的至少一个方面。

图38示出了根据至少一个实施例的系统3800。在至少一个实施例中，系统3800是利用处理器3810的电子设备。在至少一个实施例中，系统3800可以是，例如但不限于，笔记本电脑、塔式服务器、机架服务器、刀片服务器、膝上型计算机、台式机、平板电脑、移动设备、电话、嵌入式计算机或任何其他合适的电子设备。

在至少一个实施例中，系统3800可以包括但不限于通信地耦合到任何合适数量或种类的组件、外围设备、模块或设备的处理器3810。在至少一个实施例中，处理器3810使用总线或接口耦合，诸如I2C总线、系统管理总线(“SMBus”)、低引脚数(LPC)总线、串行外围接口(“SPI”)、高清音频(“HDA”)总线、串行高级技术附件(“SATA”)总线、USB(1、2、3版)或通用异步接收器/发送器(“UART”)总线。在至少一个实施例中，图38示出了系统，该系统包括互连的硬件设备或“芯片”。在至少一个实施例中，图38可以示出示例性SoC。在至少一个实施例中，图38中所示的设备可以与专有互连线、标准化互连(例如，PCIe)或其某种组合互连。在至少一个实施例中，图38的一个或更多个组件使用计算快速链路(CXL)互连线来互连。

在至少一个实施例中，图38可以包括显示器3824、触摸屏3825、触摸板3830、近场通信单元(“NFC”)3845、传感器集线器3840、热传感器3839、快速芯片组(“EC”)3835、可信平台模块(“TPM”)3838、BIOS/固件/闪存(“BIOS，FW Flash”)3822、DSP 3860、固态磁盘(“SSD”)或硬盘驱动器(“HDD”)3820、无线局域网单元(“WLAN”)3850、蓝牙单元3852、无线广域网单元(“WWAN”)3856、全球定位系统(GPS)3855、相机(“USB 3.0相机”)3854(例如USB3.0相机)或以例如LPDDR3标准实现的低功耗双倍数据速率(“LPDDR”)存储器单元(“LPDDR3”)3815。这些组件可以各自以任何合适的方式实现。

在至少一个实施例中，其他组件可以通过以上讨论的组件通信地耦合到处理器3810。在至少一个实施例中，加速度计3841、环境光传感器(“ALS”)3842、罗盘3843和陀螺仪3844可以可通信地耦合到传感器集线器3840。在至少一个实施例中，热传感器3839、风扇3837、键盘3846和触摸板3830可以通信地耦合到EC 3835。在至少一个实施例中，扬声器3863、耳机3864和麦克风(“mic”)3865可以通信地耦合到音频单元3862(例如，“音频编解码器和D类放大器”)，其又可以通信地耦合到DSP 3860。在至少一个实施例中，音频单元3862可以包括但不限于音频编码器/解码器(“编解码器”)和D类放大器。在至少一个实施例中，SIM卡(“SIM”)3857可以通信地耦合到WWAN单元3856。在至少一个实施例中，组件(诸如WLAN单元3850和蓝牙单元3852以及WWAN单元3856)可以被实现为下一代形式因素(NGFF)。

在至少一个实施例中，关于图38所示或描述的至少一个组件用于执行结合图1-15描述的技术和/或功能。在至少一个实施例中，关于图38所示或描述的至少一个组件用于使第一应用程序编程接口(API)选择第二API，以执行由第一API识别的一个或更多个软件工作负载。在至少一个实施例中，关于图38所示或描述的至少一个组件用于执行第一应用程序编程接口(API)以选择第二API，以监控由第一API识别的一个或更多个软件工作负载的执行。在至少一个实施例中，关于图38所示或描述的至少一个组件用于执行第一应用程序编程接口(API)以选择第二API，以终止由第一API识别的一个或更多个软件工作负载的执行。在至少一个实施例中，关于图38所示或描述的至少一个组件用于执行关于框图100、框图200、过程300、框图400、过程500、过程600、过程700、框图800、框图900、框图1000、框图1100、过程1200、框图1300、框图1400、框图1500和/或本文所描述的其他系统、方法或操作描述的至少一个方面。

图39示出了根据至少一个实施例的示例性集成电路3900。在至少一个实施例中，示例性集成电路3900是SoC，其可使用一个或更多个IP核心制造。在至少一个实施例中，集成电路3900包括一个或更多个应用处理器3905(例如，CPU)、至少一个图形处理器3910，并且可以另外包括图像处理器3915和/或视频处理器3920，其中任意一个可能是模块化IP核心。在至少一个实施例中，集成电路3900包括外围或总线逻辑，其包括USB控制器3925、UART控制器3930、SPI/SDIO控制器3935和I²S/I²C控制器3940。在至少一个实施例中，集成电路3900可以包括显示设备3945耦合到高清多媒体接口(HDMI)控制器3950和移动工业处理器接口(MIPI)显示接口3955中的一个或更多个。在至少一个实施例中，存储可以由闪存子系统3960提供，包括闪存和闪存控制器。在至少一个实施例中，可以经由存储器控制器3965提供存储器接口以用于访问SDRAM或SRAM存储器设备。在至少一个实施例中，一些集成电路还包括嵌入式安全引擎3970。

在至少一个实施例中，关于图39所示或描述的至少一个组件用于执行结合图1-15描述的技术和/或功能。在至少一个实施例中，关于图39所示或描述的至少一个组件用于使第一应用程序编程接口(API)选择第二API，以执行由第一API识别的一个或更多个软件工作负载。在至少一个实施例中，关于图39所示或描述的至少一个组件用于执行第一应用程序编程接口(API)以选择第二API，以监控由第一API识别的一个或更多个软件工作负载的执行。在至少一个实施例中，关于图39所示或描述的至少一个组件用于执行第一应用程序编程接口(API)以选择第二API，以终止由第一API识别的一个或更多个软件工作负载的执行。在至少一个实施例中，关于图39所示或描述的至少一个组件用于执行关于框图100、框图200、过程300、框图400、过程500、过程600、过程700、框图800、框图900、框图1000、框图1100、过程1200、框图1300、框图1400、框图1500和/或本文所描述的其他系统、方法或操作描述的至少一个方面。

图40示出了根据至少一个实施例的计算系统4000。在至少一个实施例中，计算系统4000包括处理子系统4001，其具有经由可以包括存储器集线器4005的互连路径通信的一个或更多个处理器4002和系统存储器4004。在至少一个实施例中，存储器集线器4005可以是芯片组组件内的单独组件，也可以集成在一个或更多个处理器4002内。在至少一个实施例中，存储器集线器4005通过通信链路4006与I/O子系统4011耦合。在至少一个实施例中，I/O子系统4011包括I/O集线器4007，其可以使计算系统4000能够接收来自一个或更多个输入设备4008的输入。在至少一个实施例中，I/O集线器4007可以使能显示控制器，其包括在一个或更多个处理器4002中，用于向一个或更多个显示设备4010A提供输出。在至少一个实施例中，与I/O集线器4007耦合的一个或更多个显示设备4010A可以包括本地、内部或嵌入式显示设备。

在至少一个实施例中，处理子系统4001包括经由总线或其他通信链路4013耦合到存储器集线器4005的一个或更多个并行处理器4012。在至少一个实施例中，通信链路4013可以是许多基于标准的通信链路技术或协议中的一种，例如但不限于PCIe，或者可以是针对供应商的通信接口或通信结构。在至少一个实施例中，一个或更多个并行处理器4012形成计算集中的并行或向量处理系统，该系统可以包括大量的处理核心和/或处理集群，例如多集成核心(MIC)处理器。在至少一个实施例中，一个或更多个并行处理器4012形成可以将像素输出到经由I/O集线器4007耦合的一个或更多个显示设备4010A之一的图形处理子系统。在至少一个实施例中，一个或更多个并行处理器4012还可以包括显示控制器和显示接口(未示出)，以使得能够直接连接到一个或更多个显示设备4010B。

在至少一个实施例中，系统存储单元4014可以连接到I/O集线器4007，以提供用于计算系统4000的存储机制。在至少一个实施例中，I/O交换机4016可以用于提供接口机制，以实现I/O集线器4007与其他组件之间的连接，例如可以集成到平台中的网络适配器4018和/或无线网络适配器4019，以及可以通过一个或更多个附加设备4020添加的各种其他设备。在至少一个实施例中，网络适配器4018可以是以太网适配器或另一有线网络适配器。在至少一个实施例中，无线网络适配器4019可以包括Wi-Fi、蓝牙、NFC的一个或更多个或其他包括一个或更多个无线电的网络设备。

在至少一个实施例中，计算系统4000可以包括未明确示出的其他组件，包括USB或其他端口连接、光存储驱动器、视频捕获设备和/或其变体，也可以连接到I/O集线器4007。在至少一个实施例中，对图40中的各个组件进行互连的通信路径可以使用任何合适的协议来实现，诸如基于PCI(外围组件互连)的协议(例如，PCIe)，或其他总线或点对点通信接口和/或协议(例如，NVLink高速互连或互连协议)。

在至少一个实施例中，一个或更多个并行处理器4012包括针对图形和视频处理而优化的电路(在至少一个实施例，包括视频输出电路)，并构成图形处理单元(GPU)。在至少一个实施例中，一个或更多个并行处理器4012包括针对通用处理而优化的电路。在至少一个实施例中，计算系统4000的组件可以与单个集成电路上的一个或更多个其他系统元件集成。例如，在至少一个实施例中，一个或更多个并行处理器4012、存储器集线器4005、处理器4002和I/O集线器4007可以被集成到片上系统(SoC)集成电路中。在至少一个实施例中，计算系统4000的组件可以被集成到单个封装中以形成系统级封装(SIP)配置。在至少一个实施例中，计算系统4000的组件的至少一部分可以被集成到多芯片模块(MCM)中，该多芯片模块可以与其他多芯片模块互连到模块化计算系统中。在至少一个实施例中，从计算系统4000中省略了I/O子系统4011和显示设备4010B。

在至少一个实施例中，关于图40所示或描述的至少一个组件用于执行结合图1-15描述的技术和/或功能。在至少一个实施例中，关于图40所示或描述的至少一个组件用于使第一应用程序编程接口(API)选择第二API，以执行由第一API识别的一个或更多个软件工作负载。在至少一个实施例中，关于图40所示或描述的至少一个组件用于执行第一应用程序编程接口(API)以选择第二API，以监控由第一API识别的一个或更多个软件工作负载的执行。在至少一个实施例中，关于图40所示或描述的至少一个组件用于执行第一应用程序编程接口(API)以选择第二API，以终止由第一API识别的一个或更多个软件工作负载的执行。在至少一个实施例中，关于图40所示或描述的至少一个组件用于执行关于框图100、框图200、过程300、框图400、过程500、过程600、过程700、框图800、框图900、框图1000、框图1100、过程1200、框图1300、框图1400、框图1500和/或本文所描述的其他系统、方法或操作描述的至少一个方面。

处理系统

以下各图阐述了但不限于可用于实现至少一个实施例的示例性处理系统。

图41示出了根据至少一个实施例的加速处理单元(“APU”)4100。在至少一个实施例中，APU 4100由加利福尼亚州圣克拉拉市的AMD公司开发。在至少一个实施例中，APU4100可以被配置为执行应用程序，诸如CUDA程序。在至少一个实施例中，APU 4100包括但不限于核心复合体4110、图形复合体4140、结构4160、I/O接口4170、存储器控制器4180、显示控制器4192和多媒体引擎4194。在至少一个实施例中，APU 4100可以包括但不限于任意数量的核心复合体4110、任意数量的图形复合体4140、任意数量的显示控制器4192和任意数量的多媒体引擎4194的任何组合。为了说明的目的，在本文中用附图标记表示相似对象的多个实例，其中附图标记标识该对象，并且括号中的数字标识所需要的实例。

在至少一个实施例中，核心复合体4110是CPU，图形复合体4140是GPU，并且APU4100是将不限于4110和4140集成到单个芯片上的处理单元。在至少一个实施例中，一些任务可以被分配给核心复合体4110，而其他任务可以被分配给图形复合体4140。在至少一个实施例中，核心复合体4110被配置为执行与APU 4100相关联的主控制软件，例如操作系统。在至少一个实施例中，核心复合体4110是APU 4100的主处理器，其控制和协调其他处理器的操作。在至少一个实施例中，核心复合体4110发出控制图形复合体4140的操作的命令。在至少一个实施例中，核心复合体4110可以被配置为执行从CUDA源代码派生的主机可执行代码，并且图形复合体4140可以被配置为执行从CUDA源代码派生的设备可执行代码。

在至少一个实施例中，核心复合体4110包括但不限于核心4120(1)-4120(4)和L3高速缓存4130。在至少一个实施例中，核心复合体4110可以包括但不限于任意数量的核心4120以及任意数量和类型的高速缓存的任何组合。在至少一个实施例中，核心4120被配置为执行特定指令集架构(“ISA”)的指令。在至少一个实施例中，每个核心4120是CPU核心。

在至少一个实施例中，每个核心4120包括但不限于获取/解码单元4122、整数执行引擎4124、浮点执行引擎4126和L2高速缓存4128。在至少一个实施例中，获取/解码单元4122获取指令，对这些指令进行解码，生成微操作，并将单独的微指令分派给整数执行引擎4124和浮点执行引擎4126。在至少一个实施例中，获取/解码单元4122可以同时分派一个微指令到整数执行引擎4124以及分派另一微指令到浮点执行引擎4126。在至少一个实施例中，整数执行引擎4124执行不限于整数操作和存储器操作。在至少一个实施例中，浮点执行引擎4126执行不限于浮点操作和向量运算。在至少一个实施例中，获取-解码单元4122将微指令分派给单个执行引擎，该单个执行引擎代替整数执行引擎4124和浮点执行引擎4126两者。

在至少一个实施例中，每个核心4120(i)可以访问包括在核心4120(i)中的L2高速缓存4128(i)，其中i是表示核心4120的特定实例的整数。在至少一个实施例中，包括在核心复合体4110(j)中的每个核心4120经由包括在核心复合体4110(j)中的L3高速缓存4130(j)连接到包括在核心复合体4110(j)中的其他核心4120，其中j是表示核心复合体4110的特定实例的整数。在至少一个实施例中，包括在核心复合体4110(j)中的核心4120可以访问包括在核心复合体4110(j)中的所有L3高速缓存4130(j)，其中j是表示核心复合体4110的特定实例的整数。在至少一个实施例中，L3高速缓存4130可以包括但不限于任意数量的切片(slice)。

在至少一个实施例中，图形复合体4140可以被配置为以高度并行的方式执行计算操作。在至少一个实施例中，图形复合体4140被配置为执行图形管线操作，诸如绘制命令、像素操作、几何计算以及与将图像渲染至显示器相关联的其他操作。在至少一个实施例中，图形复合体4140被配置为执行与图形无关的操作。在至少一个实施例中，图形复合体4140被配置为执行与图形有关的操作和与图形无关的操作两者。

在至少一个实施例中，图形复合体4140包括但不限于任意数量的计算单元4150和L2高速缓存4142。在至少一个实施例中，计算单元4150共享L2高速缓存4142。在至少一个实施例中，L2高速缓存4142被分区。在至少一个实施例中，图形复合体4140包括但不限于任意数量的计算单元4150以及任意数量(包括零)和类型的高速缓存。在至少一个实施例中，图形复合体4140包括但不限于任意数量的专用图形硬件。

在至少一个实施例中，每个计算单元4150包括但不限于任意数量的SIMD单元4152和共享存储器4154。在至少一个实施例中，每个SIMD单元4152实现SIMD架构并且被配置为并行执行操作。在至少一个实施例中，每个计算单元4150可以执行任意数量的线程块，但是每个线程块在单个计算单元4150上执行。在至少一个实施例中，线程块包括但不限于任意数量的执行线程。在至少一个实施例中，工作组是线程块。在至少一个实施例中，每个SIMD单元4152执行不同的线程束(warp)。在至少一个实施例中，线程束是一组线程(例如16个线程)，其中线程束中的每个线程属于单个线程块，并且被配置为基于单个指令集来处理不同的数据集。在至少一个实施例中，可以使用预测(predication)来禁用线程束中的一个或更多个线程。在至少一个实施例中，通道是线程。在至少一个实施例中，工作项是线程。在至少一个实施例中，波前是线程束。在至少一个实施例中，线程块中的不同波前可一起同步并经由共享存储器4154进行通信。

在至少一个实施例中，结构(fabric)4160是系统互连，其促进跨核心复合体4110、图形复合体4140、I/O接口4170、存储器控制器4180、显示控制器4192和多媒体引擎4194的数据传输和控制传输。在至少一个实施例中，除了结构4160之外或代替结构4160，APU 4100还可以包括但不限于任意数量和类型的系统互连，该结构4160促进跨可以在APU 4100内部或外部的任意数量和类型的直接或间接链接的组件的数据传输和控制传输。在至少一个实施例中，I/O接口4170表示任意数量和类型的I/O接口(例如，PCI，PCI-Extended(“PCI-X”)，PCIe，千兆以太网(“GBE”)，USB等)。在至少一个实施例中，各种类型的外围设备耦合到I/O接口4170。在至少一个实施例中，耦合到I/O接口4170的外围设备可以包括但不限于键盘、鼠标、打印机、扫描仪、操纵杆或其他类型的游戏控制器、媒体记录设备、外部存储设备、网络接口卡等。

在至少一个实施例中，显示控制器AMD92在一个或更多个显示设备(例如液晶显示器(LCD)设备)上显示图像。在至少一个实施例中，多媒体引擎4194包括但不限于任意数量和类型的与多媒体相关的电路，例如视频解码器、视频编码器、图像信号处理器等。在至少一个实施例中，存储器控制器4180促进APU 4100与统一系统存储器4190之间的数据传输。在至少一个实施例中，核心复合体4110和图形复合体4140共享统一系统存储器4190。

在至少一个实施例中，APU 4100实现种存储器子系统，其包括但不限于任意数量和类型的存储器控制器4180和可以专用于一个组件或在多个组件之间共享的存储器设备(例如，共享存储器4154)。在至少一个实施例中，APU 4100实现高速缓存子系统，其包括但不限于一个或更多个高速缓存存储器(例如，L2高速缓存3828、L3高速缓存4130和L2高速缓存4142)，每个高速缓存存储器可以是组件私有的或在任意数量的组件(例如，核心4120、核心复合体4110、SIMD单元4152、计算单元4150和图形复合体4140)之间共享。

在至少一个实施例中，关于图41所示或描述的至少一个组件用于执行结合图1-15描述的技术和/或功能。在至少一个实施例中，关于图41所示或描述的至少一个组件用于使第一应用程序编程接口(API)选择第二API，以执行由第一API识别的一个或更多个软件工作负载。在至少一个实施例中，关于图41所示或描述的至少一个组件用于执行第一应用程序编程接口(API)以选择第二API，以监控由第一API识别的一个或更多个软件工作负载的执行。在至少一个实施例中，关于图41所示或描述的至少一个组件用于执行第一应用程序编程接口(API)以选择第二API，以终止由第一API识别的一个或更多个软件工作负载的执行。在至少一个实施例中，关于图41所示或描述的至少一个组件用于执行关于框图100、框图200、过程300、框图400、过程500、过程600、过程700、框图800、框图900、框图1000、框图1100、过程1200、框图1300、框图1400、框图1500和/或本文所描述的其他系统、方法或操作描述的至少一个方面。

图42示出了根据至少一个实施例的CPU 4200。在至少一个实施例中，CPU 4200由加利福尼亚州圣克拉拉市的AMD公司开发。在至少一个实施例中，CPU 4200可以被配置为执行应用程序。在至少一个实施例中，CPU 4200被配置为执行主控制软件，例如操作系统。在至少一个实施例中，CPU 4200发出控制外部GPU(未示出)的操作的命令。在至少一个实施例中，CPU 4200可以被配置为执行从CUDA源代码派生的主机可执行代码，并且外部GPU可以被配置为执行从这种CUDA源代码派生的设备可执行代码。在至少一个实施例中，CPU 4200包括但不限于任意数量的核心复合体4210、结构4260、I/O接口4270和存储器控制器4280。

在至少一个实施例中，核心复合体4210包括但不限于核心4220(1)-4220(4)和L3高速缓存4230。在至少一个实施例中，核心复合体4210可以包括但不限于任意数量的核心4220以及任意数量和类型的高速缓存的任何组合。在至少一个实施例中，核心4220被配置为执行特定ISA的指令。在至少一个实施例中，每个核心4220是CPU核心。

在至少一个实施例中，每个核心4220包括但不限于获取/解码单元4222，整数执行引擎4224，浮点执行引擎4226和L2高速缓存4228。在至少一个实施例中，获取/解码单元4222获取指令，对这些指令进行解码，生成微操作，并将单独的微指令分派给整数执行引擎4224和浮点执行引擎4226。在至少一个实施例中，获取/解码单元4222可以同时分派一个微指令到整数执行引擎4224和另一微指令到浮点执行引擎4226。在至少一个实施例中，整数执行引擎4224执行不限于整数和存储器操作。在至少一个实施例中，浮点引擎4226执行不限于浮点和向量运算。在至少一个实施例中，获取-解码单元4222将微指令分派给单个执行引擎，该执行引擎代替整数执行引擎4224和浮点执行引擎4226两者。

在至少一个实施例中，每个核心4220(i)可以访问包括在核心4220(i)中的L2高速缓存4228(i)，其中i是表示核心4220的特定实例的整数。在至少一个实施例中，包括在核心复合体4210(j)中的每个核心4220经由核心复合体4210(j)中的L3高速缓存4230(j)连接到包括在核心复合体4210(j)中的其他核心4220，其中j是表示核心复合体4210的特定实例的整数。在至少一个实施例中，包括在核心复合体4210(j)中的核心4220可以访问包括在核心复合体4210(j)中的所有L3高速缓存4230(j)，其中j是表示核心复合体4210的特定实例的整数。在至少一个实施例中，L3高速缓存4230可以包括但不限于任意数量的切片(slice)。

在至少一个实施例中，结构4260是系统互连，其促进跨核心复合体4210(1)-4210(N)(其中N为大于0的整数)、I/O接口4270以及存储器控制器4280的数据和控制传输。在至少一个实施例中，除了结构4260之外或代替结构4260，CPU 4200还可以包括但不限于任意数量和类型的系统互连，该结构4260促进跨可以在CPU 4200内部或外部的任意数量和类型的直接或间接链接的组件的数据和控制传输。在至少一个实施例中，I/O接口4270表示任意数量和类型的I/O接口(例如，PCI、PCI-X、PCIe，GBE、USB等)。在至少一个实施例中，各种类型的外围设备耦合到I/O接口4170。在至少一个实施例中，耦合到I/O接口4170的外围设备可以包括但不限于显示器、键盘、鼠标、打印机、扫描仪、操纵杆或其他类型的游戏控制器、媒体记录设备、外部存储设备、网络接口卡等。

在至少一个实施例中，存储器控制器4280促进CPU 4200与系统存储器4290之间的数据传输。在至少一个实施例中，核心复合体4210和图形复合体4240共享系统存储器4290。在至少一个实施例中，CPU 4200实现存储器子系统，其包括但不限于任意数量和类型的存储器控制器4280和可以专用于一个组件或在多个组件之间共享的存储器设备。在至少一个实施例中，CPU 4200实现了高速缓存子系统，其包括但不限于一个或更多个高速缓存存储器(例如，L2高速缓存4228和L3高速缓存4230)，每个高速缓存存储器可以是组件私有的或在任意数量的组件(例如，核心4220和核心复合体4210)之间共享。

在至少一个实施例中，关于图42所示或描述的至少一个组件用于执行结合图1-15描述的技术和/或功能。在至少一个实施例中，关于图42所示或描述的至少一个组件用于使第一应用程序编程接口(API)选择第二API，以执行由第一API识别的一个或更多个软件工作负载。在至少一个实施例中，关于图42所示或描述的至少一个组件用于执行第一应用程序编程接口(API)以选择第二API，以监控由第一API识别的一个或更多个软件工作负载的执行。在至少一个实施例中，关于图42所示或描述的至少一个组件用于执行第一应用程序编程接口(API)以选择第二API，以终止由第一API识别的一个或更多个软件工作负载的执行。在至少一个实施例中，关于图42所示或描述的至少一个组件用于执行关于框图100、框图200、过程300、框图400、过程500、过程600、过程700、框图800、框图900、框图1000、框图1100、过程1200、框图1300、框图1400、框图1500和/或本文所描述的其他系统、方法或操作描述的至少一个方面。

图43示出了根据至少一个实施例的示例性加速器集成切片4390。如本文使用的，“切片”包括加速器集成电路的处理资源的指定部分。在至少一个实施例中，加速器集成电路代表多个图形加速模块种的多个图形处理引擎提供高速缓存管理、存储器访问、环境管理和中断管理服务。图形处理引擎可以各自包括单独的GPU。可选地，图形处理引擎可包括GPU内的不同类型的图形处理引擎，例如图形执行单元、媒体处理引擎(例如，视频编码器/解码器)、采样器和blit引擎。在至少一个实施例中，图形加速模块可以是具有多个图形处理引擎的GPU。在至少一个实施例中，图形处理引擎可以是集成在通用封装、线卡或芯片上的各个GPU。

系统存储器4314内的应用程序有效地址空间4382存储进程元素4383。在一个实施例中，响应于来自处理器4307上执行的应用程序4380的GPU调用4381而存储进程元素4383。进程元素4383包含对应应用程序4380的处理状态。包含在进程元素4383中的工作描述符(WD)4384可以是应用程序请求的单个作业或可能包含指向作业队列的指针。在至少一个实施例中，WD 4384是指向应用程序有效地址空间4382中的作业请求队列的指针。

图形加速模块4346和/或各个图形处理引擎可以由系统中的全部或部分进程共享。在至少一个实施例中，可以包括用于建立处理状态并将WD 4384发送到图形加速模块4346以在虚拟化环境中开始作业的基础设施。

在至少一个实施例中，专用进程编程模型是针对实现的。在该模型中，单个进程拥有图形加速模块4346或个体图形处理引擎。由于图形加速模块4346由单个进程拥有，因此管理程序为拥有的分区初始化加速器集成电路，并且当分配图形加速模块4346时操作系统对加速器集成电路进行初始化以用于拥有的分区。

在操作中，加速器集成切片4390中的WD获取单元4391获取下一个WD 4384，其中包括要由图形加速模块4346的一个或更多个图形处理引擎完成的工作的指示。来自WD 4384的数据可以存储在寄存器4345被存储器管理单元(MMU)4339、中断管理电路4347和/或环境管理电路4348使用，如图所示。例如，MMU 4339包括用于访问OS虚拟地址空间4385内的段/页表4386的段/页面漫游电路。中断管理电路4347可以处理从图形加速模块4346接收到的中断事件(INT)4392。当执行图操作时，由图形处理引擎产生的有效地址4393由MMU 4339转换为实际地址。

在一个实施例中，为每个图形处理引擎和/或图形加速模块4346复制相同的寄存器组4345，并且可以由系统管理程序或操作系统来初始化。这些复制的寄存器中的每一个都可以包含在加速器集成切片4390中。表1中显示了可由管理程序初始化的示例性寄存器。

表1-管理程序初始化的寄存器

1	切片控制寄存器
		2	实地址(RA)计划的处理区域指针
3	权限屏蔽覆写寄存器
		4	中断向量表输入偏移
5	中断向量表入口限制
		6	状态寄存器
7	逻辑分区ID
		8	实地址(RA)管理程序加速器利用率记录指针
9	存储描述寄存器

表2中示出了可以由操作系统初始化的示例性寄存器。

表2-操作系统初始化寄存器

在一个实施例中，每个WD 4384特定于特定的图形加速模块4346和/或特定图形处理引擎。它包含图形处理引擎进行工作或工作所需的所有信息，或者它可以是指向存储器位置的指针，其中应用程序建立了要完成的工作的命令队列。

在至少一个实施例中，关于图43所示或描述的至少一个组件用于执行结合图1-15描述的技术和/或功能。在至少一个实施例中，关于图43所示或描述的至少一个组件用于使第一应用程序编程接口(API)选择第二API，以执行由第一API识别的一个或更多个软件工作负载。在至少一个实施例中，关于图43所示或描述的至少一个组件用于执行第一应用程序编程接口(API)以选择第二API，以监控由第一API识别的一个或更多个软件工作负载的执行。在至少一个实施例中，关于图43所示或描述的至少一个组件用于执行第一应用程序编程接口(API)以选择第二API，以终止由第一API识别的一个或更多个软件工作负载的执行。在至少一个实施例中，关于图43所示或描述的至少一个组件用于执行关于框图100、框图200、过程300、框图400、过程500、过程600、过程700、框图800、框图900、框图1000、框图1100、过程1200、框图1300、框图1400、框图1500和/或本文所描述的其他系统、方法或操作描述的至少一个方面。

图44A和图44B示出了根据本文至少一个实施例的示例性图形处理器。在至少一个实施例中，任何示例性图形处理器可以使用一个或更多个IP核心来制造。除了图示之外，在至少一个实施例中可以包括其他逻辑和电路，包括附加的图形处理器/核心、外围接口控制器或通用处理器核心。在至少一个实施例中，示例性图形处理器用于SoC内。

图44A示出了根据至少一个实施例的可以使用一个或更多个IP核心制造的SoC集成电路的示例性图形处理器4410。图44B示出了根据至少一个实施例的可以使用一个或更多个IP核心制造的SoC集成电路的附加示例性图形处理器4440。在至少一个实施例中，图44A的图形处理器4410是低功率图形处理器核心。在至少一个实施例中，图44B的图形处理器4440是更高性能的图形处理器核心。在至少一个实施例中，图形处理器4410、4440中的每一个可以是诸如本文所述的那些图形处理器的变体。

在至少一个实施例中，图形处理器4410包括顶点处理器4405和一个或更多个片段处理器4415A-4415N(例如4415A、4415B、4415C、4415D至4415N-1和4415N)。在至少一个实施例中，图形处理器4410可以经由单独的逻辑来执行不同的着色器程序，使得顶点处理器4405被优化以执行针对顶点着色器程序的操作，而一个或更多个片段处理器4415A-4415N执行片段(例如，像素)着色操作用于片段或像素或着色器程序。在至少一个实施例中，顶点处理器4405执行3D图形管线的顶点处理阶段并生成图元和顶点数据。在至少一个实施例中，片段处理器4415A-4415N使用由顶点处理器4405生成的图元和顶点数据来生成在显示设备上显示的帧缓冲区。在至少一个实施例中，片段处理器4415A-4415N被优化以执行如在OpenGL API中所提供的片段着色器程序，其可以用于执行与在Direct 3D API中所提供的像素着色器程序类似的操作。

在至少一个实施例中，图形处理器4410附加地包括一个或更多个MMU 4420A-4420B、高速缓存4425A-4425B和电路互连4430A-4430B。在至少一个实施例中，一个或更多个MMU 4420A-4420B提供用于图形处理器4410的虚拟到物理地址的映射，包括用于顶点处理器4405和/或片段处理器4415A-4415N，其可以引用存储在存储器中的顶点或图像/纹理数据，除了存储在一个或更多个高速缓存4425A-4425B中的顶点或图像/纹理数据之外。在至少一个实施例中，一个或更多个MMU 4420A-4420B可以与系统内的其他MMU同步，包括与诸如本文所述的一个或更多个应用处理器2005、图像处理器2015和/或视频处理器(诸如本文描述的那些)相关联的一个或更多个MMU，使得每个处理器2005-2020可以参与共享或统一的虚拟存储器系统。在至少一个实施例中，一个或更多个电路互连4430A-4430B使图形处理器4410能够经由SoC的内部总线或经由直接连接与SoC内的其他IP核心相连接。

在至少一个实施例中，图形处理器4440包括图44A的图形处理器4410的一个或更多个MMU 4420A-4420B、高速缓存4425A-4425B和电路互连4430A-4430B。在至少一个实施例中，图形处理器4440包括一个或更多个着色器核心4455A-4455N(例如，4455A、4455B、4455C、4455D、4455E、4455F、至4455N-1和4455N)，其提供了统一的着色器核心架构，其中单个核心或类型或核心可以执行所有类型的可编程着色器代码，包括用于实现顶点着色器、片段着色器和/或计算着色器的着色器程序代码。在至少一个实施例中，多个着色器核心可以变化。在至少一个实施例中，图形处理器4440包括核心间任务管理器4445，其充当线程分派器以将执行线程分派给一个或更多个着色器核心4455A-4455N和分块单元4458，以加速基于图块渲染的分块操作，其中在图像空间中细分了场景的渲染操作，例如，以利用场景内的局部空间一致性或优化内部缓存的使用。

在至少一个实施例中，关于图44A和图44B所示或描述的至少一个组件用于执行结合图1-15描述的技术和/或功能。在至少一个实施例中，关于图44A和图44B所示或描述的至少一个组件用于使第一应用程序编程接口(API)选择第二API，以执行由第一API识别的一个或更多个软件工作负载。在至少一个实施例中，关于图44A和图44B所示或描述的至少一个组件用于执行第一应用程序编程接口(API)以选择第二API，以监控由第一API识别的一个或更多个软件工作负载的执行。在至少一个实施例中，关于图44A和图44B所示或描述的至少一个组件用于执行第一应用程序编程接口(API)以选择第二API，以终止由第一API识别的一个或更多个软件工作负载的执行。在至少一个实施例中，关于图44A和图44B所示或描述的至少一个组件用于执行关于框图100、框图200、过程300、框图400、过程500、过程600、过程700、框图800、框图900、框图1000、框图1100、过程1200、框图1300、框图1400、框图1500和/或本文所描述的其他系统、方法或操作描述的至少一个方面。

图45A示出了根据至少一个实施例的图形核心4500。在至少一个实施例中，图形核心4500可以包括在图39的图形处理器3910内。在至少一个实施例中，图形核心4500可以是图44B中统一的着色器核心4455A-4455N。在至少一个实施例中，图形核心4500包括共享指令高速缓存4502、纹理单元4518和高速缓存/共享存储器4520，它们是图形核心4500内的执行资源所共有的。在至少一个实施例中，图形核心4500可以包括多个切片(slice)4501A-4501N或每个核心的分区，图形处理器可以包括图形核心4500的多个实例。切片4501A-4501N可以包括支持逻辑，该支持逻辑包括本地指令高速缓存4504A-4504N、线程调度器4506A-4506N、线程分派器4508A-4508N和一组寄存器4510A-4510N。在至少一个实施例中，切片4501A-4501N可以包括一组附加功能单元(AFU)4512A-4512N、浮点单元(FPU)4514A-4514N、整数算术逻辑单元(ALU)4516A-4516N、地址计算单元(ACU)4513A-4513N、双精度浮点单元(DPFPU)

4515A-4515N和矩阵处理单元(MPU)4517A-4517N。

在一个实施例中，FPU 4514A-4514N可以执行单精度(32位)和半精度(16位)浮点运算，而DPFPU 4515A-4515N可以执行双精度(64位)浮点运算点操作。在至少一个实施例中，ALU 4516A-4516N可以以8位、16位和32位精度执行可变精度整数运算，并且可以被配置用于混合精度运算。在至少一个实施例中，MPU 4517A-4517N还可被配置用于混合精度矩阵运算，包括半精度浮点运算和8位整数运算。在至少一个实施例中，MPU 4517A-4517N可以执行各种矩阵操作以加速CUDA程序，包括使得能够支持加速的通用矩阵到矩阵乘法(GEMM)。在至少一个实施例中，AFU 4512A-4512N可以执行浮点数或整数单元不支持的附加逻辑运算，包括三角运算(例如，Sine、Cosine等)。

在至少一个实施例中，关于图45A所示或描述的至少一个组件用于执行结合图1-15描述的技术和/或功能。在至少一个实施例中，关于图45A所示或描述的至少一个组件用于使第一应用程序编程接口(API)选择第二API，以执行由第一API识别的一个或更多个软件工作负载。在至少一个实施例中，关于图45A所示或描述的至少一个组件用于执行第一应用程序编程接口(API)以选择第二API，以监控由第一API识别的一个或更多个软件工作负载的执行。在至少一个实施例中，关于图45A所示或描述的至少一个组件用于执行第一应用程序编程接口(API)以选择第二API，以终止由第一API识别的一个或更多个软件工作负载的执行。在至少一个实施例中，关于图45A所示或描述的至少一个组件用于执行关于框图100、框图200、过程300、框图400、过程500、过程600、过程700、框图800、框图900、框图1000、框图1100、过程1200、框图1300、框图1400、框图1500和/或本文所描述的其他系统、方法或操作描述的至少一个方面。

图45B示出了在至少一个实施例中的通用图形处理单元(GPGPU)4530。在至少一个实施例中，GPGPU 4530是高度并行的并且适合于部署在多芯片模块上。在至少一个实施例中，GPGPU 4530可以被配置为使得高度并行的计算操作能够由GPU阵列来执行。在至少一个实施例中，GPGPU 4530可以直接链路到GPGPU 4530的其他实例，以创建多GPU集群以提高用于CUDA程序的执行时间。在至少一个实施例中，GPGPU 4530包括主机接口4532以实现与主机处理器的连接。在至少一个实施例中，主机接口4532是PCIe接口。在至少一个实施例中，主机接口4532可以是厂商专用的通信接口或通信结构。在至少一个实施例中，GPGPU 4530从主机处理器接收命令，并使用全局调度器4534将与那些命令相关联的执行线程分派给一组计算集群4536A-4536H。在至少一个实施例中，计算集群4536A-4536H共享高速缓存存储器4538。在至少一个实施例中，高速缓存存储器4538可以用作计算集群4536A-4536H内的高速缓存存储器的高级高速缓存。

在至少一个实施例中，GPGPU 4530包括经由一组存储器控制器4542A-4542B与计算集群4536A-4536H耦合的存储器4544A-4544B。在至少一个实施例中，存储器4544A-4544B可以包括各种类型的存储器设备，包括动态随机存取存储器(DRAM)或图形随机存取存储器，例如同步图形随机存取存储器(SGRAM)，包括图形双倍数据速率(GDDR)存储器。

在至少一个实施例中，计算集群4536A-4536H各自包括一组图形核心，诸如图45A的图形核心4500，其可以包括多种类型的整数和浮点逻辑单元，可以以各种精度执行计算操作，包括适合与CUDA程序相关的计算。例如，在至少一个实施例中，每个计算集群4536A-4536H中的浮点单元的至少一个子集可以配置为执行16位或32位浮点运算，而不同的浮点单元的子集可以配置为执行64位浮点运算。

在至少一个实施例中，GPGPU 4530的多个实例可以被配置为操作为计算集群。在至少一个实施例中，计算集群4536A-4536H可以实现用于同步和数据交换的任何技术上可行的通信技术。在至少一个实施例中，GPGPU 4530的多个实例通过主机接口4532进行通信。在至少一个实施例中，GPGPU 4530包括I/O集线器4539，其将GPGPU 4530与GPU链路4540耦合，使得能够直接连接至GPGPU 4530的其他的实例。在至少一个实施例中，GPU链路4540耦合到专用GPU到GPU桥接器，其使得能够在GPGPU 4530的多个实例之间进行通信和同步。在至少一个实施例中，GPU链路4540与高速互连耦合，以向其他GPGPU 4530或并行处理器发送和接收数据。在至少一个实施例中，GPGPU 4530的多个实例位于单独的数据处理系统中，并经由可经由主机接口4532访问的网络设备进行通信。在至少一个实施例中，GPU链路4540可被配置为能够连接到主机处理器，附加或替代主机接口4532。在至少一个实施例中，GPGPU4530可以配置为执行CUDA程序。

在至少一个实施例中，关于图45B所示或描述的至少一个组件用于执行结合图1-15描述的技术和/或功能。在至少一个实施例中，关于图45B所示或描述的至少一个组件用于使第一应用程序编程接口(API)选择第二API，以执行由第一API识别的一个或更多个软件工作负载。在至少一个实施例中，关于图45B所示或描述的至少一个组件用于执行第一应用程序编程接口(API)以选择第二API，以监控由第一API识别的一个或更多个软件工作负载的执行。在至少一个实施例中，关于图45B所示或描述的至少一个组件用于执行第一应用程序编程接口(API)以选择第二API，以终止由第一API识别的一个或更多个软件工作负载的执行。在至少一个实施例中，关于图45B所示或描述的至少一个组件用于执行关于框图100、框图200、过程300、框图400、过程500、过程600、过程700、框图800、框图900、框图1000、框图1100、过程1200、框图1300、框图1400、框图1500和/或本文所描述的其他系统、方法或操作描述的至少一个方面。

图46A示出了根据至少一个实施例的并行处理器4600。在至少一个实施例中，并行处理器4600的各种组件可以使用一个或更多个集成电路设备来实现，例如可编程处理器、专用集成电路(ASIC)或FPGA。

在至少一个实施例中，并行处理器4600包括并行处理单元4602。在至少一个实施例中，并行处理单元4602包括I/O单元4604，其使得能够与其他设备进行通信，包括并行处理单元4602的其他实例。在至少一个实施例中，I/O单元4604可以直接连接到其他设备。在至少一个实施例中，I/O单元4604通过使用集线器或交换机接口(例如，存储器集线器2105)与其他设备连接。在至少一个实施例中，存储器集线器2105与I/O单元4604之间的连接形成通信链路。在至少一个实施例中，I/O单元4604与主机接口4606和存储器交叉开关4616连接，其中主机接口4606接收用于执行处理操作的命令，而存储器交叉开关4616接收用于执行存储器操作的命令。

在至少一个实施例中，当主机接口4606经由I/O单元4604接收命令缓冲区时，主机接口4606可以引导工作操作以执行那些命令到前端4608。在至少一个实施例中，前端4608与调度器4610耦合，调度器4610配置成将命令或其他工作项分配给处理阵列4612。在至少一个实施例中，调度器4610确保在将任务分配给处理阵列4612中的处理阵列4612之前，处理阵列4612被正确地配置并且处于有效状态。在至少一个实施例中，调度器4610通过在微控制器上执行的固件逻辑来实现。在至少一个实施例中，微控制器实现的调度器4610可配置成以粗粒度和细粒度执行复杂的调度和工作分配操作，从而实现对在处理阵列4612上执行的线程的快速抢占和环境切换。在至少一个实施例中，主机软件可以证明用于通过多个图形处理门铃之一在处理阵列4612上进行调度的工作负载。在至少一个实施例中，工作负载然后可以由包括调度器4610的微控制器内的调度器4610逻辑在处理阵列4612上自动分配。

在至少一个实施例中，处理阵列4612可以包括多达“N”个处理集群(例如，集群4614A、集群4614B到集群4614N)。在至少一个实施例中，处理阵列4612的每个集群4614A-4614N可以执行大量并发线程。在至少一个实施例中，调度器4610可以使用各种调度和/或工作分配算法将工作分配给处理阵列4612的集群4614A-4614N，其可以根据每种程序或计算类型产生的工作负载而变化。在至少一个实施例中，调度可以由调度器4610动态地处理，或者可以在配置为由处理阵列4612执行的程序逻辑的编译期间部分地由编译器逻辑来辅助。在至少一个实施例中，可将处理阵列4612的不同的集群4614A-4614N分配用于处理不同类型的程序或用于执行不同类型的计算。

在至少一个实施例中，处理阵列4612可以配置成执行各种类型的并行处理操作。在至少一个实施例中，处理阵列4612配置成执行通用并行计算操作。例如，在至少一个实施例中，处理阵列4612可以包括执行处理任务的逻辑，该处理任务包括对视频和/或音频数据的过滤，执行建模操作，包括物理操作以及执行数据转换。

在至少一个实施例中，处理阵列4612配置成执行并行图形处理操作。在至少一个实施例中，处理阵列4612可以包括附加逻辑以支持这种图形处理操作的执行，包括但不限于执行纹理操作的纹理采样逻辑，以及镶嵌逻辑和其他顶点处理逻辑。在至少一个实施例中，处理阵列4612可以配置成执行与图形处理有关的着色器程序，例如但不限于顶点着色器、曲面细分着色器、几何着色器和像素着色器。在至少一个实施例中，并行处理单元4602可以经由I/O单元4604从系统存储器传送数据以进行处理。在至少一个实施例中，在处理期间，可以在处理期间将传送的数据存储到片上存储器(例如，并行处理器内存4622)，然后将其写回到系统存储器。

在至少一个实施例中，当并行处理单元4602用于执行图处理时，调度器4610可以配置成将处理工作负载划分为近似相等大小的任务，以更好地将图形处理操作分配给处理阵列4612的多个集群4614A-4614N。在至少一个实施例中，处理阵列4612的部分可以配置成执行不同类型的处理。例如，在至少一个实施例中，第一部分可以配置成执行顶点着色和拓扑生成，第二部分可以配置成执行镶嵌和几何着色，并且第三部分可以配置成执行像素着色或其他屏幕空间操作，以生成用于显示的渲染图像。在至少一个实施例中，可以将由集群4614A-4614N中的一个或更多个产生的中间数据存储在缓冲区中，以允许在集群4614A-4614N之间传输中间数据以进行进一步处理。

在至少一个实施例中，处理阵列4612可以经由调度器4610接收要执行的处理任务，该调度器4610从前端4608接收定义处理任务的命令。在至少一个实施例中，处理任务可以包括要被处理的数据的索引，例如可以包括表面(补丁)数据、原始数据、顶点数据和/或像素数据，以及状态参数和定义如何处理数据的命令(例如，要执行什么程序)。在至少一个实施例中，调度器4610可以配置成获取与任务相对应的索引，或者可以从前端4608接收索引。在至少一个实施例中，前端4608可以配置成确保在启动由传入命令缓冲区(例如，批缓冲区(batch-buffer)、推送缓冲区等)指定的工作负载之前，处理阵列4612配置成有效状态。

在至少一个实施例中，并行处理单元4602的一个或更多个实例中的每一个可以与并行处理器内存4622耦合。在至少一个实施例中，可以经由存储器交叉开关4616访问并行处理器内存4622，所述存储器交叉开关4616可以接收来自处理阵列4612以及I/O单元4604的存储器请求。在至少一个实施例中，存储器交叉开关4616可以经由存储器接口4618访问并行处理器内存4622。在至少一个实施例中，存储器接口4618可以包括多个分区单元(例如，分区单元4620A、分区单元4620B到分区单元4620N)，其可各自耦合至并行处理器内存4622的一部分(例如，存储器单元)。在至少一个实施例中，多个分区单元4620A-4620N为配置为等于存储器单元的数量，使得第一分区单元4620A具有对应的第一存储器单元4624A，第二分区单元4620B具有对应的存储器单元4624B，第N分区单元4620N具有对应的第N存储器单元4624N。在至少一个实施例中，分区单元4620A-4620N的数量可以不等于存储器设备的数量。

在至少一个实施例中，存储器单元4624A-4624N可以包括各种类型的存储器设备，包括动态随机存取存储器(DRAM)或图形随机存取存储器，例如同步图形随机存取存储器(SGRAM)，包括图形双倍数据速率(GDDR)存储器。在至少一个实施例中，存储器单元4624A-4624N还可包括3D堆叠存储器，包括但不限于高带宽存储器(HBM)。在至少一个实施例中，可以跨存储器单元4624A-4624N来存储诸如帧缓冲区或纹理映射的渲染目标，从而允许分区单元4620A-4620N并行地写入每个渲染目标的部分，以有效地使用并行处理器内存4622的可用带宽。在至少一个实施例中，可以排除并行处理器内存4622的本地实例，以有利于利用系统存储器与本地高速缓存存储器结合的统一存储器设计。

在至少一个实施例中，处理阵列4612的集群4614A-4614N中的任何一个都可以处理将被写入并行处理器内存4622内的任何存储器单元4624A-4624N中的数据。在至少一个实施例中，存储器交叉开关4616可以配置为将每个集群4614A-4614N的输出传输到任何分区单元4620A-4620N或另一个集群4614A-4614N，集群4614A-4614N可以对输出执行其他处理操作。在至少一个实施例中，每个集群4614A-4614N可以通过存储器交叉开关4616与存储器接口4618通信，以从各种外部存储设备读取或写入各种外部存储设备。在至少一个实施例中，存储器交叉开关4616具有到存储器接口4618的连接以与I/O单元4604通信，以及到并行处理器内存4622的本地实例的连接，从而使不同处理集群4614A-4614N内的处理单元与系统存储器或不是并行处理单元4602本地的其他存储器进行通信。在至少一个实施例中，存储器交叉开关4616可以使用虚拟通道来分离集群4614A-4614N和分区单元4620A-4620N之间的业务流。

在至少一个实施例中，可以在单个插入卡上提供并行处理单元4602的多个实例，或者可以将多个插入卡互连。在至少一个实施例中，并行处理单元4602的不同实例可以配置成相互操作，即使不同实例具有不同数量的处理核心，不同数量的本地并行处理器内存和/或其他配置差异。例如，在至少一个实施例中，并行处理单元4602的一些实例可以包括相对于其他实例而言更高精度的浮点单元。在至少一个实施例中，结合并行处理单元4602或并行处理器4600的一个或更多个实例的系统可以以各种配置和形式因素来实现，包括但不限于台式机、膝上型计算机或手持式个人计算机、服务器、工作站、游戏机和/或嵌入式系统。

在至少一个实施例中，关于图46A所示或描述的至少一个组件用于执行结合图1-15描述的技术和/或功能。在至少一个实施例中，关于图46A所示或描述的至少一个组件用于使第一应用程序编程接口(API)选择第二API，以执行由第一API识别的一个或更多个软件工作负载。在至少一个实施例中，关于图46A所示或描述的至少一个组件用于执行第一应用程序编程接口(API)以选择第二API，以监控由第一API识别的一个或更多个软件工作负载的执行。在至少一个实施例中，关于图46A所示或描述的至少一个组件用于执行第一应用程序编程接口(API)以选择第二API，以终止由第一API识别的一个或更多个软件工作负载的执行。在至少一个实施例中，关于图46A所示或描述的至少一个组件用于执行关于框图100、框图200、过程300、框图400、过程500、过程600、过程700、框图800、框图900、框图1000、框图1100、过程1200、框图1300、框图1400、框图1500和/或本文所描述的其他系统、方法或操作描述的至少一个方面。

图46B示出了根据至少一个实施例的处理集群4694。在至少一个实施例中，处理集群4694被包括在并行处理单元内。在至少一个实施例中，处理集群4694是图46A的处理集群4614A-4614N之一的实例。在至少一个实施例中，处理集群4694可以配置成并行执行许多线程，其中术语“线程”是指在特定的一组输入数据上执行的特定程序的实例。在至少一个实施例中，单指令多数据(SIMD)指令发布技术用于支持大量线程的并行执行而无需提供多个独立的指令单元。在至少一个实施例中，使用单指令多线程(SIMT)技术来支持并行执行大量一般同步的线程，这使用了公共指令单元，该公共指令单元配置成向每个处理集群4694内的一组处理引擎发出指令。

在至少一个实施例中，可以通过将处理任务分配给SIMT并行处理器的管线管理器4632来控制处理集群4694的操作。在至少一个实施例中，管线管理器4632从图46A的调度器4610接收指令，通过图形多处理器4634和/或纹理单元4636管理这些指令的执行。在至少一个实施例中，图形多处理器4634是SIMT并行处理器的示例性实例。然而，在至少一个实施例中，处理集群4694内可以包括不同架构的各种类型的SIMT并行处理器。在至少一个实施例中，在处理集群4694内可以包括图形多处理器4634的一个或更多个实例。在至少一个实施例中，图形多处理器4634可以处理数据，并且数据交叉开关4640可以用于将处理后的数据分发到多个可能的目的(包括其他着色器单元)地之一。在至少一个实施例中，管线管理器4632可以通过指定要经由数据交叉开关4640分配的处理后的数据的目的地来促进处理后的数据的分配。

在至少一个实施例中，处理集群4694内的每个图形多处理器4634可以包括相同的一组功能执行逻辑(例如，算术逻辑单元、加载存储单元(LSU)等)。在至少一个实施例中，可以以管线方式配置功能执行逻辑，其中可以在先前的指令完成之前发出新的指令。在至少一个实施例中，功能执行逻辑支持多种运算，包括整数和浮点算术、比较操作、布尔运算、移位和各种代数函数的计算。在至少一个实施例中，可以利用相同的功能单元硬件来执行不同的操作，并且可以存在功能单元的任何组合。

在至少一个实施例中，传送到处理集群4694的指令构成线程。在至少一个实施例中，跨一组并行处理引擎执行的一组线程是线程组。在至少一个实施例中，线程组在不同的输入数据上执行程序。在至少一个实施例中，线程组内的每个线程可被分配给图形多处理器4634内的不同处理引擎。在至少一个实施例中，线程组可包括比图形多处理器4634内的多个处理引擎更少的线程。在至少一个实施例中，当线程组包括的线程数少于处理引擎的数量时，一个或更多个处理引擎在正在处理该线程组的循环期间可能是空闲的。在至少一个实施例中，线程组还可以包括比图形多处理器4634内的多个处理引擎更多的线程。在至少一个实施例中，当线程组包括比图形多处理器4634内的处理引擎的数量更多的线程时，可以在连续的时钟周期内执行处理。在至少一个实施例中，可以在图形多处理器4634上同时执行多个线程组。

在至少一个实施例中，图形多处理器4634包括内部高速缓存存储器，以执行加载和存储操作。在至少一个实施例中，图形多处理器4634可以放弃内部高速缓存并使用处理集群4694内的高速缓存存储器(例如，L1高速缓存4648)。在至少一个实施例中，每个图形多处理器4634还可以访问分区单元(例如，图46A的分区单元4620A-4620N)内的L2高速缓存，这些分区单元在所有处理集群4694之间共享并且可以用于在线程之间传输数据。在至少一个实施例中，图形多处理器4634还可以访问片外全局存储器，其可以包括本地并行处理器内存和/或系统存储器中的一个或更多个。在至少一个实施例中，并行处理单元4602外部的任何存储器都可以用作全局存储器。在至少一个实施例中，处理集群4694包括图形多处理器4634的多个实例，它们可以共享可以存储在L1高速缓存4648中的公共指令和数据。

在至少一个实施例中，每个处理集群4694可以包括配置成将虚拟地址映射为物理地址的MMU 4645。在至少一个实施例中，MMU 4645的一个或更多个实例可以驻留在图46A的存储器接口4618内。在至少一个实施例中，MMU 4645包括一组页表条目(PTE)，其用于将虚拟地址映射到图块(谈论有关图块的更多信息)的物理地址以及可选地映射到高速缓存行索引。在至少一个实施例中，MMU 4645可以包括地址转换后备缓冲区(TLB)或可以驻留在图形多处理器4634或L1高速缓存4648或处理集群4694内的高速缓存。在至少一个实施例中，处理物理地址以分配表面数据访问局部性，以便在分区单元之间进行有效的请求交织。在至少一个实施例中，高速缓存行索引可以用于确定对高速缓存线的请求是命中还是未命中。

在至少一个实施例中，可以配置处理集群4694，使得每个图形多处理器4634耦合到纹理单元4636，以执行纹理映射操作，例如，可以涉及确定纹理样本位置、读取纹理数据以及过滤纹理数据。在至少一个实施例中，根据需要从内部纹理L1高速缓存(未示出)或从图形多处理器4634内的L1高速缓存中读取纹理数据，并从L2高速缓存、本地并行处理器内存或系统存储器中获取纹理数据。在至少一个实施例中，每个图形多处理器4634将处理后的任务输出到数据交叉开关4640，以将处理后的任务提供给另一处理集群4694以进行进一步处理或将处理后的任务存储在L2高速缓存、本地并行处理器内存、或经由存储器交叉开关4616的系统存储器中。在至少一个实施例中，光栅前操作单元(preROP)4642配置成从图形多处理器4634接收数据，将数据引导至ROP单元，该ROP单元可以与本文所述的分区单元(例如，图46A的分区单元4620A-4620N)一起定位。在至少一个实施例中，PreROP 4642单元可以执行用于颜色混合的优化、组织像素颜色数据以及执行地址转换。

在至少一个实施例中，关于图46B所示或描述的至少一个组件用于执行结合图1-15描述的技术和/或功能。在至少一个实施例中，关于图46B所示或描述的至少一个组件用于使第一应用程序编程接口(API)选择第二API，以执行由第一API识别的一个或更多个软件工作负载。在至少一个实施例中，关于图46B所示或描述的至少一个组件用于执行第一应用程序编程接口(API)以选择第二API，以监控由第一API识别的一个或更多个软件工作负载的执行。在至少一个实施例中，关于图46B所示或描述的至少一个组件用于执行第一应用程序编程接口(API)以选择第二API，以终止由第一API识别的一个或更多个软件工作负载的执行。在至少一个实施例中，关于图46B所示或描述的至少一个组件用于执行关于框图100、框图200、过程300、框图400、过程500、过程600、过程700、框图800、框图900、框图1000、框图1100、过程1200、框图1300、框图1400、框图1500和/或本文所描述的其他系统、方法或操作描述的至少一个方面。

图46C示出了根据至少一个实施例的图形多处理器4696。在至少一个实施例中，图形多处理器4696是图46B的图形多处理器4634。在至少一个实施例中，图形多处理器4696与处理集群4694的管线管理器4632耦合。在至少一个实施例中，图形多处理器4696具有执行管线，该执行管线包括但不限于指令高速缓存4652、指令单元4654、地址映射单元4656、寄存器文件4658、一个或更多个GPGPU核心4662和一个或更多个LSU 4666。GPGPU核心4662和LSU 4666与高速缓存存储器4672和共享存储器4670通过存储器和高速缓存互连4668耦合。

在至少一个实施例中，指令高速缓存4652从管线管理器4632接收要执行的指令流。在至少一个实施例中，将指令高速缓存在指令高速缓存4652中并将其分派以供指令单元4654执行。在一个实施例中，指令单元4654可以分派指令作为线程组(例如，线程束)，将线程组的每个线程分配给GPGPU核心4662内的不同执行单元。在至少一个实施例中，指令可以通过在统一地址空间内指定地址来访问任何本地、共享或全局地址空间。在至少一个实施例中，地址映射单元4656可以用于将统一地址空间中的地址转换成可以由LSU 4666访问的不同的存储器地址。

在至少一个实施例中，寄存器文件4658为图形多处理器4696的功能单元提供了一组寄存器。在至少一个实施例中，寄存器文件4658为连接到图形多处理器4696的功能单元(例如，GPGPU核心4662、LSU 4666)的数据路径的操作数提供了临时存储。在至少一个实施例中，在每个功能单元之间划分寄存器文件4658，使得为每个功能单元分配寄存器文件4658的专用部分。在至少一个实施例中，寄存器文件4658在图形多处理器4696正在执行的不同线程组之间划分。

在至少一个实施例中，GPGPU核心4662可以各自包括用于执行图多处理器4696的指令的FPU和/或ALU。GPGPU核心4662在架构上可以相似或架构可能有所不同。在至少一个实施例中，GPGPU核心4662的第一部分包括单精度FPU和整数ALU，而GPGPU核心4662的第二部分包括双精度FPU。在至少一个实施例中，FPU可以实现用于浮点算法的IEEE 754-2008标准或启用可变精度浮点算法。在至少一个实施例中，图形多处理器4696可以另外包括一个或更多个固定功能或特殊功能单元，以执行特定功能，诸如复制矩形或像素混合操作。在至少一个实施例中，GPGPU核心4662中的一个或更多个也可以包括固定或特殊功能逻辑。

在至少一个实施例中，GPGPU核心4662包括能够对多组数据执行单个指令的SIMD逻辑。在至少一个实施例中，GPGPU核心4662可以物理地执行SIMD4、SIMD8和SIMD16指令，并且在逻辑上执行SIMD1、SIMD2和SIMD32指令。在至少一个实施例中，用于GPGPU核心4662的SIMD指令可以在编译时由着色器编译器生成，或者在执行针对单程序多数据(SPMD)或SIMT架构编写和编译的程序时自动生成。在至少一个实施例中，可以通过单个SIMD指令来执行为SIMT执行模型配置的程序的多个线程。例如，在至少一个实施例中，可以通过单个SIMD8逻辑单元并行执行执行相同或相似操作的八个SIMT线程。

在至少一个实施例中，存储器和高速缓存互连4668是将图形多处理器4696的每个功能单元连接到寄存器文件4658和共享存储器4670的互连网络。在至少一个实施例中，存储器和高速缓存互连4668是交叉开关互连，其允许LSU 4666在共享存储器4670和寄存器文件4658之间实现加载和存储操作。在至少一个实施例中，寄存器文件4658可以以与GPGPU核心4662相同的频率操作，从而在GPGPU核心4662和寄存器文件4658之间进行数据传输的延迟非常低。在至少一个实施例中，共享存储器4670可以用于启用在图形多处理器4696内的功能单元上执行的线程之间的通信。在至少一个实施例中，例如，高速缓存存储器4672可以用作数据高速缓存，以高速缓存在功能单元和纹理单元4636之间通信的纹理数据。在至少一个实施例中，共享存储器4670也可以用作程序管理的高速缓存。在至少一个实施例中，除了存储在高速缓存存储器4672中的自动高速缓存的数据之外，在GPGPU核心4662上执行的线程还可以以编程方式将数据存储在共享存储器中。

在至少一个实施例中，如本文所述的并行处理器或GPGPU通信地耦合到主机/处理器核心，以加速图形操作、机器学习操作、图案分析操作以及各种通用GPU(GPGPU)功能。在至少一个实施例中，GPU可以通过总线或其他互连(例如，诸如PCIe或NVLink的高速互连)通信地耦合到主机处理器/核心。在至少一个实施例中，GPU可以与核心集成在相同的封装或芯片上，并通过内部处理器总线/互连(即，封装或芯片的内部)通信地耦合到核心。在至少一个实施例中，不管GPU连接的方式如何，处理器核心可以以WD包含的命令/指令序列的形式向GPU分配工作。在至少一个实施例中，GPU然后使用专用电路/逻辑来有效地处理这些命令/指令。

在至少一个实施例中，关于图46C所示或描述的至少一个组件用于执行结合图1-15描述的技术和/或功能。在至少一个实施例中，关于图46C所示或描述的至少一个组件用于使第一应用程序编程接口(API)选择第二API，以执行由第一API识别的一个或更多个软件工作负载。在至少一个实施例中，关于图46C所示或描述的至少一个组件用于执行第一应用程序编程接口(API)以选择第二API，以监控由第一API识别的一个或更多个软件工作负载的执行。在至少一个实施例中，关于图46C所示或描述的至少一个组件用于执行第一应用程序编程接口(API)以选择第二API，以终止由第一API识别的一个或更多个软件工作负载的执行。在至少一个实施例中，关于图46C所示或描述的至少一个组件用于执行关于框图100、框图200、过程300、框图400、过程500、过程600、过程700、框图800、框图900、框图1000、框图1100、过程1200、框图1300、框图1400、框图1500和/或本文所描述的其他系统、方法或操作描述的至少一个方面。

通用计算

以下各图阐述但不限于在通用计算中用来实现至少一个实施例的示例性软件配置。

图47示出了根据至少一个实施例的编程平台的软件栈。在至少一个实施例中，编程平台是用于利用计算系统上的硬件来加速计算任务的平台。在至少一个实施例中，软件开发人员可以通过库、编译器指令和/或对编程语言的扩展来访问编程平台。在至少一个实施例中，编程平台可以是但不限于CUDA，Radeon开放计算平台(“ROCm”)，OpenCL(由Khronosgroup开发的OpenCL^TM)，SYCL或Intel One API。

在至少一个实施例中，编程平台的软件栈4700为应用程序4701提供执行环境。在至少一个实施例中，应用程序4701可以包括能够在软件栈4700上启动的任何计算机软件。在至少一个实施例中，应用程序4701可以包括但不限于人工智能(“AI”)/机器学习(“ML”)应用程序，高性能计算(“HPC”)应用程序，虚拟桌面基础架构(“VDI”)或数据中心工作负载。

在至少一个实施例中，应用程序4701和软件栈4700在硬件4707上运行。在至少一个实施例中，硬件4707可以包括一个或更多个GPU，CPU，FPGA，AI引擎和/或支持编程平台的其他类型的计算设备。在至少一个实施例中，例如采用CUDA，软件栈4700可以是厂商专用的，并且仅与来自特定厂商的设备兼容。在至少一个实施例中，例如在采用OpenCL中，软件栈4700可以与来自不同供应商的设备一起使用。在至少一个实施例中，硬件4707包括连接到一个或更多个设备的主机，该设备可经由应用程序编程接口(API)调用被访问以执行计算任务。在至少一个实施例中，与硬件4707内的主机相比，其可以包括但不限于CPU(但还可以包括计算设备)及其存储器，硬件4707内的设备可以包括但不限于GPU，FPGA，AI引擎或其他计算设备(但还可以包括CPU)及其存储器。

在至少一个实施例中，编程平台的软件栈4700包括但不限于多个库4703，运行时(runtime)4705和设备内核驱动器4706。在至少一个实施例中，库4703中的每个库可以包括可以由计算机程序使用并在软件开发期间利用的数据和编程代码。在至少一个实施例中，库4703可以包括但不限于预写的代码和子例程，类，值，类型规范，配置数据，文档，帮助数据和/或消息模板。在至少一个实施例中，库4703包括被优化用于在一种或更多种类型的设备上执行的函数。在至少一个实施例中，库4703可以包括但不限于用于在设备上执行数学、深度学习和/或其他类型的运算的函数。在至少一个实施例中，库4803与对应的API 4802相关联，API 4802可包括一个或更多个API，其暴露在库4803中实现的函数。

在至少一个实施例中，将应用程序4701编写为源代码，该源代码被编译成可执行代码，如下面结合图52更详细讨论的。在至少一个实施例中，应用程序4701的可执行代码可以至少部分地在由软件栈4700提供的执行环境上运行。在至少一个实施例中，在应用程序4701的执行期间，可以得到需要在设备(与主机相比)上运行的代码。在这种情况下，在至少一个实施例中，可以调用运行时4705以在设备上加载和启动必需的代码。在至少一个实施例中，运行时4705可以包括能够支持应用程序4701的执行的任何技术上可行的运行时系统。

在至少一个实施例中，运行时4705被实现为与对应的API(其被示为API 4704)相关联的一个或更多个运行时库。在至少一个实施例中，一个或更多个这样的运行时库可以包括但不限于用于存储器管理，执行控制，设备管理，错误处理和/或同步等等的函数。在至少一个实施例中，存储器管理函数可以包括但不限于用于分配、解除分配和复制设备存储器以及在主机存储器和设备存储器之间传输数据的函数。在至少一个实施例中，执行控制函数可以包括但不限于在设备上启动函数(当函数是可从主机调用的全局函数时，有时称为“内核”)的函数，和用于在运行时库为要在设备上执行的给定函数维护的缓冲区中设置属性值的函数。

在至少一个实施例中，可以任何技术上可行的方式来实现运行时库和相应的API4704。在至少一个实施例中，一个(或任意数量的)API可以公开用于设备的细粒度控制的低级函数集，而另一(或任意数量的)API可以公开这样的较高级的函数集。在至少一个实施例中，可以在低级API之上构建高级运行时API。在至少一个实施例中，一个或更多个运行时API可以是在与语言无关的运行时API之上分层的特定于语言的API。

在至少一个实施例中，设备内核驱动器4706被配置为促进与底层设备的通信。在至少一个实施例中，设备内核驱动器4706可以提供诸如API 4704之类的API和/或其他软件所依赖的低级函数。在至少一个实施例中，设备内核驱动器4706可以被配置为在运行时将中间表示(“IR”)代码编译成二进制代码。在至少一个实施例中，对于CUDA，设备内核驱动器4706可以在运行时将非硬件专用的并行线程执行(“PTX”)IR代码编译为用于特定目标设备的二进制代码(高速缓存已编译的二进制代码)，其有时也称为“最终”代码。在至少一个实施例中，这样做可以允许最终代码在目标设备上运行，而当源代码最初被编译为PTX代码时，该目标设备可能不存在。备选地，在至少一个实施例中，设备源代码可以离线地编译成二进制代码，而不需要设备内核驱动器4706在运行时编译IR代码。

在至少一个实施例中，关于图47所示或描述的至少一个组件用于执行结合图1-15描述的技术和/或功能。在至少一个实施例中，关于图47所示或描述的至少一个组件用于使第一应用程序编程接口(API)选择第二API，以执行由第一API识别的一个或更多个软件工作负载。在至少一个实施例中，关于图47所示或描述的至少一个组件用于执行第一应用程序编程接口(API)以选择第二API，以监控由第一API识别的一个或更多个软件工作负载的执行。在至少一个实施例中，关于图47所示或描述的至少一个组件用于执行第一应用程序编程接口(API)以选择第二API，以终止由第一API识别的一个或更多个软件工作负载的执行。在至少一个实施例中，关于图47所示或描述的至少一个组件用于执行关于框图100、框图200、过程300、框图400、过程500、过程600、过程700、框图800、框图900、框图1000、框图1100、过程1200、框图1300、框图1400、框图1500和/或本文所描述的其他系统、方法或操作描述的至少一个方面。

图48示出了根据至少一个实施例的图47的软件栈4700的CUDA实现。在至少一个实施例中，可在其上启动应用程序4801的CUDA软件栈4800包括CUDA库4803，CUDA运行时4805，CUDA驱动器4807和设备内核驱动器4808。在至少一个实施例中，CUDA软件栈4800在硬件4809上执行，该硬件4809可以包括支持CUDA的GPU，其由加利福尼亚州圣克拉拉市的NVIDIA公司开发。

在至少一个实施例中，应用程序4801、CUDA运行时4805和设备内核驱动器4808可以分别执行与应用程序4701、运行时4705和设备内核驱动器4706类似的功能，以上结合图47对其进行了描述。在至少一个实施例中，CUDA驱动器4807包括实现CUDA驱动器API 4806的库(libcuda.so)。在至少一个实施例中，类似于由CUDA运行时库(cudart)实现的CUDA运行时API 4804，CUDA驱动器API 4806可以公开但不限于用于存储器管理、执行控制、设备管理、错误处理、同步和/或图形互操作性等的函数。在至少一个实施例中，CUDA驱动器API4806与CUDA运行时API 4804的不同之处在于，CUDA运行时API 4804通过提供隐式初始化、上下文(类似于进程)管理和模块(类似于动态加载的库)管理来简化设备代码管理。与高级CUDA运行时API 4804相反，在至少一个实施例中，CUDA驱动器API 4806是提供对设备的更细粒度控制的低级API，特别是关于上下文和模块加载。在至少一个实施例中，CUDA驱动器API 4806可以公开没有由CUDA运行时API 4804公开的用于上下文管理的函数。在至少一个实施例中，CUDA驱动器API 4806也与语言无关，并且除了支持CUDA运行时API 4804之外，还支持例如OpenCL。此外，在至少一个实施例中，包括CUDA运行时4805在内的开发库可被视为与驱动器组件分离，包括用户模式的CUDA驱动器4807和内核模式的设备驱动器4808(有时也称为“显示”驱动器)。

在至少一个实施例中，CUDA库4803可以包括但不限于数学库，深度学习库，并行算法库和/或信号/图像/视频处理库，并行计算应用程序(例如应用程序4801)可以利用这些库。在至少一个实施例中，CUDA库4803可包括数学库，例如cuBLAS库，其是用于执行线性代数运算的基本线性代数子程序(“BLAS”)的实现；用于计算快速傅立叶变换(“FFT”)的cuFFT库，以及用于生成随机数的cuRAND库等。在至少一个实施例中，CUDA库4803可以包括深度学习库，诸如用于深度神经网络的基元的cuDNN库和用于高性能深度学习推理的TensorRT平台等等。

在至少一个实施例中，关于图48所示或描述的至少一个组件用于执行结合图1-15描述的技术和/或功能。在至少一个实施例中，关于图48所示或描述的至少一个组件用于使第一应用程序编程接口(API)选择第二API，以执行由第一API识别的一个或更多个软件工作负载。在至少一个实施例中，关于图48所示或描述的至少一个组件用于执行第一应用程序编程接口(API)以选择第二API，以监控由第一API识别的一个或更多个软件工作负载的执行。在至少一个实施例中，关于图48所示或描述的至少一个组件用于执行第一应用程序编程接口(API)以选择第二API，以终止由第一API识别的一个或更多个软件工作负载的执行。在至少一个实施例中，关于图48所示或描述的至少一个组件用于执行关于框图100、框图200、过程300、框图400、过程500、过程600、过程700、框图800、框图900、框图1000、框图1100、过程1200、框图1300、框图1400、框图1500和/或本文所描述的其他系统、方法或操作描述的至少一个方面。

图49示出了根据至少一个实施例的图47的软件栈4700的ROCm实现。在至少一个实施例中，可在其上启动应用程序4901的ROCm软件栈4900包括语言运行时4903、系统运行时4905、thunk 4907、ROCm内核驱动器4908和设备内核驱动器4909。在至少一个实施例中，ROCm软件栈4900在硬件4910上执行，硬件4910可以包括支持ROCm的GPU，其由加利福尼亚州圣克拉拉市的AMD公司开发。

在至少一个实施例中，应用程序4901可以执行与以上结合图47讨论的应用程序4701类似的功能。另外，在至少一个实施例中，语言运行时4903和系统运行时4905可以执行与以上结合图47讨论的运行时4705类似的功能。在至少一个实施例中，语言运行时4903和系统运行时4905的不同之处在于，系统运行时4905是实现ROCr系统运行时API 4904并利用异构系统架构(“HAS”)运行时API的语言无关运行时。在至少一个实施例中，HAS运行时API是一种瘦用户模式API，它公开接口以供访问和与AMD GPU交互，包括用于存储器管理、通过架构分派内核的执行控制、错误处理、系统和代理信息以及运行时初始化和关闭等的函数。在至少一个实施例中，与系统运行时4905相比，语言运行时4903是ROCr系统运行时API4904之上分层的特定于语言的运行时API 4902的实现。在至少一个实施例中，语言运行时API可以包括但不限于可移植异构计算接口(“HIP”)语言运行时API，异构计算编译器(“HCC”)语言运行时API或OpenCL API等等。特别是，HIP语言是C++编程语言的扩展，具有CUDA机制的功能相似版本，并且在至少一个实施例中，HIP语言运行时API包括与以上结合图48讨论的CUDA运行时API 4804相似的函数，例如用于存储器管理、执行控制、设备管理、错误处理和同步等的函数。

在至少一个实施例中，thunk(ROCt)4907是可用于与底层ROCm驱动器4908交互的接口。在至少一个实施例中，ROCm驱动器4908是ROCk驱动器，其是AMDGPU驱动器和HAS内核驱动器(amdkfd)的组合。在至少一个实施例中，AMDGPU驱动器是由AMD开发的用于GPU的设备内核驱动器，其执行与以上结合图47讨论的设备内核驱动器4706类似的功能。在至少一个实施例中，HAS内核驱动器是允许不同类型的处理器经由硬件特征更有效地共享系统资源的驱动器。

在至少一个实施例中，各种库(未示出)可以被包括在语言运行时4903上方的ROCm软件栈4900中，并且提供与以上结合图48讨论的CUDA库4803相似的功能。在至少一个实施例中，各种库可以包括但不限于数学、深度学习和/或其他库，例如实现与CUDA cuBLAS类似的函数的hipBLAS库，类似于CUDA cuFFT用于计算FFT的rocFFT库等。

在至少一个实施例中，关于图49所示或描述的至少一个组件用于执行结合图1-15描述的技术和/或功能。在至少一个实施例中，关于图49所示或描述的至少一个组件用于使第一应用程序编程接口(API)选择第二API，以执行由第一API识别的一个或更多个软件工作负载。在至少一个实施例中，关于图49所示或描述的至少一个组件用于执行第一应用程序编程接口(API)以选择第二API，以监控由第一API识别的一个或更多个软件工作负载的执行。在至少一个实施例中，关于图49所示或描述的至少一个组件用于执行第一应用程序编程接口(API)以选择第二API，以终止由第一API识别的一个或更多个软件工作负载的执行。在至少一个实施例中，关于图49所示或描述的至少一个组件用于执行关于框图100、框图200、过程300、框图400、过程500、过程600、过程700、框图800、框图900、框图1000、框图1100、过程1200、框图1300、框图1400、框图1500和/或本文所描述的其他系统、方法或操作描述的至少一个方面。

图50示出了根据至少一个实施例的图47的软件栈4700的OpenCL实现。在至少一个实施例中，可以在其上启动应用程序5001的OpenCL软件栈5000包括OpenCL框架5009、OpenCL运行时5006和驱动器5007。在至少一个实施例中，OpenCL软件栈5000在不是特定于供应商的硬件4809上执行。在至少一个实施例中，由于由不同厂商开发的设备支持OpenCL，因此可能需要特定的OpenCL驱动器才能与来自此类厂商的硬件进行互操作。

在至少一个实施例中，应用程序5001、OpenCL运行时5006、设备内核驱动器5007和硬件5008可以分别执行与上面结合图47讨论的应用程序4701、运行时4705、设备内核驱动器4706和硬件4707类似的功能。在至少一个实施例中，应用程序5001还包括具有将在设备上执行的代码的OpenCL内核5002。

在至少一个实施例中，OpenCL定义了一种“平台”，其允许主机控制连接到该主机的设备。在至少一个实施例中，OpenCL框架提供平台层API和运行时API，示出为平台API5003和运行时API 5005。在至少一个实施例中，运行时API 5005使用上下文来管理设备上内核的执行。在至少一个实施例中，每个标识的设备可以与各自的上下文相关联，运行时API 5005可以使用该上下文来管理该设备的命令队列、程序对象和内核对象、共享存储器对象等。在至少一个实施例中，平台API 5003公开了允许设备上下文用于选择和初始化设备，经由命令队列将工作提交给设备，以及使得能够进行来自和去往设备的数据传输等的函数。另外，在至少一个实施例中，OpenCL框架提供各种内置函数(未示出)，包括数学函数、关系函数和图像处理函数等。

在至少一个实施例中，编译器5004也被包括在OpenCL框架5009中。在至少一个实施例中，源代码可以在执行应用程序之前被离线编译或者在执行应用程序期间被在线编译。与CUDA和ROCm相反，至少一个实施例中的OpenCL应用程序可以由编译器5004在线编译，编译器5004被包括以代表可以用于将源代码和/或IR代码(例如标准可移植中间表示(“SPIR-V”)代码)编译为二进制代码的任意数量的编译器。可替代地，在至少一个实施例中，可以在执行这样的应用程序之前离线编译OpenCL应用程序。

在至少一个实施例中，关于图50所示或描述的至少一个组件用于执行结合图1-15描述的技术和/或功能。在至少一个实施例中，关于图50所示或描述的至少一个组件用于使第一应用程序编程接口(API)选择第二API，以执行由第一API识别的一个或更多个软件工作负载。在至少一个实施例中，关于图50所示或描述的至少一个组件用于执行第一应用程序编程接口(API)以选择第二API，以监控由第一API识别的一个或更多个软件工作负载的执行。在至少一个实施例中，关于图50所示或描述的至少一个组件用于执行第一应用程序编程接口(API)以选择第二API，以终止由第一API识别的一个或更多个软件工作负载的执行。在至少一个实施例中，关于图50所示或描述的至少一个组件用于执行关于框图100、框图200、过程300、框图400、过程500、过程600、过程700、框图800、框图900、框图1000、框图1100、过程1200、框图1300、框图1400、框图1500和/或本文所描述的其他系统、方法或操作描述的至少一个方面。

图51示出了根据至少一个实施例的由编程平台支持的软件。在至少一个实施例中，编程平台5104被配置为支持应用程序5100可以依赖的各种编程模型5103，中间件和/或库5102以及框架5101。在至少一个实施例中，应用程序5100可以是使用例如深度学习框架(例如，MXNet，PyTorch或TensorFlow)实现的AI/ML应用，其可以依赖于诸如cuDNN，NVIDIACollective Communications Library(“NCCL”)”和/或NVIDIA开发人员数据加载库(“DALI”)CUDA库之类的库，以在底层硬件上提供加速的计算。

在至少一个实施例中，编程平台5104可以是以上分别结合图48、图49和图50描述的CUDA、ROCm或OpenCL平台之一。在至少一个实施例中，编程平台5104支持多个编程模型5103，其是底层计算系统的抽象，其允许算法和数据结构的表达。在至少一个实施例中，编程模型5103可以暴露底层硬件的特征以便改善性能。在至少一个实施例中，编程模型5103可以包括但不限于CUDA，HIP，OpenCL，C++加速大规模并行性(“C++AMP”)，开放多处理(“OpenMP”)，开放加速器(“OpenACC”)和/或Vulcan计算(Vulcan Compute)。

在至少一个实施例中，中间件和/或库5102提供编程模型5104的抽象的实现。在至少一个实施例中，这样的库包括可由计算机程序使用并在软件开发期间利用的数据和编程代码。在至少一个实施例中，除了可以从编程平台5104获得的那些之外，这样的中间件还包括向应用程序提供服务的软件。在至少一个实施例中，中间件和/或库5102可以包括但不限于cuBLAS、cuFFT、cuRAND和其他CUDA库，或rocBLAS、rocFFT、rocRAND和其他ROCm库。另外，在至少一个实施例中，中间件和/或库5102可以包括NCCL和ROCm通信集合库(“RCCL”)库，其提供用于GPU的通信例程，用于深度学习加速的MIOpen库和/或用于线性代数、矩阵和向量运算、几何变换、数值求解器以及相关算法的本征库。

在至少一个实施例中，应用程序框架5101依赖于中间件和/或库5102。在至少一个实施例中，每个应用程序框架5101是用于实现应用软件的标准结构的软件框架。在至少一个实施例中，可以使用框架(诸如Caffe，Caffe2，TensorFlow，Keras，PyTorch或MxNet深度学习框架)来实现AI/ML应用。

在至少一个实施例中，关于图51所示或描述的至少一个组件用于执行结合图1-15描述的技术和/或功能。在至少一个实施例中，关于图51所示或描述的至少一个组件用于使第一应用程序编程接口(API)选择第二API，以执行由第一API识别的一个或更多个软件工作负载。在至少一个实施例中，关于图51所示或描述的至少一个组件用于执行第一应用程序编程接口(API)以选择第二API，以监控由第一API识别的一个或更多个软件工作负载的执行。在至少一个实施例中，关于图51所示或描述的至少一个组件用于执行第一应用程序编程接口(API)以选择第二API，以终止由第一API识别的一个或更多个软件工作负载的执行。在至少一个实施例中，关于图51所示或描述的至少一个组件用于执行关于框图100、框图200、过程300、框图400、过程500、过程600、过程700、框图800、框图900、框图1000、框图1100、过程1200、框图1300、框图1400、框图1500和/或本文所描述的其他系统、方法或操作描述的至少一个方面。

图52示出了根据至少一个实施例的编译代码以在图47-50的编程平台之一上执行。在至少一个实施例中，编译器5201接收源代码5200，其包括主机代码以及设备代码两者。在至少一个实施例中，编译器5201被配置为将源代码5200转换为用于在主机上执行的主机可执行代码5202以及用于在设备上执行的设备可执行代码5203。在至少一个实施例中，源代码5200可以在执行应用程序之前离线编译，或者在执行应用程序期间在线编译。

在至少一个实施例中，源代码5200可以包括编译器5201支持的任何编程语言的代码，例如C++、C、Fortran等。在至少一个实施例中，源代码5200可以包括在单源(single-source)文件中，其具有主机代码和设备代码的混合，并在其中指示了设备代码的位置。在至少一个实施例中，单源文件可以是包括CUDA代码的.cu文件或包括HIP代码的.hip.cpp文件。备选地，在至少一个实施例中，源代码5200可以包括多个源代码文件，而不是单源文件，在该单源文件中主机代码和设备代码是分开的。

在至少一个实施例中，编译器5201被配置为将源代码5200编译成用于在主机上执行的主机可执行代码5202和用于在设备上执行的设备可执行代码5203。在至少一个实施例中，编译器5201执行操作，包括将源代码5200解析为抽象系统树(AST)，执行优化以及生成可执行代码。在源代码5200包括单源文件的至少一个实施例中，编译器5201可以将设备代码与主机代码在这种单源文件中分开，将设备代码和主机代码分别编译成设备可执行代码5203和主机可执行代码5202，以及将设备可执行代码5203和主机可执行代码5202在单个文件中链接到一起，如下面关于图41更详细讨论的。

在至少一个实施例中，主机可执行代码5202和设备可执行代码5203可以是任何合适的格式，例如二进制代码和/或IR代码。在CUDA的情况下，在至少一个实施例中，主机可执行代码5202可以包括本地对象代码，而设备可执行代码5203可以包括PTX中间表示的代码。在至少一个实施例中，在ROCm的情况下，主机可执行代码5202和设备可执行代码5203都可以包括目标二进制代码。

在至少一个实施例中，关于图52所示或描述的至少一个组件用于执行结合图1-15描述的技术和/或功能。在至少一个实施例中，关于图52所示或描述的至少一个组件用于使第一应用程序编程接口(API)选择第二API，以执行由第一API识别的一个或更多个软件工作负载。在至少一个实施例中，关于图52所示或描述的至少一个组件用于执行第一应用程序编程接口(API)以选择第二API，以监控由第一API识别的一个或更多个软件工作负载的执行。在至少一个实施例中，关于图52所示或描述的至少一个组件用于执行第一应用程序编程接口(API)以选择第二API，以终止由第一API识别的一个或更多个软件工作负载的执行。在至少一个实施例中，关于图52所示或描述的至少一个组件用于执行关于框图100、框图200、过程300、框图400、过程500、过程600、过程700、框图800、框图900、框图1000、框图1100、过程1200、框图1300、框图1400、框图1500和/或本文所描述的其他系统、方法或操作描述的至少一个方面。

图53是根据至少一个实施例的示出用于与应用程序5302接口以处理数据的系统5300的系统图。在至少一个实施例中，应用程序5302使用大语言模型(LLM)5312以至少部分地基于输入数据5310来生成输出数据5320。在至少一个实施例中，输入数据5310是文本提示。在至少一个实施例中，输入数据5310包括非结构化文本。在至少一个实施例中，输入数据5310包括标记(token)序列。在至少一个实施例中，标记是输入数据的一部分。在至少一个实施例中，标记是单词(Word)。在至少一个实施例中，标记是字符。在至少一个实施例中，标记是子单词(subword)。在至少一个实施例中，输入数据5310被格式化为聊天标记语言(ChatML)。在至少一个实施例中，输入数据5310是图像。在至少一个实施例中，输入数据5310是一个或更多个视频帧。在至少一个实施例中，输入数据5310是任何其他表达介质。

在至少一个实施例中，大语言模型5312包括深度神经网络。在至少一个实施例中，深度神经网络是具有两个或更多个层的神经网络。在至少一个实施例中，大语言模型5312包括转换器模型。在至少一个实施例中，大语言模型5312包括被配置为执行自然语言处理的神经网络。在至少一个实施例中，大语言模型5312被配置为处理一个或更多个数据序列。在至少一个实施例中，大语言模型5312被配置为处理文本。在至少一个实施例中，大语言模型5312的权重和偏差被配置为处理文本。在至少一个实施例中，大语言模型5312被配置为确定数据中的模式，以执行一个或更多个自然语言处理任务。在至少一个实施例中，自然语言处理任务包括文本生成。在至少一个实施例中，自然语言处理任务包括问答。在至少一个实施例中，执行自然语言处理任务得到输出数据5320。

在至少一个实施例中，处理器使用输入数据5310查询检索数据库5314。在至少一个实施例中，检索数据库5314是键-值存储。在至少一个实施例中，检索数据库5314是用于训练大语言模型5312的语料库。在至少一个实施例中，处理器使用检索数据库5314向大语言模型5312提供经更新的信息。在至少一个实施例中，检索数据库5314包括来自互联网源的数据。在至少一个实施例中，大语言模型5312不使用检索数据库5314来执行推理。

在至少一个实施例中，编码器将输入数据5310编码为一个或更多个特征向量。在至少一个实施例中，编码器将输入数据5310编码为句子嵌入向量。在至少一个实施例中，处理器使用所述句子嵌入向量执行最近邻搜索，以生成一个或更多个邻居(neighbor)5316。在至少一个实施例中，一个或更多个邻居5316是检索数据库5314中与包括输入数据5310的键相对应的值。在至少一个实施例中，一个或更多个邻居5316包括文本数据。在至少一个实施例中，编码器5318对一个或更多个邻居5316进行编码。在至少一个实施例中，编码器5318将一个或更多个邻居5316编码为文本嵌入向量。在至少一个实施例中，编码器5318将一个或更多个邻居5316编码为句子嵌入向量。在至少一个实施例中，大语言模型5312使用输入数据5310以及由编码器5318生成的数据生成输出数据5320。在至少一个实施例中，处理器5306使用大语言模型(LLM)应用程序编程接口(API)5304与应用程序5302接口。在至少一个实施例中，处理器5306使用大语言模型(LLM)应用程序编程接口(API)5304访问大语言模型5312。

在至少一个实施例中，输出数据5320包括计算机指令。在至少一个实施例中，输出数据5320包括以CUDA编程语言编写的指令。在至少一个实施例中，输出数据5320包括将由处理器5306执行的指令。在至少一个实施例中，输出数据5320包括控制一个或更多个算法模块5308的执行的指令。在至少一个实施例中，一个或更多个算法模块5308包括例如用于执行模式识别的一个或更多个神经网络。在至少一个实施例中，一个或更多个算法模块5308包括例如用于执行帧生成的一个或更多个神经网络。在至少一个实施例中，一个或更多个算法模块5308包括例如用于生成驾驶路径的一个或更多个神经网络。在至少一个实施例中，一个或更多个算法模块5308包括例如用于生成5G信号的一个或更多个神经网络。在至少一个实施例中，处理器5306使用大语言模型(LLM)应用程序编程接口(API)5304与应用程序5302接口。在至少一个实施例中，处理器5306可以使用一个或更多个并行计算平台和/或编程模型(例如，NVIDIA的CUDA模型)。

在至少一个实施例中，本文关于图53描述的系统和技术的各个方面被并入到先前图的各个方面中。例如，在至少一个实施例中，先前图中描述的装置包括处理器5306。例如，在至少一个实施例中，系统5300使用ChatGPT编写CUDA代码。例如，在至少一个实施例中，系统5300使用ChatGPT训练对象分类神经网络。例如，在至少一个实施例中，系统5300使用ChatGPT和神经网络识别驾驶路径。例如，在至少一个实施例中，系统5300使用ChatGPT和神经网络生成5G信号。

应当注意的是，虽然本文描述的示例实施例可以与CUDA编程模型有关，但本文描述的技术可以与任何合适的编程模型(诸如HIP、oneAPI(例如，使用基于oneAPI的编程来执行或实现本文公开的方法)和/或其变体)一起使用。

在至少一个实施例中，上文公开的系统和/或处理器的一个或更多个组件可以与一个或更多个CPU、ASIC、GPU、FPGA或其他硬件、电路或集成电路组件进行通信，这些组件包括：例如，用于将图像放大(upscale)的放大器或上采样器、用于将图像混合、融合或添加在一起的图像混合器或图像混合器组件、用于对图像进行采样的采样器(例如，作为DSP的一部分)、被配置为执行放大器或对图像进行放大(例如，从低分辨率图像到高分辨率图像)的神经网络电路、或用于修改或生成图像、帧或视频以调整其分辨率、大小或像素的其他硬件；上面公开的系统和/或处理器的一个或更多个组件可以使用本公开中描述的组件来执行生成或修改图像的方法、操作或指令。

在至少一个实施例中，关于图53所示或描述的至少一个组件用于执行结合图1-15描述的技术和/或功能。在至少一个实施例中，关于图53所示或描述的至少一个组件用于使第一应用程序编程接口(API)选择第二API，以执行由第一API识别的一个或更多个软件工作负载。在至少一个实施例中，关于图53所示或描述的至少一个组件用于执行第一应用程序编程接口(API)以选择第二API，以监控由第一API识别的一个或更多个软件工作负载的执行。在至少一个实施例中，关于图53所示或描述的至少一个组件用于执行第一应用程序编程接口(API)以选择第二API，以终止由第一API识别的一个或更多个软件工作负载的执行。在至少一个实施例中，关于图53所示或描述的至少一个组件用于执行关于框图100、框图200、过程300、框图400、过程500、过程600、过程700、框图800、框图900、框图1000、框图1100、过程1200、框图1300、框图1400、框图1500和/或本文所描述的其他系统、方法或操作描述的至少一个方面。

本公开的至少一个实施例可以鉴于以下条款来描述：

1.一种处理器，包括：

一个或更多个电路，所述一个或更多个电路用于使得第一应用程序编程接口(API)选择第二API，以执行由所述第一API识别的一个或更多个软件工作负载。

2.根据条款1所述的处理器，其中所述第一API用于接收指示所述一个或更多个软件工作负载的一个或更多个输入值。

3.根据条款1或2所述的处理器，其中所述第一API用于接收指示要用于执行所述第二API的节点数的一个或更多个输入值。

4.根据条款1-3中任一项所述的处理器，其中所述第一API用于接收指示要用于执行所述第二API的每节点的任务数的一个或更多个输入值。

5.根据条款1-4中任一项所述的处理器，其中所述第一API用于接收指示要用于执行所述第二API的一个或更多个环境变量的一个或更多个输入值。

6.根据条款1-5中任一项所述的处理器，其中所述第一API用于接收指示要用于执行所述第二API的工作目录的一个或更多个输入值。

7.根据条款1-6中任一项所述的处理器，其中所述第一API用于接收指示要用于执行所述第二API的启动器的一个或更多个输入值。

8.根据条款1-7中任一项所述的处理器，其中所述第一API用于接收指示要用于执行所述第二API的一个或更多个执行模式的一个或更多个输入值。

9.一种计算机系统，包括：

存储器和一个或更多个处理器，所述存储器用于存储可执行指令，所述可执行指令如果由所述一个或更多个处理器执行，则使得所述一个或更多个处理器使第一应用程序编程接口API选择第二API，以执行由所述第一API识别的一个或更多个软件工作负载。

10.根据条款9所述的计算机系统，包括：

所述第一API用于接收指示所述一个或更多个软件工作负载的一个或更多个第一输入值；以及

所述第二API用于至少部分地基于所述一个或更多个第一输入值来接收一个或更多个第二输入值。

11.根据条款9或10所述的计算机系统，其中所述第一API用于接收指示要用于执行所述第二API的高性能计算系统的节点数的一个或更多个输入值。

12.根据条款9-11中任一项所述的计算机系统，其中所述第一API用于接收指示要用于执行所述第二API的一个或更多个环境变量的一个或更多个输入值。

13.根据条款9-12中任一项所述的计算机系统，其中所述第一API用于接收指示要用于执行所述第二API的工作目录的一个或更多个输入值。

14.根据条款9-13中任一项所述的计算机系统，其中所述第一API用于接收指示要用于执行所述第二API的启动器的一个或更多个输入值。

15.一种计算机实现的方法，包括：

使得第一应用程序编程接口API选择第二API，以执行由所述第一API识别的一个或更多个软件工作负载。

16.根据条款15所述的计算机实现的方法，其中所述第一API用于接收指示所述一个或更多个软件工作负载的一个或更多个输入值。

17.根据条款15或16所述的计算机实现的方法，其中所述第一API用于接收指示要用于执行所述第二API的节点数的一个或更多个输入值。

18.根据条款15-17中任一项所述的计算机实现的方法，其中所述第一API用于接收指示要用于执行所述第二API的一个或更多个环境变量的一个或更多个输入值。

19.根据条款15-18中任一项所述的计算机实现的方法，其中所述第一API用于接收指示要用于执行所述第二API的启动器的一个或更多个输入值。

20.根据条款15-19中任一项所述的计算机实现的方法，其中所述第二API用于提供指示所述一个或更多个软件工作负载的一个或更多个作业标识符的一个或更多个输出值。

21.一种处理器，包括：

一个或更多个电路，所述一个或更多个电路用于执行第一应用程序编程接口(API)以选择第二API，来监控由所述第一API识别的一个或更多个软件工作负载的执行。

22.根据条款21所述的处理器，其中所述第一API用于接收指示所述一个或更多个软件工作负载的一个或更多个作业标识符的一个或更多个输入值。

23.根据条款21或22所述的处理器，其中所述一个或更多个软件工作负载将由所述第一API至少部分地基于第三API的输出值来识别，以执行一个或更多个软件工作负载。

24.根据条款21-23中任一项所述的处理器，其中所述一个或更多个软件工作负载将由所述第一API至少部分地基于执行第三API来识别，以启动所述一个或更多个软件工作负载。

25.根据条款21-24中任一项所述的处理器，其中所述一个或更多个软件工作负载是使用高性能计算系统执行的。

26.根据条款21-25中任一项所述的处理器，其中所述一个或更多个软件工作负载是使用高性能计算系统的一个或更多个节点执行的。

27.根据条款21-26中任一项所述的处理器，其中所述第二API用于提供指示所述一个或更多个软件工作负载的一个或更多个工作负载状态的一个或更多个输出值。

28.一种计算机系统，包括：

一个或更多个处理器和存储器，所述存储器用于存储可执行指令，如果所述可执行指令由所述一个或更多个处理器执行，则使所述一个或更多个处理器执行第一应用程序编程接口(API)以选择第二API，来监控由所述第一API识别的一个或更多个软件工作负载的执行。

29.根据条款28所述的计算机系统，其中所述第一API用于接收指示所述一个或更多个软件工作负载的一个或更多个作业标识符的一个或更多个输入值。

30.根据条款28或29所述的计算机系统，其中所述一个或更多个软件工作负载将由所述第一API至少部分地基于第三API的输出值来识别，以执行所述一个或更多个软件工作负载。

31.根据条款22-30中任一项所述的计算机系统，其中所述一个或更多个软件工作负载将由所述第一API至少部分地基于执行第三API来识别，以启动所述一个或更多个软件工作负载。

32.根据条款22-31中任一项所述的计算机系统，其中所述一个或更多个软件工作负载是使用高性能计算系统执行的。

33.根据条款22-32中任一项所述的计算机系统，其中所述一个或更多个软件工作负载是使用高性能计算系统的一个或更多个节点执行的。

34.根据条款22-33中任一项所述的计算机系统，其中所述第二API用于提供指示所述一个或更多个软件工作负载的一个或更多个工作负载状态的一个或更多个输出值。

35.一种计算机实现的方法，包括：

执行第一应用程序编程接口(API)以选择第二API，来监控由所述第一API识别的一个或更多个软件工作负载的执行。

36.根据条款35所述的计算机实现的方法，其中所述第一API用于接收指示所述一个或更多个软件工作负载的一个或更多个作业标识符的一个或更多个输入值。

37.根据条款35或36所述的计算机实现的方法，其中所述一个或更多个软件工作负载将由所述第一API至少部分地基于执行第三API来识别，以启动所述一个或更多个软件工作负载。

38.根据条款35-37中任一项所述的计算机实现的方法，其中所述一个或更多个软件工作负载是使用深度学习计算系统执行的。

39.根据条款35-38中任一项所述的计算机实现的方法，其中所述一个或更多个软件工作负载是使用深度学习计算系统的一个或更多个节点执行的。

40.根据条款35-39中任一项所述的计算机实现的方法，其中所述第二API用于提供指示所述一个或更多个软件工作负载的一个或更多个工作负载状态的一个或更多个输出值。

41.一种处理器，包括：

一个或更多个电路，所述一个或更多个电路用于执行第一应用程序编程接口(API)以选择第二API，来终止由所述第一API识别的一个或更多个软件工作负载的执行。

42.根据条款41所述的处理器，其中所述第一API用于接收指示所述一个或更多个软件工作负载的一个或更多个作业标识符的一个或更多个输入值。

43.根据条款41或42所述的处理器，其中所述一个或更多个软件工作负载将由所述第一API至少部分地基于第三API的输出值来识别，以执行所述一个或更多个软件工作负载。

44.根据条款41-43中任一项所述的处理器，其中所述一个或更多个软件工作负载将由所述第一API至少部分地基于执行第三API来识别，以启动所述一个或更多个软件工作负载。

45.根据条款41-44中任一项所述的处理器，其中所述一个或更多个软件工作负载是使用高性能计算系统执行的。

46.根据条款41-45中任一项所述的处理器，其中所述一个或更多个软件工作负载是使用高性能计算系统的一个或更多个节点执行的。

47.根据条款41-46中任一项所述的处理器，其中所述第二API用于至少部分地基于执行所述第二API来提供指示所述一个或更多个软件工作负载的一个或更多个状态的一个或更多个输出值，以终止执行。

48.一种计算机系统，包括：

一个或更多个处理器和存储器，所述存储器用于存储可执行指令，如果所述可执行指令由所述一个或更多个处理器执行，则使所述一个或更多个处理器执行第一应用程序编程接口(API)以选择第二API，来终止由所述第一API识别的一个或更多个软件工作负载的执行。

49.根据条款48所述的计算机系统，其中所述第一API用于接收指示所述一个或更多个软件工作负载的一个或更多个作业标识符的一个或更多个输入值。

50.根据条款48或49所述的计算机系统，其中所述一个或更多个软件工作负载将由所述第一API至少部分地基于第三API的输出值来识别，以执行所述一个或更多个软件工作负载。

51.根据条款48-50中任一项所述的计算机系统，其中所述一个或更多个软件工作负载将由所述第一API至少部分地基于执行第三API来识别，以启动所述一个或更多个软件工作负载。

52.根据条款48-51中任一项所述的计算机系统，其中所述一个或更多个软件工作负载是使用高性能计算系统执行的。

53.根据条款48-52中任一项所述的计算机系统，其中所述一个或更多个软件工作负载是使用高性能计算系统的一个或更多个节点执行的。

54.根据条款48-53中任一项所述的计算机系统，其中所述第二API至少部分地基于执行所述第二API来提供指示所述一个或更多个软件工作负载的一个或更多个状态的一个或更多个输出值，以终止执行。

55.一种计算机实现的方法，包括：

执行第一应用程序编程接口(API)以选择第二API，来终止由所述第一API识别的一个或更多个软件工作负载的执行。

56.根据条款55所述的计算机实现的方法，其中所述第一API用于接收指示所述一个或更多个软件工作负载的一个或更多个作业标识符的一个或更多个输入值。

57.根据条款55或56所述的计算机实现的方法，其中所述一个或更多个软件工作负载由所述第一API至少部分地基于执行第三API来识别，以启动所述一个或更多个软件工作负载。

58.根据条款55-57中任一项所述的计算机实现的方法，其中所述一个或更多个软件工作负载是使用深度学习计算系统执行的。

59.根据条款55-58中任一项所述的计算机实现的方法，其中所述一个或更多个软件工作负载是使用深度学习计算系统的一个或更多个节点执行的。

60.根据条款55-59中任一项所述的计算机实现的方法，其中所述第二API至少部分地基于执行所述第二API来提供指示所述一个或更多个软件工作负载的一个或更多个状态的一个或更多个输出值，以终止所述一个或更多个软件工作负载的执行。

其他变型在本公开的精神内。因此，尽管公开的技术易于进行各种修改和替代配置，但是某些示出的其实施例在附图中示出并且已经在上面进行了详细描述。然而，应理解，无意将公开内容限制为所公开的一种或更多种特定形式，而是相反，其意图是涵盖落入如所附权利要求书所定义的本公开内容的精神和范围内的所有修改、替代配置和等同物。

除非另有说明或显然与上下文矛盾，否则在描述所公开的实施例的上下文中(特别是在所附权利要求的上下文中)，术语“一”和“一个”和“该”以及类似指代的使用应被解释为涵盖单数和复数，而不是作为术语的定义。除非另有说明，否则术语“包括”、“具有”、“包含”和“含有”应被解释为开放式术语(意味着“包括但不限于”)。术语“连接”(在未经修改时指的是物理连接)应解释为部分或全部包含在内、附接到或连接在一起，即使有某些介入。除非本文另外指出，否则本文中对数值范围的引用仅旨在用作分别指代落入该范围内的每个单独值的简写方法，并且每个单独值都被并入说明书中，就如同其在本文中被单独叙述一样。在至少一个实施例中，除非另外指出或与上下文矛盾，否则术语“集”(例如“项目集”)或“子集”的使用应解释为包括一个或更多个成员的非空集合。此外，除非另外指出或与上下文矛盾，否则术语相应集的“子集”不一定表示对应集的适当子集，而是子集和对应集可以相等。

除非以其他方式明确指出或与上下文明显矛盾，否则诸如“A，B和C中的至少一个”或“A，B与C中的至少一个”形式的短语之类的连接语在上下文中理解为通常用来表示项目、条款等，其可以是A或B或C，也可以是A和B和C集的任何非空子集。例如，在具有三个成员的集的说明性示例中，连接短语“A，B和C中的至少一个”和“A，B与C中的至少一个”是指以下任意集：{A}，{B}，{C}，{A，B}，{A，C}，{B，C}，{A，B，C}。因此，这种连接语言通常不旨在暗示某些实施例要求存在A中的至少一个，B中的至少一个和C中的至少一个。另外，除非另有说明或与上下文矛盾，否则术语“多个”表示复数的状态(例如，“多个项目”表示多个项目)。在至少一个实施例中，多个项目中项目的数量至少为两个，但如果明确指示或通过上下文指示，则可以更多。此外，除非另有说明或从上下文中可以清楚得知，否则短语“基于”是指“至少部分基于”而不是“仅基于”。

除非本文另外指出或与上下文明显矛盾，否则本文描述的过程的操作可以任何合适的顺序执行。在至少一个实施例中，诸如本文所述的那些过程(或其变形和/或其组合)之类的过程在配置有可执行指令的一个或更多个计算机系统的控制下执行，并且被实现为代码(例如，可执行指令，一个或更多个计算机程序或一个或更多个应用程序)，该代码通过硬件或其组合在一个或更多个处理器上共同执行。在至少一个实施例中，代码以计算机程序的形式存储在计算机可读存储介质上，在至少一个实施例中，该计算机程序包括可由一个或更多个处理器执行的多个指令。在至少一个实施例中，计算机可读存储介质是非暂时性计算机可读存储介质，其排除了暂时性信号(例如，传播的瞬态电或电磁传输)，但包括非暂时性数据存储电路(例如，缓冲区、高速缓存和队列)。在至少一个实施例中，代码(例如，可执行代码或源代码)被存储在其上存储有可执行指令的一组一个或更多个非暂时性计算机可读存储介质(或用于存储可执行指令的其他存储器)上，该可执行指令在由计算机系统的一个或更多个处理器执行时(即，作为被执行的结果)，使得计算机系统执行本文所述的操作。在至少一个实施例中，一组非暂时性计算机可读存储介质包括多个非暂时性计算机可读存储介质，并且多个非暂时性计算机可读存储介质中的个体非暂时性存储介质中的一个或更多个缺少全部代码，而是多个非暂时性计算机可读存储介质共同存储全部代码。在至少一个实施例中，可执行指令被执行，以使得不同的指令由不同的处理器执行，在至少一个实施例中，非暂时性计算机可读存储介质存储指令，并且主中央处理单元(“CPU”)执行一些指令，而图形处理单元(“GPU”)执行其他指令。在至少一个实施例中，计算机系统的不同组件具有单独的处理器，并且不同的处理器执行指令的不同子集。

因此，在至少一个实施例中，计算机系统被配置为实现单独地或共同地执行本文所述的过程的操作的一个或更多个服务，并且这样的计算机系统被配置有使能实施操作的适用的硬件和/或软件。此外，实现本公开的至少一个实施例的计算机系统是单个设备，并且在另一实施例中是分布式计算机系统，其包括以不同方式操作的多个设备，使得分布式计算机系统执行本文所述的操作，并且使得单个设备不执行所有操作。

本文提供的任何和所有示例或示例性语言(例如，“诸如”)的使用，仅旨在更好地阐明本公开的实施例，并且不对公开的范围构成限制，除非另有要求。说明书中的任何语言都不应被解释为表示任何未要求保护的要素对于实践公开内容是必不可少的。

本文引用的所有参考文献，包括出版物、专利申请和专利，均通过引用并入本文，其程度就如同每个参考文献被单独且具体地指示为以引用的方式并入本文并且其全部内容在本文中阐述一样。

在说明书和权利要求中，可以使用术语“耦合”和“连接”以及它们的派生词。应当理解，这些术语可能不旨在作为彼此的同义词。相反，在具体示例中，“连接”或“耦合”可用于指示两个或更多个元件彼此直接或间接物理或电接触。“耦合”也可能意味着两个或更多个元素彼此不直接接触，但仍彼此协作或交互。

除非另有明确说明，否则可以理解，在整个说明书中，诸如“处理”、“计算”、“计算”、“确定”等之类的术语，是指计算机或计算系统或类似的电子计算设备的动作和/或过程，其将计算系统的寄存器和/或存储器中表示为物理量(例如电子)的数据处理和/或转换为类似表示为计算系统的存储器、寄存器或其他此类信息存储、传输或显示设备中的物理量的其他数据。

以类似的方式，术语“处理器”可以指处理来自寄存器和/或存储器的电子数据并将该电子数据转换成可以存储在寄存器和/或存储器中的其他电子数据的任何设备或存储器的一部分。作为非限制性示例，“处理器”可以是CPU或GPU。“计算平台”可以包括一个或更多个处理器。如本文所使用的，在至少一个实施例中，“软件”进程可以包括随时间执行工作的软件和/或硬件实体，诸如任务、线程和智能代理。同样，每个过程可以指代多个过程，以连续地或间歇地顺序地或并行地执行指令。术语“系统”和“方法”在本文中可以互换使用，只要系统可以体现一种或更多种方法，并且方法可以被认为是系统。

在至少一个实施例中，算术逻辑单元是一组组合逻辑电路，其采用一个或更多个输入来产生结果。在至少一个实施例中，处理器使用算术逻辑单元来实现数学运算，例如加法、减法或乘法。在至少一个实施例中，算术逻辑单元用于实现逻辑运算，例如逻辑AND/OR或XOR。在至少一个实施例中，算术逻辑单元是无状态的，并且由诸如半导体晶体管之类的物理开关组件制成，所述半导体晶体管被布置以形成逻辑门。在至少一个实施例中，算术逻辑单元可以在内部作为具有关联时钟的有状态逻辑电路来操作。在至少一个实施例中，算术逻辑单元可以被构造为异步逻辑电路，其内部状态未保持在关联的寄存器集中。在至少一个实施例中，处理器使用算术逻辑单元来组合存储在处理器的一个或更多个寄存器中的操作数并产生可由处理器存储在另一寄存器或存储器位置中的输出。

在至少一个实施例中，作为处理由处理器检索的指令的结果，处理器将一个或更多个输入或操作数呈现给算术逻辑单元，使算术逻辑单元至少部分地基于提供给算术逻辑单元的输入的指令代码产生结果。在至少一个实施例中，由处理器提供给ALU的指令代码至少部分地基于由处理器执行的指令。在至少一个实施例中，ALU中的组合逻辑处理输入并产生输出，该输出被放置在处理器内的总线上。在至少一个实施例中，处理器在输出总线上选择目的地寄存器、存储器位置、输出设备或输出存储位置，从而对处理器进行时钟控制，使得由ALU产生的结果被发送到期望的位置。

在本文件中，可以参考获得、获取、接收或将模拟或数字数据输入子系统、计算机系统或计算机实现的机器中。在至少一个实施例中，可以通过多种方式来完成获得、获取、接收或输入模拟和数字数据的过程，例如通过接收作为函数调用或对应用程序编程接口的调用的参数的数据。在一些实现方式中，可以通过经由串行或并行接口传输数据来完成获得、获取、接收或输入模拟或数字数据的过程。在另一实现方式中，可以通过经由计算机网络将数据从提供实体传输到获取实体来完成获得、获取、接收或输入模拟或数字数据的过程。也可以参考提供、输出、传送、发送或呈现模拟或数字数据。在各个示例中，提供、输出、传送、发送或呈现模拟或数字数据的过程可以通过将数据作为函数调用的输入或输出参数、应用程序编程接口或进程间通信机制的参数进行传输来实现。

尽管上面的讨论阐述了所描述的技术的示例实现方式，但是其他架构可以用于实现所描述的功能，并且旨在落入本公开的范围内。此外，尽管出于讨论的目的在上面定义了具体的职责分配，但是根据情况，可以以不同的方式分配和划分各种功能和职责。

此外，尽管已经用特定于结构特征和/或方法动作的语言描述了主题，但是应当理解，所附权利要求书所要求保护的主题不必限于所描述的特定特征或动作。而是，公开了特定的特征和动作作为实现权利要求的示例性形式。

Claims

1.一种处理器，包括：

一个或更多个电路，所述一个或更多个电路用于使得第一应用程序编程接口API选择第二API，以执行由所述第一API识别的一个或更多个软件工作负载。

2.根据权利要求1所述的处理器，其中所述第一API用于接收指示所述一个或更多个软件工作负载的一个或更多个输入值。

3.根据权利要求1所述的处理器，其中所述第一API用于接收指示要用于执行所述第二API的节点数的一个或更多个输入值。

4.根据权利要求1所述的处理器，其中所述第一API用于接收指示要用于执行所述第二API的每节点的任务数的一个或更多个输入值。

5.根据权利要求1所述的处理器，其中所述第一API用于接收指示要用于执行所述第二API的一个或更多个环境变量的一个或更多个输入值。

6.根据权利要求1所述的处理器，其中所述第一API用于接收指示要用于执行所述第二API的工作目录的一个或更多个输入值。

7.根据权利要求1所述的处理器，其中所述第一API用于接收指示要用于执行所述第二API的启动器的一个或更多个输入值。

8.根据权利要求1所述的处理器，其中所述第一API用于接收指示要用于执行所述第二API的一个或更多个执行模式的一个或更多个输入值。

9.一种计算机系统，包括：

10.根据权利要求9所述的计算机系统，包括：

11.根据权利要求9所述的计算机系统，其中所述第一API用于接收指示要用于执行所述第二API的高性能计算系统的节点数的一个或更多个输入值。

12.根据权利要求9所述的计算机系统，其中所述第一API用于接收指示要用于执行所述第二API的一个或更多个环境变量的一个或更多个输入值。

13.根据权利要求9所述的计算机系统，其中所述第一API用于接收指示要用于执行所述第二API的工作目录的一个或更多个输入值。

14.根据权利要求9所述的计算机系统，其中所述第一API用于接收指示要用于执行所述第二API的启动器的一个或更多个输入值。

15.一种计算机实现的方法，包括：

16.根据权利要求15所述的计算机实现的方法，其中所述第一API用于接收指示所述一个或更多个软件工作负载的一个或更多个输入值。

17.根据权利要求15所述的计算机实现的方法，其中所述第一API用于接收指示要用于执行所述第二API的节点数的一个或更多个输入值。

18.根据权利要求15所述的计算机实现的方法，其中所述第一API用于接收指示要用于执行所述第二API的一个或更多个环境变量的一个或更多个输入值。

19.根据权利要求15所述的计算机实现的方法，其中所述第一API用于接收指示要用于执行所述第二API的启动器的一个或更多个输入值。

20.根据权利要求15所述的计算机实现的方法，其中所述第二API用于提供指示所述一个或更多个软件工作负载的一个或更多个作业标识符的一个或更多个输出值。