CN117632467A - 基于处理器的存储分配 - Google Patents
基于处理器的存储分配 Download PDFInfo
- Publication number
- CN117632467A CN117632467A CN202311072720.4A CN202311072720A CN117632467A CN 117632467 A CN117632467 A CN 117632467A CN 202311072720 A CN202311072720 A CN 202311072720A CN 117632467 A CN117632467 A CN 117632467A
- Authority
- CN
- China
- Prior art keywords
- processors
- storage
- network
- data
- processor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000015654 memory Effects 0.000 title description 222
- 238000003860 storage Methods 0.000 claims abstract description 373
- 238000004590 computer program Methods 0.000 claims abstract description 110
- 238000005192 partition Methods 0.000 claims description 199
- 238000000034 method Methods 0.000 claims description 102
- 238000012549 training Methods 0.000 claims description 79
- 230000008569 process Effects 0.000 claims description 72
- 238000013528 artificial neural network Methods 0.000 claims description 52
- 238000000638 solvent extraction Methods 0.000 claims description 8
- 238000005516 engineering process Methods 0.000 abstract description 8
- 238000012545 processing Methods 0.000 description 195
- 230000006870 function Effects 0.000 description 107
- 238000004891 communication Methods 0.000 description 83
- 238000007726 management method Methods 0.000 description 77
- HPTJABJPZMULFH-UHFFFAOYSA-N 12-[(Cyclohexylcarbamoyl)amino]dodecanoic acid Chemical compound OC(=O)CCCCCCCCCCCNC(=O)NC1CCCCC1 HPTJABJPZMULFH-UHFFFAOYSA-N 0.000 description 47
- 238000007667 floating Methods 0.000 description 31
- 230000005540 biological transmission Effects 0.000 description 27
- 230000002093 peripheral effect Effects 0.000 description 17
- 238000012546 transfer Methods 0.000 description 17
- 238000013500 data storage Methods 0.000 description 15
- 230000001133 acceleration Effects 0.000 description 14
- 230000004044 response Effects 0.000 description 14
- 239000008186 active pharmaceutical agent Substances 0.000 description 13
- 238000010801 machine learning Methods 0.000 description 13
- 230000008520 organization Effects 0.000 description 13
- 210000004027 cell Anatomy 0.000 description 12
- 230000011664 signaling Effects 0.000 description 12
- 230000004913 activation Effects 0.000 description 11
- 238000001994 activation Methods 0.000 description 11
- 238000013507 mapping Methods 0.000 description 11
- 238000013473 artificial intelligence Methods 0.000 description 10
- 239000000872 buffer Substances 0.000 description 10
- 238000004422 calculation algorithm Methods 0.000 description 10
- 239000012634 fragment Substances 0.000 description 9
- 238000013135 deep learning Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 230000007246 mechanism Effects 0.000 description 8
- 238000013475 authorization Methods 0.000 description 7
- 238000012544 monitoring process Methods 0.000 description 7
- 238000012384 transportation and delivery Methods 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 6
- 230000003993 interaction Effects 0.000 description 6
- 239000011159 matrix material Substances 0.000 description 6
- 230000006855 networking Effects 0.000 description 6
- 238000013468 resource allocation Methods 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 238000010168 coupling process Methods 0.000 description 5
- 238000005859 coupling reaction Methods 0.000 description 5
- 230000018109 developmental process Effects 0.000 description 5
- 239000004744 fabric Substances 0.000 description 5
- 238000012423 maintenance Methods 0.000 description 5
- 238000005259 measurement Methods 0.000 description 5
- 238000009877 rendering Methods 0.000 description 5
- 230000001360 synchronised effect Effects 0.000 description 5
- 230000009471 action Effects 0.000 description 4
- 230000001413 cellular effect Effects 0.000 description 4
- 230000008878 coupling Effects 0.000 description 4
- 239000000835 fiber Substances 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 210000002569 neuron Anatomy 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000012937 correction Methods 0.000 description 3
- 238000012217 deletion Methods 0.000 description 3
- 230000037430 deletion Effects 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 230000010354 integration Effects 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 230000003068 static effect Effects 0.000 description 3
- 241000700605 Viruses Species 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- 238000012884 algebraic function Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 239000003795 chemical substances by application Substances 0.000 description 2
- 238000001816 cooling Methods 0.000 description 2
- 239000010949 copper Substances 0.000 description 2
- 238000013480 data collection Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000001747 exhibiting effect Effects 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000007620 mathematical function Methods 0.000 description 2
- OOXMVRVXLWBJKF-DUXPYHPUSA-N n-[3-[(e)-2-(5-nitrofuran-2-yl)ethenyl]-1,2,4-oxadiazol-5-yl]acetamide Chemical compound O1C(NC(=O)C)=NC(\C=C\C=2OC(=CC=2)[N+]([O-])=O)=N1 OOXMVRVXLWBJKF-DUXPYHPUSA-N 0.000 description 2
- 229920001690 polydopamine Polymers 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 101000740523 Homo sapiens Syntenin-1 Proteins 0.000 description 1
- 101100202275 Mus musculus Slc22a8 gene Proteins 0.000 description 1
- 101150119040 Nsmf gene Proteins 0.000 description 1
- 102100037219 Syntenin-1 Human genes 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000003466 anti-cipated effect Effects 0.000 description 1
- 238000007630 basic procedure Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000003139 buffering effect Effects 0.000 description 1
- 230000009172 bursting Effects 0.000 description 1
- 230000010267 cellular communication Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 239000013256 coordination polymer Substances 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000013501 data transformation Methods 0.000 description 1
- 230000006837 decompression Effects 0.000 description 1
- 230000006735 deficit Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 235000019800 disodium phosphate Nutrition 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- GVVPGTZRZFNKDS-JXMROGBWSA-N geranyl diphosphate Chemical compound CC(C)=CCC\C(C)=C\CO[P@](O)(=O)OP(O)(O)=O GVVPGTZRZFNKDS-JXMROGBWSA-N 0.000 description 1
- 235000003642 hunger Nutrition 0.000 description 1
- 239000003999 initiator Substances 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000010363 phase shift Effects 0.000 description 1
- 238000012913 prioritisation Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000011435 rock Substances 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000013341 scale-up Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 239000004984 smart glass Substances 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 230000005641 tunneling Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
- G06F9/5027—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
- G06F9/5011—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals
Landscapes
- Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了基于处理器的存储分配,具体公开了将存储的各部分分配给处理器的组的装置、系统和技术。在至少一个实施例中,至少部分地基于执行一个或更多个计算机程序的一个或更多个部分的处理器的数量,分配存储的量以存储将由一个或更多个计算机程序使用的数据。
Description
要求优先权
本申请要求2022年8月24日提交的标题为“共享集群中的存储的动态分配(DYNAMIC ALLOCATION OF STORAGE IN A SHARED CLUSTER)”的美国临时申请第63/400,625号的权益,其全部内容通过引用并入本文。
技术领域
至少一个实施例涉及用于分配主机的共享存储空间的处理器或计算系统。
背景技术
将共享存储空间用于服务于多个工作负载的多个处理器的组的现有技术产生低效的结果。可以改进用于将共享存储空间用于多个工作负载的技术。
附图说明
图1示出了根据至少一个实施例的示例框架;
图2示出了根据至少一个实施例的示出一个或更多个处理器的各个组与存储的对应分区之间的映射的示意图;
图3示出了根据至少一个实施例的示出处理器的各个组与逻辑卷之间的连接的表格;
图4示出了根据至少一个实施例的示出用于创建或销毁存储中的将由处理器使用以执行工作负载的分区的通信流的示意性框图;
图5示出了根据至少一个实施例的示出容器存储接口、逻辑卷管理器、以及存储之间的通信流的示意图;
图6示出了根据至少一个实施例的用于实现与一个或更多个处理器一起使用以处理工作负载的存储中的分区的过程;
图7示出了根据至少一个实施例的用于实现删除由一个或更多个处理器使用以处理工作负载的存储中的分区的过程;
图8示出了根据至少一个实施例的分布式系统;
图9示出了根据至少一个实施例的示例性数据中心;
图10示出了根据至少一个实施例的客户端-服务器网络;
图11示出了根据至少一个实施例的计算机网络的示例;
图12A示出了根据至少一个实施例的联网计算机系统;
图12B示出了根据至少一个实施例的联网计算机系统;
图12C示出了根据至少一个实施例的联网计算机系统;
图13示出了根据至少一个实施例的系统环境的一个或更多个组件,在该系统环境中,服务可被提供为第三方网络服务;
图14示出了根据至少一个实施例的云计算环境;
图15示出了根据至少一个实施例的由云计算环境提供的一组功能抽象层;
图16示出了根据至少一个实施例的在芯片级的超级计算机;
图17示出了根据至少一个实施例的在机架模块级处的超级计算机;
图18示出了根据至少一个实施例的在机架级处的超级计算机;
图19示出了根据至少一个实施例的在整个系统级的超级计算机;
图20A示出了根据至少一个实施例的推理和/或训练逻辑;
图20B示出了根据至少一个实施例的推理和/或训练逻辑;
图21示出了根据至少一个实施例的神经网络的训练和部署;
图22示出了根据至少一个实施例的网络系统的架构;
图23示出了根据至少一个实施例的网络系统的架构;
图24示出了根据至少一个实施例的控制平面协议栈;
图25示出了根据至少一个实施例的用户平面协议栈;
图26示出了根据至少一个实施例的核心网的组件;
图27示出了根据至少一个实施例的支持网络功能虚拟化(NFV)的系统的组件;
图28示出了根据至少一个实施例的处理系统;
图29示出了根据至少一个实施例的计算机系统;
图30示出了根据至少一个实施例的系统;
图31示出了根据至少一个实施例的示例性集成电路;
图32示出了根据至少一个实施例的计算系统;
图33示出了根据至少一个实施例的APU;
图34示出了根据至少一个实施例的CPU;
图35示出了根据至少一个实施例的示例性加速器集成切片;
图36A-图36B示出了根据至少一个实施例的示例性图形处理器;
图37A示出了根据至少一个实施例的图形核心;
图37B示出了根据至少一个实施例的GPGPU;
图38A示出了根据至少一个实施例的并行处理器;
图38B示出了根据至少一个实施例的处理集群;
图38C示出了根据至少一个实施例的图形多处理器;
图39示出了根据至少一个实施例的编程平台的软件栈;
图40示出了根据至少一个实施例的图39的软件栈的CUDA实现;
图41示出了根据至少一个实施例的图39的软件栈的ROCm实现;
图42示出了根据至少一个实施例的图39的软件栈的OpenCL实现方式;
图43示出了根据至少一个实施例的由编程平台支持的软件;以及
图44示出了根据至少一个实施例的用于在图39-图42的编程平台上执行的编译代码。
具体实施方式
在以下描述中,阐述了许多具体细节以提供对至少一个实施例的更透彻的理解。然而,对于本领域技术人员将显而易见的是,可以在没有一个或更多个这些具体细节的情况下实践本发明构思。
图1示出了根据至少一个实施例的至少部分地使用协调服务来管理一个或更多个计算资源集群(诸如,处理器或GPU)可访问的存储(storage)中的分区的框架。结合图1描述的至少一个实施例的一个或更多个方面可以与本文描述的实施例的一个或更多个方面组合,包括至少结合图2-图7描述的实施例。根据实施例,框架100包括协调服务102、集群106和存储108。在至少一个实施例中,集群106包括多个处理器112a-n。
在至少一个实施例中,协调服务102是连接到存储108和处理器112a-n的计算机系统。在至少一个实施例中,协调服务102管理存储108。在至少一个实施例中,协调服务102包括用于管理存储的逻辑卷管理器(LVM)104。在至少一个实施例中,协调服务102管理使用集群106中的处理器112a-n执行的工作负载。在至少一个实施例中,协调服务102包括工作负载管理器105,用于管理使用处理器112a-n执行的工作负载。在至少一个实施例中,至少部分地使用Kubernetes来实现协调服务102。在至少一个实施例中,工作负载管理器105可以接收执行工作负载的请求。在至少一个实施例中,工作负载管理器105将工作负载调度或分配到多个处理器112a-n的各个组。在至少一个实施例中,LVM 104和工作负载管理器105被实现为在协调服务102的计算机系统上运行的计算机程序。在至少一个实施例中,协调服务102由处理器112a-n中的至少一个或其他合适的计算硬件来实现。
在至少一个实施例中,处理器112a-n可以是单核处理器、多核处理器、图形处理器、并行处理器、或通用处理器、或其某种组合。在至少一个实施例中,集群106可以是一个或更多个主机(例如,物理和/或虚拟服务器计算机系统)。在至少一个实施例中,集群可包括一个或更多个DGX服务器A100或DGX-1服务器。在至少一个实施例中,向集群106中的处理器112a-n添加处理器或从中移除处理器。集群106中可用的处理器112a-n的总数量可随时间而改变。在至少一个实施例中,一个或更多个主机可以被添加到集群106或从集群106中移除。在至少一个实施例中,集群106中可用于处理工作负载的一个或更多个处理器112a-n的数量在操作期间可改变。在至少一个实施例中,当工作负载(例如,计算机程序)正在处理时,所分配的处理器112a-n不可用于被分配给其他工作负载。在至少一个实施例中,在完成工作负载之后,使得分配给工作负载的处理器可用于被分配给其他工作负载。在至少一个实施例中,处理器112a-n的不同组合可以与不同的工作负载相关联。处理器112a-n可在工作负载完成并且处理器112a-n变得可用于处理其他工作负载时被动态地分配。一个或更多个附加处理器(未示出)可访问处理器112a-n和存储108。在至少一个实施例中,一个或更多个工作节点可在集群106处的一个或更多个附加处理器上实现。在至少一个实施例中,分配给管理任务(诸如集群106的管理或分析)的集群106中的处理器112a-n不可用于处理工作负载。
在至少一个实施例中,框架100与数据中心结合使用,所述数据中心包括在现场、在云中、在混合云中、具有可组合基础设施、或它们的一些组合运行的数据中心。可组合基础设施方法包括在数据中心的上下文中分离(disaggregate)资源,例如包括将高性能应用和工作负载从底层硬件解耦,以提高计算性能。根据实施例,框架100与用于人工智能(AI)训练和/或推理操作的数据中心结合使用。在至少一个实施例中,存储108相对于集群106是本地的。在至少一个实施例中,集群106包括一个或更多个主机设备。在至少一个实施例中,存储108是主机处的本地存储。本地存储可以物理地位于集群106的主机处。根据实施例,协调服务102、各个处理器112a-n和存储108中的两个或更多个作为分离式计算网络的一部分驻留在不同的物理位置中。在至少一个实施例中,集群106中的元件驻留在不同的物理位置。根据实施例,协调服务102、存储108和处理器112a-n中的两个或更多个由诸如5G无线电接入网(RAN)之类的网络连接,如本文进一步描述的。
根据实施例,处理器112a-n中的一个或更多个处理器是数据处理单元(DPU)、包括一个或更多个加速处理单元(APU)的多组件设备、中央处理单元(CPU)、图形处理单元(GPU)、智能网络接口卡(智能NIC)、或其某种组合的元件。根据实施例,处理器112a-n中的一个或更多个处理器是处理系统(诸如本文中描述的处理系统2800)的元件。根据实施例,集群106(例如,主机)包括计算机系统(例如,本文描述的计算机系统3200)的一个或更多个元件。根据实施例,集群106包括本文中描述的系统的一个或更多个元件。根据实施例,集群106包括本文中描述的计算系统的一个或更多个元件。根据实施例,集群106包括位于现场内、云内或其某种组合的一个或更多个元件。根据实施例,集群106中的一个或更多个包括数据中心(诸如,本文中描述的数据中心900)的一个或更多个元件。根据实施例,处理器112a-n中的一个或更多个处理器是GPU。根据实施例,处理器112a-n中的一个或更多个处理器是数据处理单元(DPU)。根据实施例,处理器112a-n中的一个或更多个处理器是一种类型的XPU,诸如包括CPU、GPU、现场可编程门阵列(FPGA)、视觉处理单元(VPU)、数字信号处理器(DSP)、张量处理单元(TPU)、和专用集成电路(ASIC)、或它们的某种组合的专用处理器。根据实施例,一个或更多个处理器112a-n中的一个或更多个是加速器,诸如专用硬件电路,其被配置和/或实现为具有以比更通用的硬件更高的性能或更高的能量效率执行某些操作的功能。根据实施例,处理器112a-n中的一个或更多个处理器是APU,诸如本文描述的APU3300。根据实施例,处理器112a-n中的一个或更多个处理器是CPU,诸如本文中描述的CPU3400。根据实施例,处理器112a-n中的一个或更多个处理器是通用图形处理单元(GPGPU),诸如GPGPU 3730。根据实施例,处理器112a-n中的一个或更多个处理器是并行处理单元(PPU),诸如本文中描述的PPU 3802。根据实施例,处理器112a-n中的一个或更多个处理器是虚拟CPU(vCPU)。处理器112a-n中的一个或更多个处理器可以包括x86处理器,x86处理器是支持x86指令集架构的处理器。处理器112a-n中的一个或更多个处理器是ARM处理器,ARM处理器是支持精简指令集计算机(RISC)指令集架构的处理器。根据实施例,处理器112a-n中的一个或更多个处理器运行在集群上,集群是包括通过网络连接的两个或更多个计算机(节点)的计算机系统。集群可包括高性能计算(HPC)集群。处理器112a-n中的一个或更多个处理器可以作为集群的一部分运行,如本文结合图37B进一步描述的。根据实施例,处理器112a-n中的一个或更多个处理器连接到其他处理器(未示出)。在至少一个实施例中,一个或更多个处理器112a-n分布在可以在位于不同物理位置的不同主机上运行的多个集群106上。
在至少一个实施例中,存储(storage)108包括物理磁盘存储。在至少一个实施例中,存储108包括独立磁盘冗余阵列(RAID)存储,诸如RAID 1、Raid 3、Raid 5或RAID 50等。在至少一个实施例中,存储108包括易失性存储、非易失性存储或光存储。在至少一个实施例中,存储108包括随机存取存储器(RAM)。在至少一个实施例中,存储108包括块存储、对象存储、或文件存储。在至少一个实施例中,存储108包括挂载的文件系统。在至少一个实施例中,存储108包括网络存储。在至少一个实施例中,存储108包括一个或更多个其他类型的当前已知或以后开发的存储。在至少一个实施例中,存储相对于集群106是本地的。在至少一个实施例中,存储108包括可以被分配给与工作负载相对应的一个或更多个处理器112a-n的组的块。在至少一个实施例中,存储108包括被分区并挂载(mount)到一个或更多个处理器112a-n的不同组的块。在至少一个实施例中,存储108耦接到协调服务102。在至少一个实施例中,存储108至少部分地由协调服务102可控制。在至少一个实施例中,存储108由LVM104可控制。例如,LVM 104可发送创建或删除逻辑卷或分区的请求。在至少一个实施例中,存储108相对于集群106是本地存储。在至少一个实施例中,存储108可以被划分为卷组(例如,子卷)。在存储108包括多个卷组的至少一个实施例中,各个卷组可以被分配给各类型的进程,例如,正被各组的处理器112a-n使用以执行工作负载的进程。存储108的卷组可以存储一个或更多个处理器112a-n上运行的应用程序。应用程序可以用于执行机器学习或神经网络训练。同一卷组或不同卷组可用于存储诊断软件应用,以测量与一个或更多个处理器112a-n或存储108相关的度量。在至少一个实施例中,存储108是用于存储与使用各组的一个或更多个处理器112a-n执行的工作负载结合使用的数据的卷组。在至少一个实施例中,存储108用于存储用于执行工作负载的训练数据(例如,数据集),所述工作负载包括使用在各个组的一个或更多个处理器112a-n上运行的计算机程序训练神经网络或机器学习算法。在至少一个实施例中,存储108的一个或更多个卷组被分区成逻辑卷以供处理器使用。在至少一个实施例中,存储108的分区是充当不同磁盘驱动器的逻辑卷。在至少一个实施例中,各个分区被挂载到处理相应工作负载的一个或更多个处理器112a-n的对应组。在至少一个实施例中,一个或更多个处理器112a-n的每个组处理单个工作负载。在至少一个实施例中,存储108被分区成可由个体处理器或一个或更多个处理器112a-n的组访问的逻辑卷。在至少一个实施例中,一个或更多个处理器112a-n的每个组被挂载到存储108的单个逻辑卷。在至少一个实施例中,可以至少部分地使用协调服务102的处理器对存储108进行分区。在至少一个实施例中,分配给活动工作负载(例如,正在处理的工作负载)的分区并不可用于(例如,不可用于)被分配给其他工作负载或分区。在至少一个实施例中,如果完成工作负载,则卸载或删除被挂载到分配给工作负载的一组处理器112a-n的存储108的分区。在至少一个实施例中,由于分区被删除,对应于分区的存储108的一部分(例如,存储块)可以可用于被分配给工作负载。
在至少一个实施例中,协调服务102由一个或更多个处理器112a-n之一或其他合适的计算硬件来实现。在至少一个实施例中,协调服务102包括工作负载管理器105和LVM104。在至少一个实施例中,LVM 104在集群106处实现。在至少一个实施例中,工作负载管理器105是用于管理工作负载和一个或更多个处理器112a-n的对应分组的计算机程序。在至少一个实施例中,工作负载管理器105调度或分配工作负载到一个或更多个处理器112a-n的组。在至少一个实施例中,工作负载管理器105可以接收执行工作负载的请求。可以代表云资源服务提供商的一个或更多个用户或客户来执行工作负载。在至少一个实施例中,请求来自计算机资源服务提供商或另一计算机系统的用户。在至少一个实施例中,工作负载用于完成计算机程序的至少一部分。在至少一个实施例中,工作负载是使用训练数据来训练神经网络或机器学习模型。在至少一个实施例中,训练数据是可用于训练神经网络或机器学习模型以预测神经网络或机器学习模型被设计为预测的结果的数据。工作负载可以包括步骤、子任务或工作。当确定训练完成、某时间量已经过去或者已经执行了某数量的迭代时,工作负载可被完成。在至少一个实施例中,工作负载管理器105或LVM 104可以至少部分地在与协调服务102不同的计算机设备上实现。在至少一个实施例中,工作负载管理器105或LVM 104可以与协调服务102进行通信,例如通过网络。在至少一个实施例中,工作负载管理器105可以确定用于执行工作负载的一个或更多个处理器112a-n的数量。
在至少一个实施例中,LVM 104是使得在存储108上执行操作的计算机程序。在至少一个实施例中,LVM 104可使得在存储108中创建或删除逻辑卷分区。在至少一个实施例中,LVM 104可使得在存储108中创建或删除卷组。在至少一个实施例中,LVM 104可用于确定在存储108处可用的空间量。在至少一个实施例中,一旦与分区对应的工作负载已经完成,LVM 104就使得存储108中的分区被删除或卸载。在至少一个实施例中,LVM 104向存储108发送确定可用存储量的请求。在至少一个实施例中,存储108处的可用空间对应于存储108中(例如,卷组中)可用于一次被分区为逻辑卷的空间量。在至少一个实施例中,存储108处的可用空间可以是在给定时间未被分区成逻辑卷的空间存储的量。在至少一个实施例中,存储108处的可用空间对应于存储108的总存储容量或存储108的卷组。在至少一个实施例中,存储108处的可用空间对应于一次未挂载到一组处理器112a-n的空间存储的量。
在至少一个实施例中,LVM 104包括或耦合到容器存储接口(CSI)API,其允许LVM104与协调服务102交换信息。在至少一个实施例中,协调服务102经由CSI API与存储108通信。在至少一个实施例中,LVM 104可将存储108的块(例如,分区)链接至在集群106上的各组的一个或更多个处理器112a-n上运行的工作负载(例如,容器化的工作负载)。在至少一个实施例中,协调服务102至少部分地基于将被分配给工作负载的组中一个或更多个处理器112a-n的数量来确定组或工作负载的分区大小。在至少一个实施例中,工作负载是计算任务。在至少一个实施例中,工作负载用于训练神经网络或机器学习算法,或运行模拟。LVM104可使得存储108的一部分根据所确定的分区大小被分区。在至少一个实施例中,LVM 104可请求为存储108的物理卷的卷组创建逻辑卷。在至少一个实施例中,LVM 104可发出指定存储108中的至少分区、分区类型、逻辑卷、物理卷(例如,cs)、卷组或逻辑卷的命令(例如,lvcreate)。在至少一个实施例中,LVM 104使分区被创建或删除。在至少一个实施例中,LVM104通过向存储548发送请求来获得关于存储分区或卷组的信息。在至少一个实施例中,一个或更多个处理器112a-n中的两个或更多个处理器被分组并被分配为执行工作负载。
在至少一个实施例中,一个或更多个处理器112a-n中的至少两个处理器例如由工作负载管理器105分配给组。在至少一个实施例中,一个或更多个处理器112a-n的指定分组例如从计算资源服务提供商(未示出)被提供给协调服务102。例如,指定的组可被指定为包括两个GPU。计算资源服务提供商可更新和管理工作负载和相应组中的一个或更多个处理器112a-n的类型或数量。在至少一个实施例中,处理器112a-n的组可以基于用户说明或工作负载特性的类型或复杂性来确定。在至少一个实施例中,使用一个或更多个处理器112a-n提供计算服务的服务提供商的用户被分配作为组的某数量的一个或更多个处理器112a-n。在至少一个实施例中,用户可以指定某数量的一个或更多个处理器112a-n来执行工作负载。在至少一个实施例中,可以基于工作负载的计算任务的类型或复杂性来确定组中的一个或更多个处理器112a-n的数量。在至少一个实施例中,协调服务102例如使用一个或更多个扫描实用程序来确定在集群106上可用的处理器112a-n的数量以及存储108中可用于处理工作负载的存储的量。
在至少一个实施例中,协调服务102基于集群106中可用的一个或更多个处理器112a-n的数量以及存储108的卷组中可用的存储空间的量,来确定要分区以供一个或更多个处理器112a-n的组使用的存储108的量。在至少一个实施例中,针对组的存储108的分区的大小被确定为与关于集群106中的某数量的一个或更多个处理器112a-n的组中的一个或更多个处理器112a-n的数量成比例。在至少一个实施例中,协调服务102使得至少部分地利用LVM 104在存储108中创建确定大小的分区。在至少一个实施例中,所创建的分区具有可以通过协调服务102与一个或更多个处理器112a-n的对应组链接的地址(例如,1v-00、1v-01)。在至少一个实施例中,协调服务102使得存储108的分区的地址被提供给一个或更多个处理器112a-n的组,以允许组访问存储108上的相应分区。分区地址和一个或更多个处理器112a-n的对应组可以被存储在协调服务102可访问的表中。在至少一个实施例中,用于执行涉及机器学习或神经网络训练的工作负载的训练数据可以存储在存储108的分区中。在至少一个实施例中,一旦已经执行工作负载,处理器112a-n和存储108中的存储对应分区就可以由另一个组使用以执行不同的工作负载。在至少一个实施例中,随着工作负载被处理或被分配给其他任务,存储108中的可用存储和可用处理器112a-n随时间而改变。在至少一个实施例中,取决于处理器112a-n和存储108的可用性,存储108的各部分被动态地分配给处理器112a-n的组。
图2是示出了根据至少一个实施例的一个或更多个处理器的组与存储的对应分区之间的映射的示意图200。结合图2描述的至少一个实施例的一个或更多个方面可以与本文描述的至少一个实施例的一个或更多个方面组合,包括至少结合图1和图3-图7描述的实施例。在至少一个实施例中,处理器组A 209包括处理器212a-c,处理器组B 210包括处理器212d和212e,并且处理器组C 211包括处理器212f。在至少一个实施例中,处理器组A 209执行工作负载A 202,处理器组B 210执行工作负载B 204,并且处理器组C 211执行工作负载C206。在至少一个实施例中,组中的处理器专用于对应的工作负载。在至少一个实施例中,组B的处理器212d和212e可以不用于执行工作负载A或工作负载C。在至少一个实施例中,存储228包括分区A 230、分区B 232、分区C 234和卷组236。在至少一个实施例中,存储228可以是物理卷。在至少一个实施例中,处理器组A 209可以访问分区A 230以存储与工作负载A202相关的数据,处理器组B 210可以访问分区B 232以存储与工作负载B相关的数据,并且处理器组C可以访问分区C以存储与工作负载C相关的数据。在至少一个实施例中,策略可以将各个分区限制到单个组。在至少一个实施例中,处理器组A 209不能访问分区B 232、分区C 234和卷组236。在至少一个实施例中,处理器组B不能访问分区A 230、分区C 234和卷组236。在至少一个实施例中,分区处理器组C不能访问分区A 230、分区B 232和卷组236。在至少一个实施例中,由协调服务(诸如图1的协调服务102)实现将分区限制到所分配的处理器组。在至少一个实施例中,处理器组被挂载到单个所分配的分区。由于处理器组可由不同用户使用,因此将处理器组限制到所分配的存储有助于保护存储在存储228中的数据不受其他处理器组的未授权访问。此外,将分区分配给各个处理器组防止组利用不成比例的存储228的量。例如,如果一组16%的可用处理器利用共享存储的80%的可用存储,则其他84%的处理器可能不能够利用剩余20%的存储228来有效地执行工作负载。在至少一个实施例中,将分区链接到处理器组包括将分区挂载到处理器组。在至少一个实施例中,卷组236可以用于存储计算机程序,诸如机器学习训练应用或分析应用。在至少一个实施例中,卷组236的存储不可用于被分区以存储将由处理器组使用的训练数据。在至少一个实施例中,分区A 230、分区B 232和分区C 234形成与卷组236不同的卷组。在至少一个实施例中,卷组236是将与可以被分配其他工作负载的其他处理器(未示出)结合使用的可用存储。
在至少一个实施例中,分区大小基于相应组中的处理器的数量来确定。在至少一个实施例中,处理器组A、B和C包括总共六个处理器,其中50%的处理器被分配给处理器组A209。在至少一个实施例中,分区A 230被分区为具有存储228的卷组中的大约50%的所分配存储的大小。在至少一个实施例中,处理器组B 210包括两个处理器,其为所分配存储的33%。在至少一个实施例中,分区B可以是所分配存储的大约33%。在至少一个实施例中,具有大约16%的所分配处理器的处理器组C 211可以被分配具有大约16%的所分配存储的分区C。在至少一个实施例中,一旦工作负载A 202结束,分区A 230被删除,并且对应于分区A230的存储是将由不同的组使用的可用存储。在至少一个实施例中,存储228包括可以被分区以供另一个处理器组(未示出)使用的可用存储(未示出)。在至少一个实施例中,随着工作负载完成以及分区被删除,处理器和对应分区的不同组合的新组被创建以处理新的工作负载。不同组的处理器可至少部分地基于可用存储的量或可用处理器的数量来利用由存储228中的不同存储块形成的分区。在至少一个实施例中,存储228的分区可以由协调服务引起。
图3示出了根据至少一个实施例的示出处理器的组与逻辑卷之间的关系的表300。图3的一个或更多个方面可以与本文描述的至少一个实施例的一个或更多个方面组合,包括至少结合图1、图2和图4-图7描述的实施例。在至少一个实施例中,表300存储在协调服务可访问的存储中。在至少一个实施例中,表由协调服务管理。在至少一个实施例中,协调服务使用表300来将处理器和存储分区分配给工作负载。根据至少一个实施例,表300包括表示组ID 302、处理器数量304、逻辑卷地址306和逻辑卷大小308的数据。根据至少一个实施例,表300可以由协调服务维护。在至少一个实施例中,组ID 302是表示正用于执行工作负载的特定组的处理器或可用数量的处理器的值。在至少一个实施例中,组ID 302可以是识别工作负载或处理器的组的值。在至少一个实施例中,处理器数量304可以是表示被分配给每个组的处理器的数量的值。在至少一个实施例中,处理器数量304可以指示处理能力的量而不是处理器的实际计数。例如,对更强大的类型的处理器的计数可以为对不太强大的处理器的计数的两倍。在至少一个实施例中,逻辑卷地址306可以是表示由集群的处理器共享的存储的逻辑卷的地址的值。逻辑卷地址可以是允许访问对应于逻辑卷的分区的任何类型的指示符。在至少一个实施例中,组具有可用于访问逻辑卷的逻辑卷地址306的对应值。在至少一个实施例中,每个组可以被挂载到表300中指示的相应地址处的大小的逻辑卷。在至少一个实施例中,可用组表示未被分组(例如,可用)的处理器和可用存储的量。在至少一个实施例中,逻辑卷大小308是指示逻辑卷的大小的值。在至少一个实施例中,逻辑卷大小308的量被确定为与用于执行工作负载的处理器304的对应量成比例。这可以通过确保每个工作负载和对应的组具有存储中可用的以与执行工作负载结合使用的可预测空间量来提供优点。在至少一个实施例中,表300可以由协调服务使用,以确定用于给定的一组处理器或工作负载的新的逻辑卷的大小。根据实施例,表300中的值包括使用十六进制数字系统的值,而在其他实施例中,值可以用其他数字系统来表示。在至少一个实施例中,表300中的值用于确定分配给工作负载的处理器的数量。
图4示出了根据至少一个实施例的用于创建和删除将由处理器的组使用以执行工作负载的存储中的分区的示意性框图。结合图4描述的至少一个实施例的一个或更多个方面可以与本文描述的至少一个实施例的一个或更多个方面组合,包括至少结合图1-图3和图5-图7描述的实施例。在至少一个实施例中,框图400示出了协调服务402创建和删除存储404中的存储分区以由处理器406用于处理工作负载的示例。在至少一个实施例中,存储404相对于处理器406是本地存储。存储404可以是硬盘存储的卷组。在至少一个实施例中,协调服务402是经由CSI API和LVM与存储404交互的容器管理服务(例如,Kubernetes)。根据实施例,协调服务402向存储404发起创建存储卷请求410。根据实施例,创建卷请求410可以指定要创建以供处理器406使用的卷组的大小。在至少一个实施例中,创建卷410可以在集群启动时执行。在至少一个实施例中,要创建的卷组的大小可以是存储404的总存储或可用存储的预定义量。根据至少一个实施例,协调服务402向存储404发送对可用存储412的请求。在至少一个实施例中,对可用存储412的请求是指存储404的总存储量。在至少一个实施例中,可用存储对应于未被分区或未被分配给例如其他工作负载/处理器组的存储的存储量。在至少一个实施例中,对应于由处理器用来执行工作负载的计算机程序(例如,训练例程)的数据被存储在存储404的与处理工作负载结合使用的数据不同的卷组中。在至少一个实施例中,出于为处理器406的组确定分区的目的,不包括存储404的一个或更多个卷组作为可用存储。例如,存储404可将数据存储在与在处理器406的主机上运行的分析程序或工作节点相关的卷组中。在至少一个实施例中,卷组不可用于由处理器组使用。在至少一个实施例中,存储这样的数据的卷组不是可用于由处理器组使用以存储与处理工作负载结合使用的数据的存储。在至少一个实施例中,存储404返回指示存储404上的可用存储414的量的信息。例如,存储404可返回关于当前分区或未分区的空间的信息。在至少一个实施例中,协调服务402将对可用处理器的数量416的请求发送到处理器406。在至少一个实施例中,协调服务402从存储在协调服务402处的信息获得可用处理器。在至少一个实施例中,协调服务402维护跟踪正在被执行的工作负载的表,并且可以从表中获得可用处理器。在至少一个实施例中,对处理器的数量416的请求可以指示对可以用于处理工作负载的处理器的总数量或一次未被分配给工作负载的处理器的数量的请求。在至少一个实施例中,可以在处理器406的主机处接收对处理器的数量416的请求。在至少一个实施例中,处理器406处的工作节点或扫描实用程序可以确定可用处理器406的数量。在至少一个实施例中,可用的处理器的数量是指未分配给工作负载的处理器406的总数量或可用于执行工作负载的处理器406的总数量。在至少一个实施例中,指示可用的处理器418的数量的信息被返回到协调服务402。在至少一个实施例中,可以由处理器至少部分地基于可用处理器406的数量、可用存储404的量和用于执行工作负载的处理器406的数量来确定分区到工作负载(和处理器406的对应子组)的存储404的量。
在至少一个实施例中,对某量的存储404创建分区420的请求从协调服务402被发送到存储404。在至少一个实施例中,在存储404处创建分区。在至少一个实施例中,对存储404已经被分区的确认421的指示从存储404被发送到协调服务402。在至少一个实施例中,确认421包括指示所创建分区的地址的信息。在至少一个实施例中,分区信息(例如,分区地址)被发送到处理器406。在至少一个实施例中,分区信息可以包括允许分区被访问的标识符。在至少一个实施例中,分区信息422被提供给处理器。在至少一个实施例中,提供分区信息允许分区被挂载,并且可允许分区用作存储。在至少一个实施例中,分区被挂载到被分配给工作负载的一组处理器406。在至少一个实施例中,一组处理器406访问424所创建的分区以执行工作负载。在至少一个实施例中,存储404中的分区用于存储由一组处理器使用以训练神经网络的训练数据。
根据至少一个实施例,例如由处理器406处的工作节点向协调服务402提供指示工作负载已经结束426的信息。在至少一个实施例中,在接收到指示工作负载已结束426的信息之后,协调服务向存储404发送删除所创建的分区428的命令。在至少一个实施例中,在确定已经发生事件之后,工作负载可以结束。例如,一旦某数量的迭代已经发生或已经达到所期望的质量阈值,则执行工作负载可以结束。在至少一个实施例中,在存储404处删除所创建的分区。在至少一个实施例中,删除分区可使得存储在分区处的数据被删除。在至少一个实施例中,删除分区导致对应的存储空间可用于被分区以被使用以及可用于关于另一工作负载被使用。在至少一个实施例中,至少部分地通过协调服务402引起删除分区428的请求以提供给存储404,来删除分区。在至少一个实施例中,请求被发送至处理器406,以从其被分配给的存储分区解挂载一组处理器406。在至少一个实施例中,可以针对每个工作负载重复图4中描绘的元素。
图5示出了根据至少一个实施例的示出CSI、LVM和存储的示意性框图500。结合图5描述的至少一个实施例的一个或更多个方面可以与本文描述的至少一个实施例的一个或更多个方面组合,包括至少结合图1-图4、图6和图7描述的实施例。在至少一个实施例中,CSI 510是可以被合并到协调服务中的接口,例如,Kubernetes平台或用于将容器化应用程序的部署、缩放或管理自动化的任何合适的平台。在至少一个实施例中,CSI 510连接到LVM520。在至少一个实施例中,LVM连接到存储548。在至少一个实施例中,LVM 520是使用一个或更多个处理器来使存储分区被创建或销毁的计算机程序或计算机系统。在一个或更多个实施例中,LVM 520从存储548或协调服务获得关于存储548的信息。在至少一个实施例中,LVM 520确定将被分区以用于工作负载的存储548的量。在至少一个实施例中,CSI 510是协调服务和LVM 520之间的接口,以允许LVM 520和协调服务之间的信息通信。在至少一个实施例中,协调服务使用CSI 510从LVM 520获得关于存储548的信息,诸如关于存储548处的现有卷组或可用存储的信息。在至少一个实施例中,协调服务管理逻辑卷、物理卷或存储548上的卷组的创建和删除。在至少一个实施例中,LVM 520使得逻辑卷、物理卷或卷组在存储548上被创建或删除。在至少一个实施例中,LVM 520获得至少指示可用存储的量或存储548的卷的总容量的信息。在至少一个实施例中,可以由协调服务跟踪和存储指示存储548处的可用存储或现有分区的信息。在至少一个实施例中,存储548处的可用空间对应于存储548处的可用于被分区的空间量。在至少一个实施例中,可用存储对应于卷或卷组的未分区的存储。在至少一个实施例中,可用存储对应于卷或卷组的总存储量。在至少一个实施例中,CSI 510或LVM 520被合并到协调服务中,所述协调服务可以管理在主机上运行的工作负载,所述主机可以包括用于执行工作负载的多个处理器。在至少一个实施例中,CSI 510包括插件或驱动器,该插件或驱动器将与协调服务一起使用以将存储548处的分区连接到在处理器组上运行的工作负载。在至少一个实施例中,协调服务不能与存储548的存储块进行交互。在至少一个实施例中,将CSI 510或LVM 520合并到协调服务中允许协调服务与存储548的存储块进行交互。在至少一个实施例中,存储548是物理卷的卷组。在至少一个实施例中,存储548相对于主机是本地存储。在至少一个实施例中,主机可以是可用于执行一个或更多个工作负载的一个或更多个处理器的集群。在至少一个实施例中,工作负载由不同用户发起。在至少一个实施例中,LVM 520经由CSI 510从协调服务获得分区信息542。在至少一个实施例中,分区信息542包括将被用于执行工作负载的处理器的数量、将被创建的分区的大小、可用处理器的数量、或可用存储的量。在至少一个实施例中,LVM 520至少部分地使用分区信息542确定要分区的存储的量。在至少一个实施例中,分区的大小在分区信息中被指定。在至少一个实施例中,LVM 520向存储548发送请求546。在至少一个实施例中,请求546包括创建或删除分区的命令。在至少一个实施例中,请求546包括指示分区的大小、卷组或地址的信息。在至少一个实施例中,LVM 520从存储548接收分区信息响应550以确认已创建或删除所请求的分区。在至少一个实施例中,响应包括分区的地址。在至少一个实施例中,响应550包括指示可用存储548的量的信息。在至少一个实施例中,所创建的分区信息552包括指示分区的地址或确认分区已经被创建或销毁的信息。在至少一个实施例中,所创建的分区信息552可以指示存储548处的可用空间的量。在至少一个实施例中,分区信息542指示将用于执行工作负载的主机的处理器的数量。在至少一个实施例中,LVM 520将对应请求发送到存储548以创建具有所请求特性的分区。在至少一个实施例中,分区信息542包括指示对可用存储的请求的请求546。
在至少一个实施例中,分区信息542指定关于将要在存储548中创建分区的一个或更多个特性,诸如分区大小。在至少一个实施例中,分区信息542包括可由LVM 520用来确定要在存储548处创建的分区的大小的信息。例如,分区信息可以指示分配给工作负载的处理器的数量、可用处理器的数量、或存储548处的可用存储的量。在至少一个实施例中,分区信息542或请求546包括指示要在存储548处创建的卷的类型的信息,诸如pv(物理卷)、lv(逻辑卷)或vg(卷组)。在至少一个实施例中,分区信息542或请求546指示要创建的分区的大小。在至少一个实施例中,分区信息542或请求546包括存储548的现有分区的标识符。在至少一个实施例中,分区信息542或请求546可以指定存储548的特定卷组或存储卷。在至少一个实施例中,分区信息542或请求546可以指示对存储548的存储卷的卷组上的可用存储的请求。在至少一个实施例中,分区请求546可以指示删除存储548上的分区的请求。
在至少一个实施例中,LVM 520向存储548发送请求546。在至少一个实施例中,请求546包括创建给定大小的逻辑卷的命令。在至少一个实施例中,请求546包括作为对存储548上的可用存储的请求的命令。在至少一个实施例中,请求546用于删除存储548的分区。在至少一个实施例中,请求546包括在存储548中创建或删除卷组的请求。例如,LVM 520可以向存储548发送在存储548处创建逻辑卷的请求546“lv creat lv-00”。
在至少一个实施例中,从存储548向CSI 510提供响应550。在至少一个实施例中,响应550包括对来自LVM 520的请求546已经完成的确认。在至少一个实施例中,响应550包括所创建的分区的地址。地址可以允许由执行工作负载的一组的一个或更多个处理器访问分区。在至少一个实施例中,响应550包括逻辑卷已被删除的指示。在至少一个实施例中,响应550包括存储548处的经分区的空间或可用空间的量。在至少一个实施例中,所创建的分区信息552从CSI 510被提供给LVM 520。在至少一个实施例中,所创建的分区信息552可以包括存储548处的分区的地址。在至少一个实施例中,所创建的分区信息552包括使用的或可用的存储的量。在至少一个实施例中,所创建的分区信息552包括要分配给分区的工作负载的标识。在至少一个实施例中,所创建的分区信息552包括逻辑卷已被删除的指示。在至少一个实施例中,所创建的分区信息552包括可用于在存储548处分区的存储的量或存储548的各个分区的大小。
图6示出了根据至少一个实施例的在存储中实现分区以由一个或更多个处理器使用以处理工作负载的过程600。结合图6描述的至少一个实施例的一个或更多个方面可以与本文描述的至少一个实施例的一个或更多个方面组合,包括至少结合图1-图5和图7描述的实施例。在至少一个实施例中,过程600部分地在包括LVM和CSI的协调服务上实现。在至少一个实施例中,过程可以至少部分地由连接到存储和协调管理器的LVM来实现。在至少一个实施例中,协调服务连接到处理器的集群和存储。根据至少一个实施例,过程600以操作602开始,该操作由处理器执行以获得存储处可用的空间量。可以通过使用扫描实用程序扫描物理存储来执行在存储上可用的存储空间的量。例如,协调服务的处理器使得存储被扫描以确定存储的卷组的大小。在至少一个实施例中,至少部分地通过从表获得数据来确定可用存储的量。在至少一个实施例中,LVM获得存储中的可用空间的量。在至少一个实施例中,可用存储空间可以对应于存储的卷组的存储空间的总量。在至少一个实施例中,可用存储可以对应于卷组中未被分区以供其他工作负载使用的存储的量。在至少一个实施例中,可用存储对应于专用于存储将在结合一个或更多个处理器执行工作负载时使用的数据的存储的卷组。在至少一个实施例中,可用存储空间不包括将不用于由处理器执行工作负载的存储的卷组。在至少一个实施例中,存储处的可用空间可以对应于用于存储用于涉及训练神经网络或机器学习的工作负载的训练数据(例如,数据集)的物理卷的卷组。在至少一个实施例中,物理卷的其他卷组可以从对存储处的可用存储的确定中排除。在至少一个实施例中,可用存储空间可以对应于尚未被分区的卷组的量。在至少一个实施例中,从协调服务所维护的表中确定可用存储空间。在至少一个实施例中,当完成工作负载并且删除(例如,销毁)与工作负载相关联的存储的分区时,可以更新表。
过程600继续由处理器执行的操作604,该操作获得集群中的处理器的数量,这在本文至少结合图1至图5进行讨论。根据实施例,可通过处理器扫描集群以确定集群中的一个或更多个处理器的数量来获得集群处的处理器的数量。在至少一个实施例中,从被维护以跟踪集群中的处理器的状态的表获得处理器的数量。在至少一个实施例中,由处理器执行的监视实用程序应用跟踪集群的处理器的状态。在至少一个实施例中,至少部分地基于可用处理器的数量来确定分配给工作负载的处理器的数量。在至少一个实施例中,所确定的集群中处理器的数量对应于集群中可用于被分配给工作负载的处理器的数量。在至少一个实施例中,集群中的所确定数量的处理器中不包括正在经历维护或者不可操作的处理器。在至少一个实施例中,集群中所确定数量的处理器对应于可用于被分配给工作负载的处理器的数量。在至少一个实施例中,集群处的处理器的数量对应于集群中在给定时间未被分配给其他工作负载的处理器的数量。在至少一个实施例中,集群中处理器的总数量是静态的。在至少一个实施例中,集群中的处理器的数量随着作为主机的处理器被添加到集群或从集群移除而改变。在至少一个实施例中,集群中的可用处理器的数量随着工作负载被发起或完成而改变。
过程600继续由处理器执行的操作606,该操作获得分配给工作负载的处理器的数量,这在本文至少结合图1-图5和图7进一步描述。在至少一个实施例中,在请求中提供分配给工作负载的处理器的数量。协调服务的处理器可以从查找表获得分配给工作负载的处理器的数量。在至少一个实施例中,一个或更多个处理器的组被分配给用户,并且代表用户执行的工作负载利用该组。组中的处理器的数量可以对应于分配给工作负载的处理器的数量。用于由一个或更多个处理器执行的工作负载的一个或更多个处理器的数量可以由集群提供的计算服务的用户指定。在至少一个实施例中,例如协调服务的处理器确定集群中一个或更多个处理器的数量以分配给工作负载。要分配的处理器的数量可以至少部分地基于工作负载中的计算操作的复杂性来确定。例如,与涉及基本算术运算的工作负载相比,涉及高阶计算(诸如导数)的工作负载可以被分配更多的处理器。被指定或估计用于执行工作负载的训练迭代的数量也可以影响分配给工作负载的处理器的数量。工作负载参数(例如,时间约束)还可影响分配给工作负载的处理器的数量。例如,如果用户指定工作负载要被加速,则可以给它分配比对时间约束要求较低的工作负载更多的处理器。在一个或更多个实施例中,可以至少部分地基于集群处可用的处理器的数量来确定分配给工作负载的处理器的数量。例如,如果集群正经历高需求或具有有限数量的尚未分配给工作负载或组的处理器,那么可减少分配给工作负载的处理器的数量。
过程600继续由处理器执行的操作608,该操作确定要分配给工作负载的存储的量,如本文进一步描述的,包括至少结合图1-图5和图7描述的。根据实施例,可以使用等式:S=(V/G)*N来确定分配给工作负载的存储的量,其中:
S=要分配给工作负载的存储的量;
V=存储中可用于在执行工作负载中使用的空间量;
G=集群上可用的处理器的数量;以及
N=分配给工作负载的处理器的数量。
在至少一个实施例中,如果针对包括50个处理器(G)的集群,将在处理工作负载中使用的存储的卷组的大小(V)是100TB,并且集群中的处理器中的10个处理器(N)被分配给工作负载,则大约20TB的存储被分配给工作负载。在至少一个实施例中,每个工作负载和对应的一组处理器具有与用于执行工作负载的一个或更多个处理器的数量成比例的存储的量。这提供了优于其他实现方式的优点,在这些其他实现方式中,工作负载共享的大多数存储可以由一个或更多个工作负载利用,由此使得其他工作负载缺乏足够的存储。在至少一个实施例中,V对应于存储中的可用空间,并且G对应于集群中的可用处理器。在至少一个实施例中,V对应于可以被分配给工作负载的存储的总量,并且G对应于集群中的可用处理器的总数量。
过程600继续由处理器执行的操作610,该操作使得对存储处的所确定的存储空间量进行分区。在至少一个实施例中,至少部分地通过创建与所确定的存储空间量相对应的逻辑卷来对所确定的存储空间量进行分区。在至少一个实施例中,由处理器至少部分地经由CSI对存储空间量进行分区。在至少一个实施例中,所创建的逻辑卷可以被挂载到被分配给工作负载的一组处理器。在至少一个实施例中,将存储挂载到一组处理器允许访问专用存储卷。在至少一个实施例中,分区过程删除先前存储在分区的存储块中的先前数据。这可以在数据安全性方面提供优点,因为工作负载不能访问由其他工作负载所使用的数据。在至少一个实施例中,将逻辑卷挂载到执行工作负载的一组处理器限制指定的一组处理器对逻辑卷的可访问性。在至少一个实施例中,与工作负载相对应的每组处理器实际上具有专用存储,该专用存储不能被不在该组处理器中的处理器访问,该组处理器访问所设计的存储以执行工作负载。在其他实现方式中,共享存储可以由执行不同工作负载的处理器的组访问,这导致如果数据用于处理属于不同工作负载的工作负载,则存储在共享存储中的数据不安全,并且可能导致较差的训练性能。过程600可以针对每个工作负载重复。
图7示出了根据至少一个实施例的用于删除(例如,销毁)由一个或更多个处理器用于处理工作负载的分区的过程700。结合图6描述的至少一个实施例的一个或更多个方面可以与本文描述的至少一个实施例的一个或更多个方面组合,包括至少结合图1-图5和图7描述的实施例。在至少一个实施例中,过程700可以至少部分地基于协调服务通过CSI来实现。根据实施例,过程700开始于操作704,该操作由处理器执行以针对工作负载创建分区。在至少一个实施例中,用于执行工作负载的一个或更多个处理器被挂载到分区。在至少一个实施例中,操作704作为来自工作负载管理器的创建分区以执行工作负载的请求的结果而被发起。
过程700继续由处理器执行的操作706,该操作确定使用分区的工作负载已经完成。在至少一个实施例中,至少部分地基于工作负载管理器发送工作负载已经终止的通知来确定工作负载被完成。在至少一个实施例中,在从创建分区起已经过去一时间量之后,确定工作负载被完成。在至少一个实施例中,通过接收到删除(例如,销毁)特定分区的通知来确定工作负载被完成。在至少一个实施例中,当执行机器学习或神经网络训练操作的计算机程序已经完成执行或指示训练过程已经完成时,工作负载被完成。
过程700继续由处理器执行的操作708以删除分区。在至少一些实施例中,LVM接收删除分区的通知。在至少一些实施例中,LVM使命令被发送到存储以删除分区,这可使得存储删除分区。在至少一个实施例中,删除分区使得从执行工作负载的一个或更多个处理器解挂载该分区。在至少一个实施例中,然后对应于该分区的存储可用于被分区以用于不同的工作负载使用(例如,在未来的时间)。在至少一个实施例中,获得指示分区已被删除的确认。在至少一个实施例中,删除分区销毁了存储在该分区中的数据。在至少一个实施例中,针对每个工作负载重复过程700。在至少一个实施例中,过程700允许存储分区的动态分配,以由一组处理器使用以处理工作负载。
在至少一个实施例中,协调管理器(例如,LVM)使得主机处的存储的量被分配给对应于所确定值S的工作负载。在至少一个实施例中,LVM可使得存储以分配的量被分配用于工作负载。在至少一个实施例中,LVM使得根据分配的量对来自主机处的共享存储的逻辑卷进行分区。在至少一个实施例中,经分区的本地存储被限制到工作负载或与工作负载相关联的用户。在至少一个实施例中,添加到用于工作负载的分区的数据集不可由其他工作负载或其他用户访问。在至少一个实施例中,将分区限制到指定的一组处理器可以保护用于工作负载的数据集不被其他工作负载访问。
在至少一个实施例中,工作负载可以使用分配给工作负载的时隙和主机处的用于工作负载的存储的分区来在主机处运行。在至少一个实施例中,作为完成工作负载的结果,LVM可使得删除分区。例如,可以通过将分区重置为默认的或格式化分区来销毁分区。删除与工作负载相关联的分区可以帮助维持工作负载所使用的数据的安全性以及防止此类数据被另一工作负载访问。在至少一个实施例中,LVM通过发送删除分区或重新格式化分区的命令来使分区被销毁。
服务器和数据中心
以下附图阐述了但不限于可以用于实现至少一个实施例的基于示例性网络服务器和数据中心的系统。
图8示出了根据至少一个实施例的分布式系统800。在至少一个实施例中,图8至少部分地基于用于执行一个或更多个计算机程序的一个或更多个部分和/或以其他方式执行本文结合图1-图7描述的操作的处理器的数量,使得分配存储的量以存储将由一个或更多个计算机程序使用的数据。在至少一个实施例中,分布式系统800包括一个或更多个客户端计算设备802、804、806和808,其被配置成在一个或更多个网络810上执行和操作客户端应用,诸如网络(web)浏览器、专有客户端和/或其变体。在至少一个实施例中,服务器812可以经由网络810与远程客户端计算设备802、804、806和808通信地耦合。
在至少一个实施例中,服务器812可适于运行一个或更多个服务或软件应用,诸如可管理跨多个数据中心的单点登录(SSO)访问的会话活动的服务和应用。在至少一个实施例中,服务器812还可以提供其他服务,或者软件应用,其可以包括非虚拟和虚拟环境。在至少一个实施例中,这些服务可作为基于web的服务或云服务或在软件即服务(SaaS)模型下被提供给客户端计算设备802、804、806和/或808的用户。在至少一个实施例中,操作客户端计算设备802、804、806和/或808的用户又可以利用一个或更多个客户端应用来与服务器812交互以利用由这些组件提供的服务。
在至少一个实施例中,系统800的软件组件818、820和822在服务器812上实现。在至少一个实施例中,系统800的一个或更多个组件和/或由这些组件提供的服务也可由客户端计算设备802、804、806和/或808中的一个或更多个来实现。在至少一个实施例中,操作客户端计算设备的用户然后可以利用一个或更多个客户端应用来使用由这些组件提供的服务。在至少一个实施例中,这些组件可以用硬件、固件、软件或其组合来实现。应当理解,各种不同的系统配置是可能的,其可以不同于分布式系统800。因此,图8所示的实施例是用于实现实施例系统的分布式系统的一个示例,并且不旨在是限制性的。
在至少一个实施例中,客户端计算设备802、804、806和/或808可以包括不同类型的计算系统。在至少一个实施例中,客户端计算设备可以包括便携式手持设备(例如,蜂窝电话、计算平板、个人数字助理(PDA))或可穿戴设备(例如,Google头戴式显示器),运行软件(如Microsoft Windows)和/或各种移动操作系统(诸如iOS、Windows Phone、Android、BlackBerry 10、Palm OS和/或其变体)。在至少一个实施例中,设备可以支持不同应用,诸如不同互联网相关的应用、电子邮件、短消息服务(SMS)应用,并且可以使用各种其他通信协议。在至少一个实施例中,客户端计算设备还可以包括通用个人计算机,通过示例的方式,所述通用个人计算机包括运行各种版本的Microsoft Apple和/或Linux操作系统的个人计算机和/或膝上型计算机。在至少一个实施例中,客户端计算设备可以是运行各种可商购的或类似UNIX的操作系统中的任一种的工作站计算机,包括但不限于各种GNU/Linux操作系统,诸如Google Chrome OS。在至少一个实施例中,客户端计算设备还可以包括能够通过一个或更多个网络810进行通信的电子设备,诸如瘦客户端计算机、启用互联网的游戏系统(例如,具有或不具有手势输入设备的微软Xbox游戏控制台)、和/或个人消息传递设备。尽管图8中的分布式系统800被示为具有四个客户端计算设备,但可支持任何数量的客户端计算设备。其他设备(诸如具有传感器的设备等)可与服务器812交互。
在至少一个实施例中,分布式系统800中的网络810可以是能够使用各种可用协议中的任何协议来支持数据通信的任何类型的网络,包括但不限于TCP/IP(传输控制协议/互联网协议)、SNA(系统网络架构)、IPX(互联网分组交换)、AppleTalk和/或其变体。在至少一个实施例中,网络810可以是局域网(LAN),基于以太网的网络、令牌环、广域网、互联网、虚拟网络、虚拟专用网(VPN)、内联网、外联网、公共交换电话网络(PSTN)、红外网络、无线网络(例如,在电气与电子协会(IEEE)802.11协议组、和/或任何其他无线协议中的任一者下运行的网络),和/或这些和/或其他网络的任何组合。
在至少一个实施例中,服务器812可以由一个或更多个通用计算机、专用服务器计算机(通过示例的方式,包括PC(个人计算机)服务器、服务器、中程服务器、大型计算机、机架式服务器等)、服务器农场、服务器集群或任何其他适当的布置和/或组合组成。在至少一个实施例中,服务器812可包括运行虚拟操作系统的一个或更多个虚拟机或涉及虚拟化的其他计算架构。在至少一个实施例中,可以虚拟化一个或更多个灵活的逻辑存储设备池,以便为服务器维护虚拟存储设备。在至少一个实施例中,虚拟网络可由服务器812使用软件定义的网络来控制。在至少一个实施例中,服务器812可适于运行一个或更多个服务或软件应用。
在至少一个实施例中,服务器812可以运行任何操作系统,以及任何可商购的服务器操作系统。在至少一个实施例中,服务器812还可以运行各种附加服务器应用和/或中层应用中的任一种,包括HTTP(超文本传输协议)服务器、FTP(文件传输协议)服务器、CGI(公共网关接口)服务器、服务器、数据库服务器和/或其变体。在至少一个实施例中,示例性数据库服务器包括但不限于从Oracle、Microsoft、Sybase、IBM(国际商业机器)和/或其变体可商购的那些。
在至少一个实施例中,服务器812可包括一个或更多个应用,用于分析和合并从客户端计算设备802、804、806和808的用户接收的数据馈送和/或事件更新。在至少一个实施例中,数据馈送和/或事件更新可以包括但不限于,从一个或更多个第三方信息源和连续数据流接收的馈送、更新或实时更新,其可以包括与传感器数据应用、金融报价器、网络性能测量工具(例如,网络监视和业务管理应用)相关的实时事件,点击流分析工具、汽车交通监测和/或其变化。在至少一个实施例中,服务器812还可以包括用于经由客户端计算设备802、804、806和808的一个或更多个显示设备来显示数据馈送和/或实时事件的一个或更多个应用。
在至少一个实施例中,分布式系统800还可包括一个或更多个数据库814和816。在至少一个实施例中,数据库可提供用于存储信息(诸如用户交互信息、使用模式信息、适配规则信息和其他信息)的机制。在至少一个实施例中,数据库814和816可以驻留在各种位置中。在至少一个实施例中,数据库814和816中的一个或更多个可以驻留在服务器812本地(和/或驻留在服务器812中)的非暂态存储介质上。在至少一个实施例中,数据库814和816可以远离服务器812并且经由基于网络的连接或专用连接与服务器812通信。在至少一个实施例中,数据库814和816可以驻留在存储区域网络(SAN)中。在至少一个实施例中,用于执行归属于服务器812的功能的任何必要的文件可以适当地本地存储在服务器812上和/或远程存储。在至少一个实施例中,数据库814和816可以包括关系数据库,诸如适于响应于SQL格式化的命令而存储、更新和检索数据的数据库。
图9示出了根据至少一个实施例的示例性数据中心900。在至少一个实施例中,数据中心900包括但不限于数据中心基础设施层910、框架层920、软件层930和应用层940。
在至少一个实施例中,如图9所示,数据中心基础设施层910可以包括资源协调器912、分组的计算资源914和节点计算资源(“节点C.R.”)916(1)-916(N),其中“N”表示任何完整的正整数。在至少一个实施例中,图9用于至少部分地基于用于执行一个或更多个计算机程序的一个或更多个部分和/或以其他方式执行本文结合图1-图7描述的操作的处理器的数量,使得分配存储的量以存储将由一个或更多个计算机程序使用的数据。在至少一个实施例中,节点C.R.916(1)-916(N)可以包括但不限于任意数量的中央处理单元(“CPU”)或其他处理器(包括加速器、现场可编程门阵列(“FPGA”)、图形处理器等)、存储器设备(例如,动态只读存储器)、存储设备(例如,固态硬盘或磁盘驱动器)、网络输入/输出(“NW I/O”)设备、网络交换机、虚拟机(“VM”)、功率模块和冷却模块等。在至少一个实施例中,节点C.R.916(1)-916(N)中的一个或更多个节点C.R.可以是具有一个或更多个上述计算资源的服务器。
在至少一个实施例中,分组的计算资源914可以包括容纳在一个或更多个机架内的节点C.R.的单独分组(未示出),或者容纳在各个地理位置的数据中心内的许多机架(也未示出)。分组的计算资源914内的节点C.R.的单独分组可以包括可以被配置或分配为支持一个或更多个工作负载的分组的计算、网络、存储器或存储资源。在至少一个实施例中,可以将包括CPU或处理器的几个节点C.R.分组在一个或更多个机架内,以提供计算资源来支持一个或更多个工作负载。在至少一个实施例中,一个或更多个机架还可以包括任意数量的电源模块、冷却模块和网络交换机,以任意组合。
在至少一个实施例中,资源协调器912可以配置或以其他方式控制一个或更多个节点C.R.916(1)-916(N)和/或分组的计算资源914。在至少一个实施例中,资源协调器912可以包括用于数据中心900的软件设计基础结构(“SDI”)管理实体。在至少一个实施例中,资源协调器912可以包括硬件、软件或其某种组合。
在至少一个实施例中,如图9所示,框架层920包括但不限于作业调度器932、配置管理器934、资源管理器936和分布式文件系统938。在至少一个实施例中,框架层920可以包括支持软件层930的软件952和/或应用程序层940的一个或更多个应用程序942的框架。在至少一个实施例中,软件952或应用程序942可以分别包括基于Web的服务软件或应用程序,例如由Amazon Web Services、Google Cloud和Microsoft Azure提供的服务或应用程序。在至少一个实施例中,框架层920可以是但不限于一种免费和开放源软件网络应用框架,例如可以利用分布式文件系统938来进行大范围数据处理(例如“大数据”)的Apache SparkTM(以下称为“Spark”)。在至少一个实施例中,作业调度器932可以包括Spark驱动器,以促进对数据中心900的各个层所支持的工作负载进行调度。在至少一个实施例中,配置管理器934可以能够配置不同的层,例如软件层930和包括Spark和用于支持大规模数据处理的分布式文件系统938的框架层920。在至少一个实施例中,资源管理器936能够管理映射到或分配用于支持分布式文件系统938和作业调度器932的集群或分组计算资源。在至少一个实施例中,集群或分组计算资源可以包括数据中心基础设施层910上的分组的计算资源914。在至少一个实施例中,资源管理器936可以与资源协调器912协调以管理这些映射的或分配的计算资源。
在至少一个实施例中,包括在软件层930中的软件952可以包括由节点C.R.916(1)-916(N)的至少一部分,分组计算资源914和/或框架层920的分布式文件系统938使用的软件。一种或更多种类型的软件可以包括但不限于Internet网页搜索软件、电子邮件病毒扫描软件、数据库软件和流视频内容软件。
在至少一个实施例中,应用层940中包括的一个或更多个应用程序942可以包括由节点C.R.916(1)-916(N)的至少一部分、分组的计算资源914和/或框架层920的分布式文件系统938使用的一种或更多种类型的应用程序。一种或更多种类型的应用程序可以包括但不限于CUDA应用程序、5G网络应用程序、人工智能应用程序、数据中心应用程序、和/或其变体。
在至少一个实施例中,配置管理器934、资源管理器936和资源协调器912中的任何一个可以基于以任何技术上可行的方式获取的任意数量和类型的数据来实现任意数量和类型的自我修改动作。在至少一个实施例中,自我修改动作可以减轻数据中心900的数据中心操作员做出可能不好的配置决定并且可以避免数据中心的未充分利用和/或执行差的部分。
图10示出了根据至少一个实施例的由互连的多个网络服务器计算机1002形成的客户端-服务器网络1004。在至少一个实施例中,图10涉及至少部分地基于用于执行一个或更多个计算机程序的一个或更多个部分和/或以其他方式执行本文结合图1-图7描述的操作的处理器的数量,使得分配存储的量以存储由一个或更多个计算机程序使用的数据。在至少一个实施例中,在系统1000中,每个网络服务器计算机1002存储其他网络服务器计算机1002和链接到广域网1004中的客户端计算机1006和网络1008可访问的数据。在至少一个实施例中,当客户端计算机1006和一个或更多个网络1008与网络1004连接和断开连接时,以及当一个或更多个干线服务器计算机1002被添加到网络1004或从网络1004移除时,客户端-服务器网络1004的配置可随时间改变。在至少一个实施例中,当客户端计算机1006和网络1008与网络服务器计算机1002连接时,客户端-服务器网络包括这样的客户端计算机1006和网络1008。在至少一个实施例中,术语计算机包括能够接受数据、将规定的过程应用于数据以及提供过程的结果的任何设备或机器。
在至少一个实施例中,客户端-服务器网络1004存储网络服务器计算机1002、远程网络1008和客户端计算机1006可访问的信息。在至少一个实施例中,网络服务器计算机1002由大型计算机、小型计算机和/或各自具有一个或更多个处理器的微型计算机形成。在至少一个实施例中,服务器计算机1002通过有线和/或无线传输介质(诸如导线、光纤电缆)和/或微波传输介质、卫星传输介质或其他导电、光学或电磁波传输介质链接在一起。在至少一个实施例中,客户端计算机1006通过类似的有线或无线传输介质访问网络服务器计算机1002。在至少一个实施例中,客户端计算机1006可以使用调制解调器和标准电话通信网络链接到客户端-服务器网络1004中。在至少一个实施例中,替代性的运营商系统(如电缆和卫星通信系统)还可以用于链接到客户端-服务器网络1004中。在至少一个实施例中,可以使用其他私有或时间共享的运营商系统。在至少一个实施例中,网络1004是全球信息网络,诸如互联网。在至少一个实施例中,网络是使用与互联网类似的协议但具有添加的安全措施和受限的访问控制的私有内联网。在至少一个实施例中,网络1004是使用专有通信协议的私有或半私有网络。
在至少一个实施例中,客户端计算机1006是任何终端用户计算机,并且还可以是具有一个或更多个微处理器的大型计算机、小型计算机或微型计算机。在至少一个实施例中,服务器计算机1002有时可用作访问另一服务器计算机1002的客户端计算机。在至少一个实施例中,远程网络1008可以是局域网、通过用于互联网的独立服务提供商(ISP)被添加到广域网中的网络、或通过具有固定的或随时间改变的配置的有线或无线传输介质互连的另一组计算机。在至少一个实施例中,客户端计算机1006可以独立地或通过远程网络1008链接到网络1004中并且访问网络1004。
图11示出了根据至少一个实施例的连接一个或更多个计算机器的计算机网络1108的示例1100。在至少一个实施例中,图11涉及至少部分地基于执行一个或更多个计算机程序的一个或更多个部分和/或以其他方式执行本文结合图1-图7描述的操作的处理器的数量,使得分配存储的量以存储将由一个或更多个计算机程序使用的数据。在至少一个实施例中,网络1108可以是任何类型的电连接的计算机组,包括例如以下网络:互联网、内联网、局域网(LAN)、广域网(WAN)或这些网络类型的互连组合。在至少一个实施例中,网络1108内的连接可以是远程调制解调器、以太网(IEEE 802.3)、令牌环(IEEE 802.5)、光纤分布式数据链路接口(FDDI)、异步传输模式(ATM)或任何其他通信协议。在至少一个实施例中,链接到网络的计算设备可以是台式机、服务器、便携式、手持式、机顶盒、个人数字助理(PDA)、终端、或任何其他期望的类型或配置。在至少一个实施例中,取决于它们的功能性,网络连接的设备可以在处理能力、内部存储器和其他性能方面广泛地变化。在至少一个实施例中,网络内的通信以及去往或来自连接到网络的计算设备的通信可以是有线或无线的。在至少一个实施例中,网络1108可以至少部分地包括世界范围的公共互联网,其通常根据客户端-服务器模型根据传输控制协议/互联网协议(TCP/IP)规范连接多个用户。在至少一个实施例中,客户端-服务器网络是用于在两个计算机之间通信的主导模型。在至少一个实施例中,客户端计算机(“客户端”)向服务器计算机(“服务器”)发出一个或更多个命令。在至少一个实施例中,服务器通过访问可用网络资源并根据客户端命令向客户端返回信息来履行客户端命令。在至少一个实施例中,客户端计算机系统和驻留在网络服务器上的网络资源被分配网络地址,用于网络的元件之间的通信期间的识别。在至少一个实施例中,从其他网络连接的系统到服务器的通信将包括作为通信的一部分的相关服务器/网络资源的网络地址,使得数据/请求的适当目的地被识别为接收者。在至少一个实施例中,当网络1108包括全球互联网时,网络地址是TCP/IP格式的IP地址,其可至少部分地将数据路由到电子邮件账户、网站或驻留在服务器上的其他互联网工具。在至少一个实施例中,驻留在网络服务器上的信息和服务可以通过域名(例如www.site.com)(其映射到网络服务器的IP地址)对客户端计算机的web浏览器可用。
在至少一个实施例中,多个客户端1102、1104和1106经由相应的通信链路连接至网络1108。在至少一个实施例中,这些客户端中的每一个可以经由任何期望形式的通信(诸如经由拨号调制解调器连接、电缆链路、数字用户线(DSL)、无线或卫星链路、或任何其他形式的通信)来访问网络1108。在至少一个实施例中,每个客户端可以使用与网络1108兼容的任何机器(例如,个人计算机(PC)、工作站、专用终端、个人数据助理(PDA)或其他类似的设备)进行通信。在至少一个实施例中,客户端1102、1104和1106可以位于或可以不位于相同的地理区域中。
在至少一个实施例中,多个服务器1110、1112和1114连接到网络1108以服务于与网络1108通信的客户端。在至少一个实施例中,每个服务器通常是管理网络资源并对客户端命令作出响应的强大的计算机或设备。在至少一个实施例中,服务器包括存储程序指令和数据的计算机可读数据存储介质,诸如硬盘驱动器和RAM存储器。在至少一个实施例中,服务器1110、1112、1114运行响应于客户端命令的应用程序。在至少一个实施例中,服务器1110可以运行用于响应对HTML页面的客户端请求的web服务器应用,并且还可以运行用于接收和路由电子邮件的邮件服务器应用。在至少一个实施例中,在服务器1110上还可以运行其他应用程序,诸如用于将音频/视频数据流式传输至客户端的FTP服务器或媒体服务器。在至少一个实施例中,不同的服务器可以专用于执行不同的任务。在至少一个实施例中,服务器1110可以是为不同用户管理与网站相关的资源的专用web服务器,而服务器1112可以专用于提供电子邮件(email)管理。在至少一个实施例中,其他服务器可以专用于媒体(音频、视频等)、文件传输协议(FTP)或通常通过网络可用或提供的任何两个或更多个服务的组合。在至少一个实施例中,每个服务器可以在与其他服务器的位置相同或不同的位置中。在至少一个实施例中,可存在为用户执行镜像任务的多个服务器,从而减轻拥塞或最小化定向到和来自单个服务器的流量。在至少一个实施例中,服务器1110、1112、1114在维护和通过网络1108递送第三方内容的业务中的web托管提供者的控制下。
在至少一个实施例中,web托管提供商向两个不同类型的客户端递送服务。在至少一个实施例中,可被称为浏览器的一种类型从服务器1110、1112、1114请求内容,诸如网页、电子邮件消息、视频剪辑等。在至少一个实施例中,第二类型(其可以被称为用户)雇佣web托管提供商来维护网络资源(诸如网站)并使其可用于浏览器。在至少一个实施例中,用户与web托管提供商签订合同,以根据用户期望利用的服务器资源的量使存储器空间、处理器容量和通信带宽可用于他们期望的网络资源。
在至少一个实施例中,为了使web托管提供商为这两个客户端提供服务,必须适当地配置管理由服务器托管的网络资源的应用程序。在至少一个实施例中,程序配置过程涉及定义参数集,所述参数集至少部分地控制应用程序对浏览器请求的响应,并且还至少部分地定义特定用户可用的服务器资源。
在一个实施例中,内联网服务器1116经由通信链路与网络1108通信。在至少一个实施例中,内联网服务器1116与服务器管理器1118通信。在至少一个实施例中,服务器管理器1118包括在服务器1110、1112、1114中使用的应用程序配置参数的数据库。在至少一个实施例中,用户经由内联网1116修改数据库1120,并且服务器管理器1118与服务器1110、1112、1114交互以修改应用程序参数,使得它们匹配数据库的内容。在至少一个实施例中,用户通过经由计算机1102连接到内联网1116并且输入诸如用户名和密码之类的认证信息来登录到内联网1116。
在至少一个实施例中,当用户希望登录新服务或修改现有服务时,内联网服务器1116对用户进行认证并向用户提供允许用户访问特定应用程序的配置参数的交互式屏幕显示/控制面板。在至少一个实施例中,向用户呈现描述用户的网站或其他网络资源的配置的方面的多个可修改文本框。在至少一个实施例中,如果用户期望增加在服务器上为其网站保留的存储器空间,则向用户提供其中用户指定期望的存储器空间的字段。在至少一个实施例中,响应于接收到该信息,内联网服务器1116更新数据库1120。在至少一个实施例中,服务器管理器1118将该信息转发到适当的服务器,并且在应用程序操作期间使用新的参数。在至少一个实施例中,内联网服务器1116被配置为向用户提供对用户已与web托管服务提供商签订的托管网络资源(例如,网页、电子邮件、FTP站点、媒体站点等)的配置参数的访问。
图12A示出了根据至少一个实施例的联网计算机系统1200A。在至少一个实施例中,图12A至少部分地基于用于执行一个或更多个计算机程序的一个或更多个部分和/或以其他方式执行本文结合图1-图7描述的操作的处理器的数量,使得分配存储的量以存储由一个或更多个计算机程序使用的数据。在至少一个实施例中,联网计算机系统1200A包括多个节点或个人计算机(“PC”)1202、1218、1220。在至少一个实施例中,个人计算机或节点1202包括处理器1214、存储器1216、摄像机1204、麦克风1206、鼠标1208、扬声器1210和监视器1212。在至少一个实施例中,PC 1202、1218、1220可以各自运行例如给定公司内的内部网络的一个或更多个桌面服务器,或者可以是不限于特定环境的通用网络的服务器。在至少一个实施例中,网络的每PC节点有一个服务器,使得网络的每个PC节点表示具有特定网络URL地址的特定网络服务器。在至少一个实施例中,每个服务器默认为该服务器的用户的默认网页,该默认网页本身可包含指向该服务器上该用户的进一步子页面、或者指向网络上的其他服务器或其他服务器上的页面的嵌入式URL。
在至少一个实施例中,节点1202、1218、1220和网络的其他节点经由介质1222互连。在至少一个实施例中,介质1222可以是诸如综合服务数字网(“ISDN”)的通信信道。在至少一个实施例中,联网计算机系统的各个节点可以通过各种通信介质连接,包括局域网(“LAN”)、简易老式电话线(“POTS”)(有时被称为公共交换电话网络(“PSTN”))、和/或其变体。在至少一个实施例中,网络的各个节点还可以构成经由诸如互联网之类的网络互连的计算机系统用户。在至少一个实施例中,(在给定实例处从网络的特定节点运行的)网络上的每个服务器在网络内具有唯一地址或标识,该唯一地址或标识可以根据URL指定。
在至少一个实施例中,多个多点会议单元(“MCU”)因此可以用于向会议系统的各个节点或“端点”和从会议系统的各个节点或“端点”传输数据。在至少一个实施例中,除了各种其他通信介质(诸如,通过互联网连接的节点)之外,节点和/或MCU可经由ISDN链路或通过局域网(“LAN”)互连。在至少一个实施例中,会议系统的节点通常可以直接连接到通信介质(诸如LAN)或通过MCU连接,并且会议系统可以包括其他节点或元件,诸如路由器、服务器和/或其变体。
在至少一个实施例中,处理器1214是通用可编程处理器。在至少一个实施例中,联网计算机系统1200A的节点的处理器还可以是专用视频处理器。在至少一个实施例中,节点的不同外围设备和组件(诸如节点1202的那些)可以与其他节点的那些不同。在至少一个实施例中,节点1218和节点1220可以被配置为与节点1202相同或不同。在至少一个实施例中,除了PC系统之外,节点还可以在任何合适的计算机系统上实现。
图12B示出了根据至少一个实施例的联网计算机系统1200B。在至少一个实施例中,图12B至少部分地基于执行一个或更多个计算机程序的一个或更多个部分和/或以其他方式执行本文结合图1-图7描述的操作的处理器的数量,使得分配存储的量以存储将由一个或更多个计算机程序使用的数据。在至少一个实施例中,系统1200B示出了网络(诸如LAN1224),该网络可以用于互连可以彼此通信的各种节点。在至少一个实施例中,附接到LAN1224的是多个节点,诸如PC节点1226、1228、1230。在至少一个实施例中,节点还可经由网络服务器或其他装置连接到LAN。在至少一个实施例中,系统1200B包括其他类型的节点或元件,例如,其包括路由器、服务器和节点。
图12C示出根据至少一个实施例的联网计算机系统1200C。在至少一个实施例中,图12C用于至少部分地基于用于执行一个或更多个计算机程序的一个或更多个部分和/或以其他方式执行本文结合图1-图7描述的操作的处理器的数量,使得存储的量被分配以存储将由一个或更多个计算机程序使用的数据。在至少一个实施例中,系统1200C示出了具有跨主干通信网络(诸如互联网1232)的通信的WWW系统,主干通信网络可用于互连网络的各种节点。在至少一个实施例中,WWW是在互联网的顶部上操作的一组协议,并且允许图形界面系统在其上操作以便通过互联网访问信息。在至少一个实施例中,附接到WWW中的互联网1232的是多个节点,例如PC 1240、1242、1244。在至少一个实施例中,节点通过WWW HTTP服务器(诸如服务器1234、1236)与WWW的其他节点对接。在至少一个实施例中,PC 1244可以是形成网络1232的节点的PC,并且PC 1244本身运行它的服务器1236,尽管为了说明的目的在图12C中单独地示出PC 1244和服务器1236。
在至少一个实施例中,WWW是一种分布式类型的应用程序,其特征为WWW HTTP、WWW的协议,它在互联网的传输控制协议/互联网协议(“TCP/IP”)的顶部上运行。在至少一个实施例中,WWW因此可以由在互联网上运行的一组协议(即,HTTP)作为其“主干”来表征。
在至少一个实施例中,web浏览器是在兼容WWW类型的网络系统中在网络的节点上运行的应用程序,其允许特定服务器或节点的用户查看这样的信息,并因此允许用户搜索使用嵌入在从理解HTTP的网络上的服务器可获得的文档或文件中的超文本链接链接在一起的图形和基于文本的文件。在至少一个实施例中,当用户使用诸如互联网之类的网络上的另一服务器来检索与第一节点相关联的第一服务器的给定网页时,所检索到的文档可具有嵌入在其中的不同超文本链接,并且在检索用户的本地创建页面的本地副本。在至少一个实施例中,当用户点击超文本链接时,与所选择的超文本链接相关的本地存储的信息通常足以允许用户的机器打开通过互联网到由超文本链接指示的服务器的连接。
在至少一个实施例中,多于一个用户例如可通过LAN(诸如LAN 1238,诸如关于WWWHTTP服务器1234所示)耦合到每个HTTP服务器。在至少一个实施例中,系统1200C还可以包括其他类型的节点或元件。在至少一个实施例中,WWW HTTP服务器是在诸如PC的机器上运行的应用。在至少一个实施例中,每个用户可以被认为具有唯一的“服务器”,如关于PC1244所示。在至少一个实施例中,服务器可以被认为是诸如WWW HTTP服务器1234之类的服务器,该服务器为LAN或多个节点或多个LAN提供对网络的访问。在至少一个实施例中,存在多个用户,每个用户具有台式PC或网络的节点,每个台式PC潜在地为其用户建立服务器。在至少一个实施例中,每个服务器与特定网络地址或URL相关联,当被访问时,该特定网络地址或URL为该用户提供默认网页。在至少一个实施例中,网页可以包含进一步的链接(嵌入式URL),其指向该服务器上的该用户的进一步的子页面,或者指向网络上的其他服务器或者指向网络上的其他服务器上的页面。
云计算和服务
以下附图阐述但不限于可以用于实现至少一个实施例的示例性的基于云的系统。
在至少一个实施例中,云计算是一种计算风格,其中动态可扩展和通常虚拟化的资源作为服务通过互联网来提供。在至少一个实施例中,用户不需要具有支持他们的技术基础设施的知识、技术基础设施的专业知识或对技术基础设施的控制,该技术基础设施可以被称为“在云中”。在至少一个实施例中,云计算将基础设施合并为服务、平台即服务、软件即服务、以及具有依赖于互联网的常见主题以满足用户的计算需求的其他变型。在至少一个实施例中,典型的云部署(诸如在私有云(例如,企业网络)中)或公共云(例如,互联网)中的数据中心(DC)可由数千个服务器(或可替代地,VM)、数百个以太网、光纤信道或以太网光纤信道(FcoE)端口、交换和存储基础设施等组成。在至少一个实施例中,云还可以由网络服务基础设施组成,如Ipsec VPN集线器、防火墙、负载平衡器、广域网(WAN)优化器等。在至少一个实施例中,远程订户可以通过经由VPN隧道(如Ipsec VPN隧道)连接来安全地访问云应用和服务。
在至少一个实施例中,云计算是一种用于使能对可配置计算资源(例如,网络、服务器、存储、应用程序和服务)的共享池的方便、按需的网络访问的模型,所述可配置计算资源可以用最小的管理努力或服务提供商交互来快速配置和释放。
在至少一个实施例中,云计算的特征在于按需自助服务,其中消费者可根据需要自动地单方面供应计算能力,诸如服务器时间和网络存储,而无需与每个服务提供商的人类互动。在至少一个实施例中,云计算的特征在于广泛的网络访问,其中能力在网络上可用并且通过标准机制来访问,所述标准机制促进由异构的瘦或厚客户端平台(例如,移动电话、膝上型计算机和PDA)的使用。在至少一个实施例中,云计算的特征在于资源池,其中提供商的计算资源被池化以使用多租户模型服务于多个消费者,其中不同的物理和虚拟资源根据消费者需求被动态地签名和重新分配。在至少一个实施例中,存在位置独立性的感觉,因为消费者通常对所提供的资源的确切位置没有控制或知识,但可能能够在较高抽象级别(例如,国家、州或数据中心)指定位置。在至少一个实施例中,资源的示例包括存储、处理、存储器、网络带宽和虚拟机。在至少一个实施例中,云计算的特征在于快速弹性,其中能力可被快速且弹性地供应(在一些情况下是自动地),以快速缩小和快速释放以快速放大。在至少一个实施例中,对于消费者,可用于供应的能力通常显得不受限制并且可以在任何时间以任何数量购买。在至少一个实施例中,云计算由测量的服务来表征,其中云系统通过在适合于服务类型(例如,存储、处理、带宽和活动用户账户)的某种抽象级别处利用计量能力来自动地控制和优化资源使用。在至少一个实施例中,资源使用可以被监控、控制和报告,从而为所利用的服务的提供商和消费者两者提供透明度。
在至少一个实施例中,云计算可与各种服务相关联。在至少一个实施例中,云软件即服务(SaaS)可以指代提供给消费者的能力是使用在云基础设施上运行的提供商的应用的服务。在至少一个实施例中,应用可通过诸如web浏览器(例如,基于web的电子邮件)的瘦客户端接口从不同客户端设备访问。在至少一个实施例中,消费者不管理或控制包括网络、服务器、操作系统、存储或甚至各个应用能力的底层云基础结构,可能的例外是有限的用户特定的应用配置设置。
在至少一个实施例中,云平台即服务(PaaS)可以指这样的服务:其中提供给消费者的能力是将消费者创建或获取的应用程序部署到云基础设施上,这些应用程序是使用由提供商支持的编程语言和工具创建的。在至少一个实施例中,消费者不管理或控制包括网络、服务器、操作系统或存储的底层云基础结构,但是具有对所部署的应用程序以及可能的应用托管环境配置的控制。
在至少一个实施例中,云基础设施即服务(IaaS)可以指这样的服务:其中向消费者提供的能力是提供处理、存储、网络和消费者能够部署和运行可包括操作系统和应用的任意软件的其他基本计算资源。在至少一个实施例中,消费者不管理或控制底层云基础设施,而是具有对操作系统、存储、所部署的应用程序的控制,以及对选择的联网组件(例如,主机防火墙)的可能有限的控制。
在至少一个实施例中,可以不同方式部署云计算。在至少一个实施例中,私有云可指仅针对组织操作的云基础设施。在至少一个实施例中,私有云可由组织或第三方管理,并且可存在于场所内或场所外。在至少一个实施例中,社区云可以指由若干组织共享并且支持具有共享关注(例如,任务、安全要求、策略和合规性考虑)的特定社区的云基础设施。在至少一个实施例中,社区云可由组织或第三方管理,并且可存在于场所内或场所外。在至少一个实施例中,公共云可以指代对一般公众或大型产业组可用并且由提供云服务的组织拥有的云基础设施。在至少一个实施例中,混合云可以指云基础设施是两个或更多个云(私有、社区或公共的)的组成部分,这些云仍然是唯一的实体,但是通过实现数据和应用便携性的标准化或专有技术(例如,用于云之间的负载平衡的云突发)绑定在一起。在至少一个实施例中,云计算环境是面向服务的,其关注于无状态性、低耦合、模块性和语义互操作性。
图13示出了根据至少一个实施例的系统环境1300的一个或更多个组件,其中服务可被提供为第三方网络服务。在至少一个实施例中,图13用于至少部分地基于用于执行一个或更多个计算机程序的一个或更多个部分和/或以其他方式执行本文结合图1-图7描述的操作的处理器的数量,使得存储的量被分配以存储将由一个或更多个计算机程序使用的数据。在至少一个实施例中,第三方网络可被称为云、云网络、云计算网络和/或其变体。在至少一个实施例中,系统环境1300包括一个或更多个客户端计算设备1304、1306和1308,客户端计算设备1304、1306和1308可被用户用来与提供第三方网络服务(其可被称为云计算服务)的第三方网络基础设施系统1302交互。在至少一个实施例中,第三方网络基础设施系统1302可包括一个或更多个计算机和/或服务器。
应了解,图13中所描绘的第三方网络基础设施系统1302可具有除了所描绘的那些组件之外的其他组件。进一步地,图13描绘了第三方网络基础设施系统的实施例。在至少一个实施例中,第三方网络基础设施系统1302可具有比图13中描绘的更多或更少的组件,可组合两个或更多个组件,或可具有不同的组件配置或布置。
在至少一个实施例中,客户端计算设备1304、1306和1308可被配置成操作客户端应用,诸如web浏览器,可由客户端计算设备的用户用来与第三方网络基础设施系统1302交互以使用由第三方网络基础设施系统1302提供的服务的专有客户端应用或一些其他应用。尽管示例性系统环境1300被示为具有三个客户端计算设备,但是可以支持任何数量的客户端计算设备。在至少一个实施例中,其他设备,诸如具有传感器的设备等,可与第三方网络基础设施系统1302交互。在至少一个实施例中,一个或更多个网络1310可以促进客户端计算设备1304、1306和1308与第三方网络基础设施系统1302之间的通信和数据交换。
在至少一个实施例中,由第三方网络基础设施系统1302提供的服务可包括按需可用于第三方网络基础设施系统的用户的服务的主机。在至少一个实施例中,还可以提供各种服务,包括但不限于在线数据存储和备份解决方案、基于Web的电子邮件服务、托管的办公套件和文档协作服务、数据库管理和处理、管理的技术支持服务、和/或其变体。在至少一个实施例中,由第三方网络基础设施系统提供的服务可以动态地扩展以满足其用户的需要。
在至少一个实施例中,由第三方网络基础设施系统1302提供的服务的特定实例化可被称为“服务实例”。在至少一个实施例中,通常,经由通信网络(诸如互联网)从第三方网络服务提供商系统对用户可用的任何服务被称为“第三方网络服务”。在至少一个实施例中,在公共第三方网络环境中,组成第三方网络服务提供商系统的服务器和系统不同于客户自己的场所内服务器和系统。在至少一个实施例中,第三方网络服务提供商系统可以托管应用,并且用户可以经由通信网络(诸如互联网)按需订购和使用应用。
在至少一个实施例中,计算机网络第三方网络基础设施中的服务可包括对存储、托管数据库、托管网络服务器、软件应用或由第三方网络供应商提供给用户的其他服务的受保护的计算机网络访问。在至少一个实施例中,服务可包括通过互联网对第三方网络上的远程存储的密码保护的访问。在至少一个实施例中,服务可以包括基于网络服务的托管关系数据库和脚本语言中间件引擎,以便由联网开发者私人使用。在至少一个实施例中,服务可包括对托管在第三方网络供应商的网站上的电子邮件软件应用的访问。
在至少一个实施例中,第三方网络基础设施系统1302可包括以自助、基于订阅、可弹性扩展、可靠、高度可用和安全方式递送给客户的一套应用、中间件和数据库服务提供物。在至少一个实施例中,第三方网络基础设施系统1302还可以提供“大数据”相关的计算和分析服务。在至少一个实施例中,术语“大数据”通常用于指可以由分析师和研究人员存储和操纵的极大数据集,以便使大量数据可视化、检测趋势、和/或以其他方式与数据交互。在至少一个实施例中,大数据和相关应用可以由基础设施系统在许多级别上和以不同规模托管和/或操纵。在至少一个实施例中,并行链接的数十个、数百个或数千个处理器可对此类数据起作用以便呈现该数据或模拟对数据或其所表示的内容的外力。在至少一个实施例中,这些数据集可涉及结构化数据(诸如在数据库中或以其他方式根据结构化模型组织的结构化数据)和/或非结构化数据(例如,电子邮件、图像、数据blob(二进制大对象)、网页、复杂事件处理)。在至少一个实施例中,通过利用实施例的能力来将更多(或更少)计算资源相对快速地聚焦到目标上,第三方网络基础设施系统可以更好地可用于基于来自企业、政府机构、研究组织、私人个人、想法相同的个人或组织的组、或其他实体的需求在大数据集上执行任务。
在至少一个实施例中,第三方网络基础设施系统1302可以被适配成自动地提供、管理和跟踪顾客对由第三方网络基础设施系统1302提供的服务的订阅。在至少一个实施例中,第三方网络基础设施系统1302可以经由不同的部署模型提供第三方网络服务。在至少一个实施例中,可在公共第三方网络模型下提供服务,其中第三方网络基础设施系统1302由销售第三方网络服务的组织拥有,并且使得服务可用于一般公众或不同的行业企业。在至少一个实施例中,可在私有第三方网络模型下提供服务,在该私有第三方网络模型中,第三方网络基础设施系统1302仅针对单个组织操作,并且可为组织内的一个或更多个实体提供服务。在至少一个实施例中,第三方网络服务也可在社区第三方网络模型下提供,其中第三方网络基础设施系统1302和第三方网络基础设施系统1302提供的服务由相关社区中的若干组织共享。在至少一个实施例中,也可在混合第三方网络模型下提供第三方网络服务,该混合第三方网络模型是两个或更多个不同模型的组合。
在至少一个实施例中,由第三方网络基础设施系统1302提供的服务可包括在软件即服务(SaaS)类别、平台即服务(PaaS)类别、基础设施即服务(IaaS)类别或包括混合服务的其他服务类别下提供的一个或更多个服务。在至少一个实施例中,客户经由订阅订单可订购由第三方网络基础设施系统1302提供的一个或更多个服务。在至少一个实施例中,第三方网络基础设施系统1302然后执行处理以在客户的订阅订单中提供服务。
在至少一个实施例中,由第三方网络基础设施系统1302提供的服务可以包括但不限于应用服务、平台服务和基础设施服务。在至少一个实施例中,应用服务可由第三方网络基础设施系统经由SaaS平台提供。在至少一个实施例中,SaaS平台可被配置为提供属于SaaS类别的第三方网络服务。在至少一个实施例中,SaaS平台可以提供在集成开发和部署平台上构建并递送一套按需应用的能力。在至少一个实施例中,SaaS平台可以管理和控制用于提供SaaS服务的底层软件和基础设施。在至少一个实施例中,通过利用由SaaS平台提供的服务,客户可利用在第三方网络基础设施系统上执行的应用。在至少一个实施例中,客户可以获得应用服务,而不需要客户购买单独的许可证和支持。在至少一个实施例中,可提供各种不同的SaaS服务。在至少一个实施例中,示例包括但不限于为大组织的销售性能管理、企业集成和商业灵活性提供解决方案的服务。
在至少一个实施例中,平台服务可由第三方网络基础设施系统1302经由PaaS平台提供。在至少一个实施例中,PaaS平台可被配置为提供属于PaaS类别的第三方网络服务。在至少一个实施例中,平台服务的示例可以包括但不限于使组织能够将现有应用合并在共享的公共架构上的服务,以及建立利用由平台提供的共享服务的新应用的能力。在至少一个实施例中,PaaS平台可以管理和控制用于提供PaaS服务的底层软件和基础设施。在至少一个实施例中,客户可获取由第三方网络基础设施系统1302提供的PaaS服务,而无需客户购买单独的许可证和支持。
在至少一个实施例中,通过利用由PaaS平台提供的服务,客户可采用由第三方网络基础设施系统支持的编程语言和工具,并且还控制所部署的服务。在至少一个实施例中,由第三方网络基础设施系统提供的平台服务可包括数据库第三方网络服务、中间件第三方网络服务和第三方网络服务。在至少一个实施例中,数据库第三方网络服务可支持共享服务部署模型,所述共享服务部署模型使组织能够汇聚数据库资源并以数据库第三方网络的形式向客户提供数据库即服务。在至少一个实施例中,在第三方网络基础设施系统中,中间件第三方网络服务可以为客户提供平台以开发和部署不同业务应用,并且第三方网络服务可以为客户提供平台以部署应用。
在至少一个实施例中,各种不同的基础设施服务可由第三方网络基础设施系统中的IaaS平台提供。在至少一个实施例中,基础设施服务促进利用由SaaS平台和PaaS平台提供的服务的客户对底层计算资源(诸如存储、网络和其他基础计算资源)的管理和控制。
在至少一个实施例中,第三方网络基础设施系统1302还可包括用于提供用于向第三方网络基础设施系统的客户提供各种服务的资源的基础设施资源1330。在至少一个实施例中,基础设施资源1330可包括硬件(诸如服务器、存储和联网资源)的预集成和优化的组合,用于执行由PaaS平台和SaaS平台提供的服务和其他资源。
在至少一个实施例中,第三方网络基础设施系统1302中的资源可由多个用户共享并且按照需求动态地重新分配。在至少一个实施例中,可以向不同时区中的用户分配资源。在至少一个实施例中,第三方网络基础设施系统1302可以使得第一时区中的第一组用户能够利用第三方网络基础设施系统的资源持续指定小时数,并且随后使得能够将相同资源重新分配给位于不同时区中的另一组用户,从而使资源利用率最大化。
在至少一个实施例中,可提供由第三方网络基础设施系统1302的不同组件或模块共享的多个内部共享服务1332,用于实现由第三方网络基础设施系统1302提供服务。在至少一个实施例中,这些内部共享服务可包括但不限于安全和身份服务、集成服务、企业库服务、企业管理器服务、病毒扫描和白名单服务、高可用性、备份和恢复服务、用于使能第三方网络支持的服务、电子邮件服务、通知服务、文件传输服务和/或其变体。
在至少一个实施例中,第三方网络基础设施系统1302可在第三方网络基础设施系统中提供第三方网络服务(例如,SaaS、PaaS和IaaS服务)的全面管理。在至少一个实施例中,第三方网络管理功能可包括用于供应、管理和跟踪由第三方网络基础设施系统1302接收的客户的订阅的能力和/或其变体。
在至少一个实施例中,如图13所示,第三方网络管理功能可以由一个或更多个模块提供,诸如订单管理模块1320、订单协调模块1322、订单供应模块1324、订单管理和监控模块1326和身份管理模块1328。在至少一个实施例中,这些模块可包括一个或更多个计算机和/或服务器或使用一个或更多个计算机和/或服务器来提供,所述一个或更多个计算机和/或服务器可以是通用计算机、专用服务器计算机、服务器农场、服务器集群或任何其他适当的布置和/或组合。
在至少一个实施例中,在步骤1334,使用客户端设备(诸如客户端计算设备1304、1306或1308)的客户可通过请求由第三方网络基础设施系统1302提供的一个或更多个服务并对由第三方网络基础设施系统1302提供的一个或更多个服务的订阅下订单来与第三方网络基础设施系统1302交互。在至少一个实施例中,客户可访问第三方网络用户界面(UI),诸如第三方网络UI 1312、第三方网络UI 1314和/或第三方网络UI 1316,并经由这些UI进行订购订单。在至少一个实施例中,由第三方网络基础设施系统1302响应于客户下订单而接收的订单信息可包括识别客户和由第三方网络基础设施系统1302提供的、客户想要订阅的一个或更多个服务的信息。
在至少一个实施例中,在步骤1336,从客户接收的订单信息可存储在订单数据库1318中。在至少一个实施例中,如果这是新订单,则可以为订单创建新记录。在至少一个实施例中,订单数据库1318可以是由第三方网络基础设施系统1318操作的并且结合其他系统元件操作的若干数据库之一。
在至少一个实施例中,在步骤1338,可以将订单信息转发到订单管理模块1320,该订单管理模块可以被配置成执行与订单相关的计费和记账功能,诸如验证订单,并且在验证后,预订一订单。
在至少一个实施例中,在步骤1340,关于订单的信息可被传送到订单协调模块1322,该订单协调模块1322被配置为针对由客户下的订单协调服务和资源的供应。在至少一个实施例中,订单协调模块1322可以使用订单供应模块1324的服务进行供应。在至少一个实施例中,订单协调模块1322使得能够管理与每个订单相关联的业务过程,并且应用业务逻辑来确定订单是否应继续供应。
在至少一个实施例中,在步骤1342,当接收到新订阅的订单时,订单协调模块1322向订单供应模块1324发送分配资源和配置满足订阅订单所需的资源的请求。在至少一个实施例中,订单供应模块1324实现针对由客户订购的服务的资源分配。在至少一个实施例中,订单供应模块1324提供由第三方网络基础设施系统1300提供的第三方网络服务与用于供应用于提供所请求的服务的资源的物理实现层之间的抽象级别。在至少一个实施例中,这使得订单协调模块1322能够与实现细节隔离,诸如服务和资源实际上是实时供应的,还是预先供应的并且仅在请求时分配/指派。
在至少一个实施例中,在步骤1344,一旦服务和资源被供应,可以向订阅客户发送指示所请求的服务现在准备好使用的通知。在至少一个实施例中,信息(例如,链接)可以被发送到客户,其使客户能够开始使用所请求的服务。
在至少一个实施例中,在步骤1346,客户订阅的订单可由订单管理和监控模块1326管理和跟踪。在至少一个实施例中,订单管理和监控模块1326可以被配置成收集关于订阅服务的客户使用的使用统计。在至少一个实施例中,可以针对所使用的存储的量、所传输的数据量、用户数量、以及系统上电时间和系统下电时间的量和/或其变化来收集统计。
在至少一个实施例中,第三方网络基础设施系统1300可包括身份管理模块1328,该身份管理模块1328被配置成提供身份服务,诸如第三方网络基础设施系统1300中的访问管理和授权服务。在至少一个实施例中,身份管理模块1328可控制关于希望利用由第三方网络基础设施系统1302提供的服务的客户的信息。在至少一个实施例中,这样的信息可以包括认证这样的客户的身份的信息和描述那些客户被授权相对于各种系统资源(例如,文件、目录、应用、通信端口、存储器段等)执行哪些动作的信息。在至少一个实施例中,身份管理模块1328还可包括管理关于每个顾客的描述性信息以及关于可如何访问和修改该描述性信息和可由谁来访问和修改该描述性信息。
图14示出了根据至少一个实施例的云计算环境1402。在至少一个实施例中,图14至少部分地基于用于执行一个或更多个计算机程序的一个或更多个部分和/或以其他方式执行本文结合图1-图7描述的操作的处理器的数量,使得分配存储的量以存储由一个或更多个计算机程序使用的数据。在至少一个实施例中,云计算环境1402包括一个或更多个计算机系统/服务器1404,诸如个人数字助理(PDA)或蜂窝电话1406A、台式计算机1406B、膝上型计算机1406C和/或汽车计算机系统1406N之类的计算设备与该一个或更多个计算机系统/服务器1404通信。在至少一个实施例中,这允许基础设施、平台和/或软件作为服务从云计算环境1402提供,以便不需要每个客户端单独地维护这样的资源。应当理解,图14中示出的计算设备1406A-N的类型旨在仅是说明性的,并且云计算环境1402可通过任何类型的网络和/或网络/可寻址连接(例如,使用web浏览器)与任何类型的计算机化设备通信。
在至少一个实施例中,可被表示为云计算节点的计算机系统/服务器1404可与许多其他通用或专用计算系统环境或配置一起操作。在至少一个实施例中,可以适合于与计算机系统/服务器1404一起使用的计算系统、环境和/或配置的示例包括但不限于个人计算机系统、服务器计算机系统、瘦客户机、厚客户端、手持式或膝上型设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费电子产品,网络PC、小型计算机系统、大型计算机系统和包括任何上述系统或设备的分布式云计算环境,和/或其变体。
在至少一个实施例中,计算机系统/服务器1404可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般上下文中描述。在至少一个实施例中,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、逻辑、数据结构等。在至少一个实施例中,示例性计算机系统/服务器1404可以在分布式云计算环境中实践,其中任务由通过通信网络链接的远程处理设备来执行。在至少一个实施例中,在分布式云计算环境中,程序模块可位于包括存储器存储设备的本地和远程计算机系统存储介质两者中。
图15示出了根据至少一个实施例的由云计算环境1402(图14)提供的一组功能抽象层。在至少一个实施例中,图15用于至少部分地基于用于执行一个或更多个计算机程序的一个或更多个部分和/或以其他方式执行本文结合图1-图7描述的操作的处理器的数量,使得存储的量被分配以存储将由一个或更多个计算机程序使用的数据。应提前理解,图15中所示的组件、层和功能仅旨在是说明性的,并且组件、层和功能可以变化。
在至少一个实施例中,硬件和软件层1502包括硬件和软件组件。在至少一个实施例中,硬件组件的示例包括大型机、基于各种RISC(精简指令集计算机)架构的服务器、各种计算系统、超级计算系统、存储设备、网络、联网组件和/或其变体。在至少一个实施例中,软件组件的示例包括网络应用服务器软件、各种应用服务器软件、各种数据库软件、和/或其变体。
在至少一个实施例中,虚拟化层1504提供抽象层,从该抽象层可以提供以下示例性虚拟实体:虚拟服务器、虚拟存储、虚拟网络(包括虚拟私有网络)、虚拟应用、虚拟客户端和/或其变体。
在至少一个实施例中,管理层1506提供各种功能。在至少一个实施例中,资源供应提供用于在云计算环境内执行任务的计算资源和其他资源的动态获取。在至少一个实施例中,计量(metering)提供了在云计算环境内利用资源时的使用跟踪,以及针对这些资源的消耗的计费或发票。在至少一个实施例中,资源可以包括应用软件许可证。在至少一个实施例中,安全性为用户和任务提供身份验证,以及对数据和其他资源的保护。在至少一个实施例中,用户界面为用户和系统管理员两者提供对云计算环境的访问。在至少一个实施例中,服务水平管理提供云计算资源分配和管理,使得满足所需的服务水平。在至少一个实施例中,服务水平协议(SLA)管理提供云计算资源的预布置和获取,根据SLA预期对该云计算资源的未来需求。
在至少一个实施例中,工作负载层1508提供利用云计算环境的功能。在至少一个实施例中,可以从该层提供的工作负载和功能的示例包括:地图和导航、软件开发和管理、教育服务、数据分析和处理、交易处理和服务递送。
超级计算
以下附图阐述了但不限于可以用于实现至少一个实施例的示例性的基于超级计算机的系统。
在至少一个实施例中,超级计算机可以指展现出显著并行性并且包括至少一个芯片的硬件系统,其中系统中的芯片通过网络互连并且被放置在分层组织的外壳中。在至少一个实施例中,用若干机架填充机房的大型硬件系统是超级计算机的一个具体示例,每个机架包含若干板/机架模块,每个板/机架模块包含全部由可扩展网络互连的若干芯片。在至少一个实施例中,这种大型硬件系统的单个机架是超级计算机的另一个示例。在至少一个实施例中,展现出显著并行性并且包含若干硬件组件的单个芯片同样可以被认为是超级计算机,因为随着特征尺寸可能减小,可以结合在单个芯片中的硬件数量也可能增加。
图16示出了根据至少一个实施例的芯片级的超级计算机。在至少一个实施例中,图16用于至少部分地基于用于执行一个或更多个计算机程序的一个或更多个部分和/或以其他方式执行本文结合图1-图7描述的操作的处理器的数量,使得存储的量被分配以存储将由一个或更多个计算机程序使用的数据。在至少一个实施例中,在FPGA或ASIC芯片内部,在被称为线程单元的有限状态机(1604)内执行主计算。在至少一个实施例中,任务和同步网络(1602)连接有限状态机并且被用于以正确的顺序分派线程和执行操作。在至少一个实施例中,使用存储器网络(1606,1610)来访问多级分区的片上高速缓存层级(1608,1612)。在至少一个实施例中,使用存储器控制器(1616)和片外存储器网络(1614)来访问片外存储器。在至少一个实施例中,当设计不适合于单个逻辑芯片时,I/O控制器(1618)用于跨芯片通信。
图17示出根据至少一个实施例的在机架模块级别的超级计算机。在至少一个实施例中,图17用于至少部分地基于用于执行一个或更多个计算机程序的一个或更多个部分和/或以其他方式执行本文结合图1-图7描述的操作的处理器的数量,使得存储的量被分配以存储将由一个或更多个计算机程序使用的数据。在至少一个实施例中,在机架模块内,存在连接至构成主加速器存储器的一个或更多个DRAM单元(1704)的多个FPGA或ASIC芯片(1702)。在至少一个实施例中,每个FPGA/ASIC芯片使用板上的宽总线用差分高速信令(1706)连接到其相邻的FPGA/ASIC芯片。在至少一个实施例中,每个FPGA/ASIC芯片还连接到至少一个高速串行通信电缆。
图18示出了根据至少一个实施例的机架级的超级计算机。在至少一个实施例中,图18至少部分地基于用于执行一个或更多个计算机程序的一个或更多个部分和/或以其他方式执行本文结合图1-图7描述的操作的处理器的数量,使得分配存储的量以存储由一个或更多个计算机程序使用的数据。图19示出了根据至少一个实施例的整个系统级的超级计算机。在至少一个实施例中,图19用于至少部分地基于用于执行一个或更多个计算机程序的一个或更多个部分和/或以其他方式执行本文结合图1-图7描述的操作的处理器的数量,使得分配存储的量以存储由一个或更多个计算机程序使用的数据。在至少一个实施例中,参见图18和图19,在机架中的机架模块之间并且跨整个系统的机架,使用高速串行光缆或铜电缆(1802,1902)来实现可扩展的、可能不完整的超立方体网络。在至少一个实施例中,加速器的FPGA/ASIC芯片中的一个通过PCI-Express连接被连接到主机系统(1904)。在至少一个实施例中,主机系统包括应用的软件部分在其上运行的主机微处理器(1908)以及由与加速器上的存储器保持一致的一个或更多个主机存储器DRAM单元(1906)组成的存储器。在至少一个实施例中,主机系统可以是机架之一上的单独模块,或可以与超级计算机的模块之一集成。在至少一个实施例中,立方体连接的循环拓扑提供通信链路以为大型超级计算机创建超立方体网络。在至少一个实施例中,机架模块上的小组FPGA/ASIC芯片可充当单个超立方体节点,使得与单个芯片相比,每组的外部链路的总数增加。在至少一个实施例中,组包含机架模块上的芯片A、B、C和D,该机架模块具有连接环形组织中的A、B、C和D的内部宽差分总线。在至少一个实施例中,存在将机架模块连接到外部世界的12条串行通信电缆。在至少一个实施例中,机架模块上的芯片A连接至串行通信电缆0、1、2。在至少一个实施例中,芯片B连接至电缆3、4、5。在至少一个实施例中,芯片C连接至6、7、8。在至少一个实施例中,芯片D连接至9、10、11。在至少一个实施例中,构成机架模块的整个组{A,B,C,D}可以形成超级计算机系统内的超立方体节点,其中多达212=4096个机架模块(16384FPGA/ASIC芯片)。在至少一个实施例中,为了使芯片A在组{A,B,C,D}的链路4上向外发送消息,必须首先用板上差分宽总线连接将消息路由到芯片B。在至少一个实施例中,在链路4上到达去往芯片A的组{A,B,C,D}(即,到达B)的消息也必须首先被路由到组{A,B,C,D}内部的正确目的地芯片(A)。在至少一个实施例中,还可以实现其他大小的并行超级计算机系统。
人工智能
以下附图阐述了但不限于可以用于实现至少一个实施例的示例性的基于人工智能的系统。
图20A示出了用于执行与至少一个实施例相关联的推理和/或训练操作的推理和/或训练逻辑2015。在至少一个实施例中,图20A用于至少部分地基于用于执行一个或更多个计算机程序的一个或更多个部分和/或以其他方式执行本文结合图1-图7描述的操作的处理器的数量,使得存储的量被分配以存储将由一个或更多个计算机程序使用的数据。下面结合图20A和/或图20B提供关于推理和/或训练逻辑2015的细节。
在至少一个实施例中,推理和/或训练逻辑2015可以包括但不限于,代码和/或数据存储2001,用于存储前向和/或输出权重和/或输入/输出数据,和/或在至少一个实施例的各方面中用于配置被训练和/或用于推理的神经网络的神经元或层的其他参数。在至少一个实施例中,训练逻辑2015可以包括或被耦合到代码和/或数据存储2001,用于存储图形代码或其他软件以控制定时和/或顺序,其中将加载权重和/或其他参数信息来配置逻辑,包括整数和/或浮点单元(统称为算术逻辑单元(ALU))。在至少一个实施例中,代码(诸如图代码)基于这样的代码所对应的神经网络的架构将权重或其他参数信息加载到处理器ALU中。在至少一个实施例中,代码和/或数据存储2001存储神经网络的每个层的权重参数和/或输入/输出数据,该神经网络在使用至少一个实施例的各方面的训练和/或推理期间在输入/输出数据和/或权重参数的前向传播期间与至少一个实施例结合训练或使用。在至少一个实施例中,代码和/或数据存储2001的任何部分可与其他片上或片外数据存储一起被包括,包括处理器的L1、L2或L3高速缓存存储器或系统存储器。
在至少一个实施例中,代码和/或数据存储2001的任何部分可在一个或更多个处理器或其他硬件逻辑设备或电路内部或外部。在至少一个实施例中,代码和/或代码和/或数据存储2001可以是高速缓存存储器、动态随机可寻址存储器(“DRAM”)、静态随机可寻址存储器(“SRAM”)、非易失性存储器(例如,闪存)或其他存储。在至少一个实施例中,对代码和/或代码和/或数据存储2001是在处理器内部还是外部,例如,或包括DRAM、SRAM、闪存或一些其他存储类型的选择,可以取决于片上相对于片外的可用存储,正在执行的训练和/或推理功能的延时要求、在神经网络的推理和/或训练中使用的数据的批大小,或这些因素的一些组合。
在至少一个实施例中,推理和/或训练逻辑2015可以包括但不限于:代码和/或数据存储2005,用于存储与在至少一个实施例的各方面中被训练和/或用于推理的神经网络的神经元或层相对应的反向和/或输出权重和/或输入/输出数据。在至少一个实施例中,代码和/或数据存储2005存储神经网络的每一层的权重参数和/或输入/输出数据,该神经网络在使用至少一个实施例的各方面的训练和/或推理期间的输入/输出数据和/或权重参数的反后传播期间与至少一个实施例结合训练或使用。在至少一个实施例中,训练逻辑2015可以包括或被耦合到代码和/或数据存储2005,以存储图代码或其他软件来控制定时和/或顺序,其中将加载权重和/或其他参数信息以配置逻辑,包括整数和/或浮点单元(统称为算术逻辑单元(ALU))。
在至少一个实施例中,代码(诸如图代码)使基于这样的代码所对应的神经网络的架构将权重或其他参数信息加载到处理器ALU中。在至少一个实施例中,代码和/或数据存储2005的任何部分可与其他片上或片外数据存储包括在一起,包括处理器的L1、L2或L3高速缓存或系统存储器。在至少一个实施例中,代码和/或数据存储2005的任何部分可以在一个或更多个处理器或其他硬件逻辑设备或电路的内部或外部。在至少一个实施例中,代码和/或数据存储2005可以是高速缓存存储器、DRAM、SRAM、非易失性存储器(例如,闪存)或其他存储。在至少一个实施例中,对代码和/或数据存储2005是在处理器内部还是外部,例如,或包括DRAM、SRAM、闪存或一些其他存储类型的选择,可以取决于片上相对于片外的可用存储,正在执行的训练和/或推理功能的延时要求、在神经网络的推理和/或训练中使用的数据的批大小,或这些因素的一些组合。
在至少一个实施例中,代码和/或数据存储2001和代码和/或数据存储2005可为单独的存储结构。在至少一个实施例中,代码和/或数据存储2001和代码和/或数据存储2005可以是组合的存储结构。在至少一个实施例中,代码和/或数据存储2001和代码和/或数据存储2005可部分组合且部分分离。在至少一个实施例中,代码和/或数据存储2001和代码和/或数据存储2005的任何部分可与其他片上或片外数据存储(包括处理器的L1、L2或L3高速缓存或系统存储器)包括在一起。
在至少一个实施例中,推理和/或训练逻辑2015可以包括但不限于,一个或更多个算术逻辑单元(“ALU”)2010,包括整数和/或浮点单元,用于至少部分地基于训练和/或推理代码(例如,图形代码)或由训练和/或推理代码(例如,图形代码)指示来执行逻辑和/或数学运算,其结果可以产生存储在激活存储2020中的激活(例如,来自神经网络内的层或神经元的输出值),所述激活存储是存储在代码和/或数据存储2001和/或代码和/或数据存储2005中的输入/输出和/或权重参数数据的函数。在至少一个实施例中,根据响应于执行指令或其他代码、由ALU 2010执行的线性代数和/或基于矩阵的数学来生成存储在激活存储2020中的激活,其中存储在代码和/或数据存储2005和/或数据存储2001中的权重值与其他值(诸如偏置值、梯度信息、动量值或其他参数或超参数)一起被用作操作数,该其他值中的任何或全部值可被存储在代码和/或数据存储2005或代码和/或数据存储2001或芯片上或芯片外的另一存储中。
在至少一个实施例中,一个或更多个ALU 2010被包括在一个或更多个处理器或其他硬件逻辑器件或电路内,而在另一个实施例中,一个或更多个ALU 2010可以在处理器或使用它们的其他硬件逻辑器件或电路(例如,协处理器)的外部。在至少一个实施例中,ALU2010可以被包括在处理器的执行单元内或者以其他方式在可由处理器的执行单元可访问的ALU库内,所述处理器的执行单元在同一处理器内或分布在不同类型的不同处理器(例如,中央处理单元、图形处理单元、固定功能单元等)之间。在至少一个实施例中,代码和/或数据存储2001、代码和/或数据存储2005、以及激活存储2020可以共享处理器或其他硬件逻辑器件或电路,而在另一个实施例中,它们可以在不同的处理器或其他硬件逻辑器件或电路中,或在相同和不同处理器或其他硬件逻辑器件或电路的某种组合中。在至少一个实施例中,激活存储2020的任何部分可以与其他片上或片外数据存储包括在一起,所述其他片上或片外数据存储包括处理器的L1、L2或L3高速缓存或系统存储器。此外,推理和/或训练代码可与处理器或其他硬件逻辑或电路可访问并使用处理器的获取、解码、调度、执行、引退(retirement)和/或其他逻辑电路来获取和/或处理的其他代码一起存储。
在至少一个实施例中,激活存储2020可以是高速缓存存储器、DRAM、SRAM、非易失性存储器(例如,闪存)或其他存储。在至少一个实施例中,激活存储2020可以完全或部分地在一个或更多个处理器或其他逻辑电路之内或外部。在至少一个实施例中,对激活存储2020是在处理器内部还是外部,例如,或包括DRAM、SRAM、闪存或一些其他存储类型的选择,可以取决于片上相对于片外的可用存储,正在执行的训练和/或推理功能的延时要求、在神经网络的推理和/或训练中使用的数据的批大小,或这些因素的一些组合。
在至少一个实施例中,图20A中所示出的推理和/或训练逻辑2015可以与专用集成电路(“ASIC”)结合使用,诸如来自谷歌的处理单元、来自GraphcoreTM的推理处理单元(IPU)、或来自英特尔公司的(例如,“Lake Crest”)处理器。在至少一个实施例中,图20A中所示出的推理和/或训练逻辑2015可以结合中央处理单元(“CPU”)硬件、图形处理单元(“GPU”)硬件或其他硬件(如现场可编程门阵列(“FPGA”))使用。
图20B示出了根据至少一个实施例的推理和/或训练逻辑2015。在至少一个实施例中,图20B至少部分地基于用于执行一个或更多个计算机程序的一个或更多个部分和/或以其他方式执行本文结合图1-图7描述的操作的处理器的数量,使得分配存储的量以存储由一个或更多个计算机程序使用的数据。在至少一个实施例中,推理和/或训练逻辑2015可包括但不限于其中计算资源是专用的或以其他方式结合与神经网络内的一个或更多个神经元层相对应的权重值或其他信息排他地使用的硬件逻辑。在至少一个实施例中,图20B中所示出的推理和/或训练逻辑2015可以结合专用集成电路(ASIC)(如来自谷歌的处理单元、来自GraphcoreTN的推理处理单元(IPU)、或来自英特尔公司的(例如,“Lake Crest”)处理器来使用。在至少一个实施例中,图20B中示出的推理和/或训练逻辑2015可结合中央处理单元(CPU)硬件、图形处理单元(GPU)硬件或其他硬件(诸如现场可编程门阵列(FPGA))使用。在至少一个实施例中,推理和/或训练逻辑2015包括但不限于代码和/或数据存储2001以及代码和/或数据存储2005,其可以用于存储代码(例如,图代码)、权重值和/或其他信息,包括偏置值、梯度信息、动量值和/或其他参数或超参数信息。在图20B中所说明的至少一个实施例中,代码和/或数据存储2001和代码和/或数据存储2005中的每一者分别与专用计算资源(例如,计算硬件2002和计算硬件2006)相关联。在至少一个实施例中,计算硬件2002和计算硬件2006中的每一个包括一个或更多个ALU,该一个或更多个ALU仅分别对存储在代码和/或数据存储2001和代码和/或数据存储2005中的信息执行数学函数(诸如线性代数函数),其结果被存储在激活存储2020中。
在至少一个实施例中,每个代码和/或数据存储2001和2005以及相应的计算硬件2002和2006,分别对应于神经网络的不同层,使得来自代码和/或数据存储2001和计算硬件2002中的一个存储/计算对2001/2002的结果激活作为输入被提供给代码和/或数据存储2005和计算硬件2006中的下一个存储/计算对2005/2006,以便镜像神经网络的概念组织。在至少一个实施例中,存储/计算对2001/2002和2005/2006中的每一个可对应于多于一个神经网络层。在至少一个实施例中,在存储/计算对2001/2002和2005/2006之后或与存储/计算对2001/2002和2005/2006并行的附加存储/计算对(未示出)可被包括在推理和/或训练逻辑2015中。
图21示出了根据至少一个实施例的深度神经网络的训练和部署。在至少一个实施例中,图21用于至少部分地基于用于执行一个或更多个计算机程序的一个或更多个部分和/或以其他方式执行本文结合图1-图7描述的操作的处理器的数量,使得存储的量被分配以存储将由一个或更多个计算机程序使用的数据。在至少一个实施例中,使用训练数据集2102来训练未经训练的神经网络2106。在至少一个实施例中,训练框架2104是PyTorch框架,而在其他实施例中,训练框架2104是TensorFlow、Boost、Caffe、Microsoft CognitiveToolkit/CNTK、MXNet、Chainer、Keras、Deeplearning4j或其他训练框架。在至少一个实施例中,训练框架2104对未经训练的神经网络2106进行训练,并使其能够使用本文中所描述的处理资源来训练以生成经训练的神经网络2108。在至少一个实施例中,权重可以随机选择或通过使用深度信念网络进行预训练来选择。在至少一个实施例中,训练可以以监督、部分监督或无监督的方式来执行。
在至少一个实施例中,使用监督学习来训练未经训练的神经网络2106,其中训练数据集2102包括与用于输入的期望输出配对的输入,或者其中训练数据集2102包括具有已知输出的输入,并且神经网络2106的输出被手动地分级。在至少一个实施例中,以监督方式来训练未经训练的神经网络2106,并且处理来自训练数据集2102的输入,并将结果输出与预期或期望输出的集合进行比较。在至少一个实施例中,然后误差被反向传播通过未经训练的神经网络2106。在至少一个实施例中,训练框架2104调整控制未经训练的神经网络2106的权重。在至少一个实施例中,训练框架2104包括用于监视未经训练的神经网络2106朝向模型(诸如经训练的神经网络2108)收敛多好的工具,该模型适于基于输入数据(诸如新数据集2112)来生成正确答案(诸如结果2114)。在至少一个实施例中,训练框架2104重复地训练未经训练的神经网络2106,同时使用损失函数和调整算法(诸如随机梯度下降)来调整权重以精炼未经训练的神经网络2106的输出。在至少一个实施例中,训练框架2104训练未经训练的神经网络2106,直到未经训练的神经网络2106实现所期望的准确度。在至少一个实施例中,经训练的神经网络2108然后可被部署以实现任何数量的机器学习操作。
在至少一个实施例中,使用无监督学习来训练未经训练的神经网络2106,其中未经训练的神经网络2106尝试使用未标记的数据来训练其自身。在至少一个实施例中,无监督学习训练数据集2102将包括输入数据而没有任何相关联的输出数据或“地面真值”数据。在至少一个实施例中,未经训练的神经网络2106可以学习训练数据集2102内的分组,并且可以确定各个输入如何与未经训练的数据集2102相关。在至少一个实施例中,无监督训练可被用于在经训练的神经网络2108中生成能够执行在减少新数据集2112的维度中有用的操作的自组织映射。在至少一个实施例中,无监督训练还可用于执行异常检测,其允许识别新数据集2112中偏离新数据集2112的正常模式的数据点。
在至少一个实施例中,可以使用半监督学习,半监督学习是其中在训练数据集2102中包括标记数据和未标记数据的混合的技术。在至少一个实施例中,训练框架2104可被用于执行增量学习,诸如通过转移学习技术。在至少一个实施例中,增量学习使得经训练的神经网络2108能够适应新的数据集2112,而不会忘记在初始训练期间注入在经训练的神经网络2108内的知识。
5G网络
以下附图阐述了但不限于可以用于实现至少一个实施例的示例性基于5G网络的系统。
图22示出了根据至少一个实施例的网络的系统2200的架构。在至少一个实施例中,图22用于至少部分地基于用于执行一个或更多个计算机程序的一个或更多个部分和/或以其他方式执行本文结合图1-图7描述的操作的处理器的数量,使得存储的量被分配以存储将由一个或更多个计算机程序使用的数据。在至少一个实施例中,系统2200被示为包括用户设备(UE)2202和UE 2204。在至少一个实施例中,UE 2202和2204被示为智能电话(例如,可连接到一个或更多个蜂窝网络的手持触摸屏移动计算设备),但还可包括任何移动或非移动计算设备,诸如个人数字助理(PDA)、寻呼机、膝上型计算机、台式计算机、无线手持设备或包括无线通信接口的任何计算设备。
在至少一个实施例中,UE 2202和UE 2204中的任何一个可包括物联网(IoT)UE,该IoT UE可包括为利用短暂UE连接的低功率IoT应用设计的网络接入层。在至少一个实施例中,IoT UE可利用诸如用于经由公共陆地移动网络(PLMN)、基于邻近的服务(ProSe)或设备到设备(D2D)通信、传感器网络或IoT网络与MTC服务器或设备交换数据的技术,诸如机器对机器(M2M)或机器类型通信(MTC)。在至少一个实施例中,M2M或MTC数据交换可以是机器发起的数据交换。在至少一个实施例中,IoT网络描述互连IoT UE,该IoT UE可包括具有短寿命连接的可唯一标识的嵌入式计算设备(在互联网基础结构内)。在至少一个实施例中,IoTUE可执行后台应用(例如,保活消息、状态更新等)以促进IoT网络的连接。
在至少一个实施例中,UE 2202和UE 2204可以被配置为与无线电接入网(RAN)2216连接(例如,通信地耦合)。在至少一个实施例中,RAN 2216例如可以是演进的通用移动电信系统(UMTS)陆地无线电接入网络(E-UTRAN)、NextGen RAN(NG RAN)或一些其他类型的RAN。在至少一个实施例中,UE 2202和UE 2204分别利用连接2212和连接2214,每个连接包括物理通信接口或层。在至少一个实施例中,连接2212和2214被示为空中接口,用于实现通信耦合,并且可以与蜂窝通信协议一致,诸如全球移动通信系统(GSM)协议,码分多址(CDMA)网络协议、即按即讲(PTT)协议、蜂窝PTT(POC)协议、通用移动电信系统(UMTS)协议、3GPP长期演进(LTE)协议、第五代(5G)协议、新无线电(NR)协议及其变型。
在至少一个实施例中,UE 2202和2204还可经由ProSe接口2206直接交换通信数据。在至少一个实施例中,ProSe接口2206可替代地被称为边链路接口,其包括一个或更多个逻辑信道,包括但不限于物理边链路控制信道(PSCCH)、物理边链路共享信道(PSSCH)、物理边链路发现信道(PSDCH)和物理边链路广播信道(PSBCH)。
在至少一个实施例中,UE 2204被示为配置成经由连接2208接入接入点(AP)2210。在至少一个实施例中,连接2208可以包括本地无线连接,诸如与任何IEEE 802.11协议一致的连接,其中AP 2210将包括无线保真路由器。在至少一个实施例中,AP 2210被示为连接到互联网而不连接到无线系统的核心网。
在至少一个实施例中,RAN 2216可包括启用连接2212和2214的一个或更多个接入节点。在至少一个实施例中,这些接入节点(AN)可被称为基站(BS)、NodeB、演进型NodeB(eNB)、下一代NodeB(gNB)、RAN节点等,并且可包括地面站(例如,地面接入点)或提供地理区域(例如,小区)内的覆盖的卫星站。在至少一个实施例中,RAN 2216可包括用于提供宏蜂窝小区的一个或更多个RAN节点(例如,宏RAN节点2218)和用于提供毫微微蜂窝小区或微微蜂窝小区(例如,与宏蜂窝小区相比具有较小覆盖区域、较小用户容量、或较高带宽的蜂窝小区)的一个或更多个RAN节点(例如,低功率(LP)RAN节点2220)。
在至少一个实施例中,RAN节点2218和2220中的任一个可终止空中接口协议并且可以为UE 2202和2204的第一联系点。在至少一个实施例中,RAN节点2218和2220中的任一个可实现RAN 2216的各种逻辑功能,包括但不限于无线电网络控制器(RNC)功能,诸如无线电承载管理、上行链路和下行链路动态无线电资源管理和数据分组调度和移动性管理。
在至少一个实施例中,UE 2202和UE 2204可被配置为使用正交频分复用(OFDM)通信信号根据各种通信技术通过多载波通信信道彼此通信或者与RAN节点2218和RAN节点2220中的任一个通信,通信技术诸如但不限于正交频分多址(OFDMA)通信技术(例如,用于下行链路通信)或单载波频分多址(SC-FDMA)通信技术(例如,用于上行链路和ProSe或边链路通信),和/或其变体。在至少一个实施例中,OFDM信号可包括多个正交子载波。
在至少一个实施例中,下行链路资源网格可以用于从RAN节点2218和2220中的任一个到UE 2202和2204的下行链路传输,而上行链路传输可以利用类似的技术。在至少一个实施例中,网格可以是称为资源网格或时频资源网格的时频网格,其是每个时隙中下行链路中的物理资源。在至少一个实施例中,这种时频平面表示是OFDM系统的常见实践,这使得其对于无线电资源分配来说是直观的。在至少一个实施例中,资源网格的每列和每行分别对应于一个OFDM符号和一个OFDM子载波。在至少一个实施例中,时域中的资源网格的持续时间对应于无线电帧中的一个时隙。在至少一个实施例中,资源网格中的最小时间-频率单元被表示为资源元件。在至少一个实施例中,每个资源网格包括多个资源块,其描述某些物理信道到资源元件的映射。在至少一个实施例中,每个资源块包括资源元件的集合。在至少一个实施例中,在频域中,这可以表示当前可以被分配的最小数量的资源。在至少一个实施例中,存在使用这样的资源块传送的若干不同的物理下行链路信道。
在至少一个实施例中,物理下行链路共享信道(PDSCH)可以运载用户数据和更高层信令给UE 2202和2204。在至少一个实施例中,物理下行链路控制信道(PDCCH)可运载关于与PDSCH信道相关的传输格式和资源分配的信息等。在至少一个实施例中,其还可以向UE2202和2204通知与上行链路共享信道有关的传输格式、资源分配和HARQ(混合自动重传请求)信息。在至少一个实施例中,通常,下行链路调度(将控制和共享信道资源块分配给小区内的UE 2202)可以在RAN节点2218和2220中的任一个处基于从UE 2202和2204中的任一个反馈的信道质量信息来执行。在至少一个实施例中,下行链路资源分配信息可以在用于(例如分配给)UE 2202和2204中的每一个的PDCCH上发送。
在至少一个实施例中,PDCCH可以使用控制信道元件(CCE)来传送控制信息。在至少一个实施例中,在被映射到资源元件之前,PDCCH复值符号可以首先被组织成四元组,然后可以使用子块交织器对其进行置换以用于速率匹配。在至少一个实施例中,可以使用这些CCE中的一个或更多个来传送每个PDCCH,其中每个CCE可以对应于被称为资源元件组(REG)的四个物理资源元件的九个集合。在至少一个实施例中,四个正交相移键控(QPSK)符号可以被映射到每个REG。在至少一个实施例中,取决于下行链路控制信息(DCI)的大小和信道条件,可以使用一个或更多个CCE来发送PDCCH。在至少一个实施例中,可以有在LTE中定义的具有不同数量的CCE的四个或更多个不同的PDCCH格式(例如,聚合等级,L=1、2、4或8)。
在至少一个实施例中,使用PDSCH资源的增强型物理下行链路控制信道(EPDCCH)可以用于控制信息传输。在至少一个实施例中,可以使用一个或更多个增强型控制信道元件(ECCE)来发送EPDCCH。在至少一个实施例中,每个ECCE可以对应于被称为增强型资源元件组(EREG)的四个物理资源元件的九个集合。在至少一个实施例中,ECCE在一些情况下可以具有其他数量的EREG。
在至少一个实施例中,RAN 2216被示为经由S1接口2222通信地耦合至核心网(CN)2238。在至少一个实施例中,CN 2238可以是演进的分组核心(EPC)网络、NextGen分组核心(NPC)网络或一些其他类型的CN。在至少一个实施例中,S1接口2222被分成两部分:S1-U接口2226,其运载RAN节点2218和2220与服务网关(S-GW)2230之间的业务数据;以及S1-移动性管理实体(MME)接口2224,其为RAN节点2218和2220与MME 2228之间的信令接口。
在至少一个实施例中,CN 2238包括MME 2228、S-GW 2230、分组数据网络(PDN)网关(P-GW)2234和归属订户服务器(HSS)2232。在至少一个实施例中,MME 2228可以在功能上类似于传统服务通用分组无线电服务(GPRS)支持节点(SGSN)的控制平面。在至少一个实施例中,MME 2228可以管理接入中的移动性方面,例如网关选择和跟踪区域列表管理。在至少一个实施例中,HSS2232可以包括用于网络用户的数据库,该数据库包括用于支持网络实体处理通信会话的订阅相关信息。在至少一个实施例中,CN 2238可以包括一个或更多个HSS2232,这取决于移动用户的数量、设备的容量、网络的组织等。在至少一个实施例中,HSS2232可以提供对路由/漫游、认证、授权、命名/寻址解析、位置依赖性等的支持。
在至少一个实施例中,S-GW 2230可以终止朝向RAN 2216的S1接口2222,并且在RAN 2216和CN 2238之间路由数据分组。在至少一个实施例中,S-GW 2230可以是用于RAN间节点切换的本地移动性锚点,并且还可以提供用于3GPP间移动性的锚点。在至少一个实施例中,其他责任可以包括合法拦截、收费和一些策略强制执行。
在至少一个实施例中,P-GW 2234可以终止朝向PDN的SGi接口。在至少一个实施例中,P-GW 2234可以经由互联网协议(IP)接口2242在EPC网络2238和外部网络(诸如包括应用服务器2240(或者称为应用功能(AF))的网络)之间路由数据分组。在至少一个实施例中,应用服务器2240可以是采用核心网络(例如,UMTS分组服务(PS)域、LTE PS数据服务等)提供使用IP承载资源的应用的元件。在至少一个实施例中,P-GW 2234被示出为经由IP通信接口2242通信地耦合到应用服务器2240。在至少一个实施例中,应用服务器2240还可被配置为经由CN 2238支持UE 2202和2204的一个或更多个通信服务(例如,互联网协议语音(VoIP)会话、PTT会话、组通信会话、社交网络服务等)。
在至少一个实施例中,P-GW 2234还可以是用于策略实施和收费数据收集的节点。在至少一个实施例中,策略和计费执行功能(PCRF)2236是CN 2238的策略和计费控制元件。在至少一个实施例中,在非漫游场景中,在与UE的互联网协议连接性接入网络(IP-CAN)会话相关联的归属公共陆地移动网络(HPLMN)中可以存在单个PCRF。在至少一个实施例中,在具有本地流量突破的漫游场景中,可存在与UE的IP-CAN会话相关联的两个PCRF:HPLMN内的归属PCRF(H-PCRF)和受访公共陆地移动网络(VPLMN)内的受访PCRF(V-PCRF)。在至少一个实施例中,PCRF 2236可以经由P-GW 2234通信地耦合到应用服务器2240。在至少一个实施例中,应用服务器2240可以向PCRF 2236发信号,以指示新的服务流,并选择适当的服务质量(QoS)和计费参数。在至少一个实施例中,PCRF 2236可以将这个规则供应到具有适当的业务流模板(TFT)和标识符的QoS类(QCI)的策略和计费执行功能(PCEF)(未示出),所述PCEF开始由应用服务器2240指定的QoS和计费。
图23示出了根据一些实施例的网络的系统2300的架构。在至少一个实施例中,图23用于至少部分地基于用于执行一个或更多个计算机程序的一个或更多个部分和/或以其他方式执行本文结合图1-图7描述的操作的处理器的数量,使得存储的量被分配以存储将由一个或更多个计算机程序使用的数据。在至少一个实施例中,系统2300被示为包括UE2302、5G接入节点或RAN节点(被示为(R)AN节点2308),用户平面功能(被示出为UPF 2304),数据网络(DN 2306),在至少一个实施例中,其可以是运营商服务、互联网接入或第三方服务、以及5G核心网络(5GC)(示为CN 2310)。
在至少一个实施例中,CN 2310包括认证服务器功能(AUSF 2314);核心接入和移动性管理功能(AMF 2312);会话管理功能(SMF 2318);网络暴露功能(NEF 2316);策略控制功能(PCF 2322);网络功能(NF)储存库功能(NRF 2320);统一数据管理(UDM 2324);以及应用功能(AF 2326)。在至少一个实施例中,CN 2310还可包括未示出的其他元件,诸如结构化数据存储网络功能(SDSF)、非结构化数据存储网络功能(UDSF)及其变型。
在至少一个实施例中,UPF 2304可充当RAT内和RAT间移动性的锚点、互连到DN2306的外部PDU会话点、和支持多归属PDU会话的分支点。在至少一个实施例中,UPF 2304还可以执行分组路由和转发、分组检查、实施策略规则的用户平面部分、合法拦截分组(UP收集);业务使用报告、为用户平面执行QoS处理(例如分组过滤、门控、UL/DL速率执行)、执行上行链路业务验证(例如,SDF到QoS流映射)、上行链路和下行链路中的传输级分组标记、以及下行链路分组缓存和下行链路数据通知触发。在至少一个实施例中,UPF 2304可包括上行链路分类器,用于支持将业务流路由到数据网络。在至少一个实施例中,DN 2306可表示各种网络运营商服务、互联网接入或第三方服务。
在至少一个实施例中,AUSF 2314可以存储用于UE 2302的认证的数据,并且处理与认证相关的功能。在至少一个实施例中,AUSF 2314可以促进用于各种接入类型的公共认证框架。
在至少一个实施例中,AMF 2312可以负责注册管理(例如,用于注册UE 2302等)、连接管理、可达性管理、移动性管理、和AMF相关事件的合法拦截、以及接入认证和授权。在至少一个实施例中,AMF 2312可以为SMF 2318提供SM消息的传输,并且充当用于路由SM消息的透明代理。在至少一个实施例中,AMF 2312还可以提供UE 2302与SMS功能(SMSF)(图23未示出)之间的短消息服务(SMS)消息的传输。在至少一个实施例中,AMF 2312可以充当安全锚定功能(SEA),其可以包括与AUSF 2314和UE 2302的交互以及接收作为UE 2302认证过程的结果而建立的中间密钥。在至少一个实施例中,在使用基于USIM的认证的情况下,AMF2312可以从AUSF 2314检索安全材料。在至少一个实施例中,AMF 2312还可以包括安全上下文管理(SCM)功能,其从SEA接收它用来导出接入网络专用密钥的密钥。此外,在至少一个实施例中,AMF 2312可以是RAN CP接口的终止点(N2参考点)、NAS(NI)信令的终止点,并且执行NAS加密和完整性保护。
在至少一个实施例中,AMF 2312还可以支持通过N3互通功能(IWF)接口与UE 2302的NAS信令。在至少一个实施例中,N3IWF可以用于提供对不受信实体的访问。在至少一个实施例中,N3IWF可以分别是控制平面和用户平面的N2和N3接口的终止点,因此,可针对PDU会话和QoS处理来自SMF和AMF的N2信令,对IPSec和N3隧道的分组进行封装/解封装,在上行链路中标记N3用户平面分组,并且考虑到与通过N2接收的这种标记相关联的QoS要求,实施对应于N3分组标记的QoS。在至少一个实施例中,N3IWF还可以在UE 2302和AMF 2312之间中继上行链路和下行链路控制平面NAS(NI)信令,并且在UE 2302和UPF 2304之间中继上行链路和下行链路用户平面分组。在至少一个实施例中,N3IWF还提供用于与UE 2302的IPsec隧道建立的机制。
在至少一个实施例中,SMF 2318可负责会话管理(例如,会话建立、修改和释放,包括UPF和AN节点之间的隧道保持);UE IP地址分配和管理(包括可选的授权);UP功能的选择和控制;在UPF处配置流量转向以将流量路由到合适的目的地;朝向策略控制功能的接口终止;策略强制执行和QoS的控制部分;合法拦截(用于SM事件和到LI系统的接口);NAS消息的SM部分的终止;下行链路数据通知;AN特定SM信息的发起者,其经由AMF在N2上发送到AN;确定会话的SSC模式。在至少一个实施例中,SMF 2318可包括以下漫游功能:处理本地实施以应用QoS SLAB(VPLMN);收费数据收集和收费接口(VPLMN);合法拦截(在VPLMN中用于SM事件并且接口到LI系统);支持与外部DN交互以传输用于由外部DN进行的PDU会话授权/认证的信令。
在至少一个实施例中,NEF 2316可以提供用于安全地暴露由3GPP网络功能为第三方提供的服务和能力、内部暴露/重新暴露、应用功能(例如,AF 2326)、边缘计算或雾计算系统等的装置。在至少一个实施例中,NEF 2316可认证、授权和/或节流AF。在至少一个实施例中,NEF 2316还可以转换与AF 2326交换的信息和与内部网络功能交换的信息。在至少一个实施例中,NEF 2316可以在AF服务标识符和内部5GC信息之间转换。在至少一个实施例中,NEF 2316还可以基于其他网络功能的暴露的能力从其他网络功能(NF)接收信息。在至少一个实施例中,该信息可作为结构化数据存储在NEF 2316处,或使用标准化接口存储在数据存储NF处。在至少一个实施例中,所存储的信息然后可由NEF 2316重新暴露给其他NF和AF,和/或用于其他目的,诸如分析。
在至少一个实施例中,NRF 2320可以支持服务发现功能,从NF实例接收NF发现请求,以及向NF实例提供所发现的NF实例的信息。在至少一个实施例中,NRF 2320还维护可用NF实例及其支持的服务的信息。
在至少一个实施例中,PCF 2322可向控制平面功能提供策略规则以实施它们,并且还可支持统一策略框架以管理网络行为。在至少一个实施例中,PCF 2322还可实现前端(FE),用于访问UDM 2324的UDR中与策略决策相关的订阅信息。
在至少一个实施例中,UDM 2324可处理订阅相关信息以支持网络实体处理通信会话,并且可存储UE 2302的订阅数据。在至少一个实施例中,UDM 2324可以包括两个部分,应用FE和用户数据存储库(UDR)。在至少一个实施例中,UDM可以包括UDM FE,该UDM FE负责处理凭证、位置管理、订阅管理等。在至少一个实施例中,若干不同前端可在不同交易中服务同一用户。在至少一个实施例中,UDM-FE访问UDR中存储的子订阅信息,并执行认证凭证处理;用户标识处理;接入授权;注册/移动性管理;以及订阅管理。在至少一个实施例中,UDR可与PCF 2322交互。在至少一个实施例中,UDM 2324还可支持SMS管理,其中SMS-FE实现如前所述的类似应用逻辑。
在至少一个实施例中,AF 2326可以提供对业务路由的应用影响、对网络能力暴露(NCE)的接入,以及与策略框架的交互以用于策略控制。在至少一个实施例中,NCE可以是允许5GC和AF 2326经由NEF 2316向彼此提供信息的机制,NEF 2316可以用于边缘计算实现。在至少一个实施例中,网络运营商和第三方服务可被托管在UE 2302的附接接入点附近,以通过减少的端到端延时和传输网络上的负载来实现高效的服务递送。在至少一个实施例中,对于边缘计算实现,5GC可选择靠近UE 2302的UPF 2304,并经由N6接口执行从UPF 2304到DN 2306的业务引导。在至少一个实施例中,这可以基于由AF 2326提供的UE订阅数据、UE位置和信息。在至少一个实施例中,AF 2326可以影响UPF(重新)选择和业务路由。在至少一个实施例中,基于运营商部署,当AF 2326被认为是受信实体时,网络运营商可以允许AF2326直接与相关NF交互。
在至少一个实施例中,CN 2310可以包括SMSF,其可以负责SMS订阅检查和验证,并且中继去往/来自UE 2302的SM消息到/来自其他实体,例如SMS-GMSC/IWMSC/SMS路由器。在至少一个实施例中,SMS还可以与AMF 2312和UDM 2324交互,以用于UE 2302可用于SMS传送的通知过程(例如,设置UE不可达标志,并且当UE 2302可用于SMS时通知UDM 2324)。
在至少一个实施例中,系统2300可以包括以下基于服务的接口:Namf:AMF展现的基于服务的接口;Nsmf:SMF展现的基于服务的接口;Nnef:NEF展现的基于服务的接口;Npcf:PCF展现的基于服务的接口;Nudm:UDM展现的基于服务的接口;Naf:AF展现的基于服务的接口;Nnrf:NRF展现的基于服务的接口;以及Nausf:AUSF展现的基于服务的接口。
在至少一个实施例中,系统2300可以包括以下参考点:N1:UE和AMF之间的参考点;N2:(R)AN和AMF之间的参考点;N3:(R)AN和UPF之间的参考点;N4:SMF和UPF之间的参考点;以及N6:UPF和数据网络之间的参考点。在至少一个实施例中,NF中的NF服务之间可能存在更多的参考点和/或基于服务的接口,然而,为清楚起见,这些接口和参考点已经被省略。在至少一个实施例中,NS参考点可以在PCF与AF之间;N7参考点可以在PCF与SMF之间;N11参考点在AMF与SMF之间等等。在至少一个实施例中,CN 2310可以包括Nx接口,Nx接口是MME和AMF 2312之间的CN间接口,以便实现CN 2310和CN 7223之间的互通。
在至少一个实施例中,系统2300可包括多个RAN节点(诸如(R)AN节点2308),其中在连接到5GC 410的两个或更多个(R)AN节点2308(例如,gNB)之间,在连接到CN 2310的(R)AN节点2308(例如gNB)和eNB(例如宏RAN节点)之间,和/或在连接到CN 2310的两个eNB之间定义Xn接口。
在至少一个实施例中,Xn接口可以包括Xn用户平面(Xn-U)接口和Xn控制平面(Xn-C)接口。在至少一个实施例中,Xn-U可以提供用户平面PDU的无保证的递送,并且支持/提供数据转发和流控制功能。在至少一个实施例中,Xn-C可提供管理和错误处理功能、管理Xn-C接口的功能;对处于连接模式(例如,CM-CONNECTED)的UE 2302的移动性支持,其包括管理针对一个或更多个(R)AN节点2308之间的连接模式的UE移动性的功能。在至少一个实施例中,移动性支持可包括从旧(源)服务(R)AN节点2308到新(目标)服务(R)AN节点2308的上下文传送;以及控制旧(源)服务(R)AN节点2308至新(目标)服务(R)AN节点2308之间的用户平面隧道。
在至少一个实施例中,Xn-U的协议栈可以包括在互联网协议(IP)传输层上构建的传输网络层和在UDP和/或一个或更多个IP层的顶部上用于承载用户平面PDU的GTP-U层。在至少一个实施例中,Xn-C协议栈可以包括应用层信令协议(称为Xn应用协议(Xn-AP))和建立在SCTP层上的传输网络层。在至少一个实施例中,SCTP层可以在IP层的顶部上。在至少一个实施例中,SCTP层提供应用层消息的有保证的递送。在至少一个实施例中,在传输IP层中,点对点传输被用于递送信令PDU。在至少一个实施例中,Xn-U协议栈和/或Xn-C协议栈可以与本文中示出和描述的用户平面和/或控制平面协议栈相同或相似。
图24是根据一些实施例的控制平面协议栈的图示。在至少一个实施例中,图24用于至少部分地基于用于执行一个或更多个计算机程序的一个或更多个部分和/或以其他方式执行本文结合图1-图7描述的操作的处理器的数量,使得存储的量被分配以存储将由一个或更多个计算机程序使用的数据。在至少一个实施例中,控制平面2400被示为UE 2202(或可替代地,UE 2204)、RAN 2216和MME 2228之间的通信协议栈。
在至少一个实施例中,PHY层2402可以通过一个或更多个空中接口发送或接收由MAC层2404使用的信息。在至少一个实施例中,PHY层2402还可以执行链路自适应或自适应调制和编码(AMC)、功率控制、小区搜索(例如,用于初始同步和切换目的)和由较高层(例如,RRC层2410)使用的其他测量。在至少一个实施例中,PHY层2402还可以进一步对传输信道执行错误检测、传输信道的前向纠错(FEC)编码/解码、物理信道的调制/解调、交织、速率匹配、映射到物理信道、以及多输入多输出(MIMO)天线处理。
在至少一个实施例中,MAC层2404可执行逻辑信道和传输信道之间的映射,将来自一个或更多个逻辑信道的MAC服务数据单元(SDU)复用到要经由传输信道递送到PHY的传输块(TB)上,将MAC SDU从经由传输信道从PHY递送的传输块(TB)解复用到一个或更多个逻辑信道,将MAC SDU复用到TB上、调度信息报告、通过混合自动重传请求(HARD)的纠错,以及逻辑信道优先化。
在至少一个实施例中,RLC层2406可在多种操作模式下操作,包括:透明模式(TM)、非确认模式(UM)和确认模式(AM)。在至少一个实施例中,RLC层2406可以执行上层协议数据单元(PDU)的传输、通过针对AM数据传输的自动重复请求(ARQ)的纠错、以及用于UM和AM数据传输的RLC SDU的级联、分段和重组。在至少一个实施例中,RLC层2406还可以执行用于AM数据传输的RLC数据PDU的重新分段,对用于UM和AM数据传输的RLC数据PDU进行重排序,检测用于UM和AM数据传输的重复数据,丢弃用于UM和AM数据传输的RLC SDU,检测AM数据传输的协议错误,以及执行RLC重建。
在至少一个实施例中,PDCP层2408可以执行IP数据的报头压缩和解压缩,维持PDCP序列号(SN),在重建较低层时执行较高层PDU的序列内递送,在为映射在RLC AM上的无线电承载重建较低层时消除较低层SDU的复制,对控制平面数据进行加密和解密,对控制平面数据进行完整性保护和完整性验证,基于控制定时器的数据丢弃,以及执行安全操作(例如,加密、解密、完整性保护、完整性验证等)。
在至少一个实施例中,RRC层2410的主要服务和功能可包括系统信息的广播(例如,包括在与非接入层(NAS)相关的主信息块(MIB)或系统信息块(SIB)中),与接入层(AS)有关的系统信息的广播、UE与E-UTRAN之间的RRC连接的寻呼、建立、维持和释放(例如,RRC连接寻呼、RRC连接建立、RRC连接修改和RRC连接释放),点对点无线承载的建立、配置、维护和释放,包括密钥管理的安全功能,无线电接入技术(RAT)间移动性,以及用于UE测量报告的测量配置。在至少一个实施例中,所述MIB和SIB可包括一个或更多个信息元件(IE),每个信息元件可包括单独的数据字段或数据结构。
在至少一个实施例中,UE 2202和RAN 2216可以利用Uu接口(例如,LTE-Uu接口)来经由包括PHY层2402、MAC层2404、RLC层2406、PDCP层2408和RRC层2410的协议栈交换控制平面数据。
在至少一个实施例中,非接入层(NAS)协议(NAS协议2412)形成UE 2202与MME2228之间的控制平面的最高层。在至少一个实施例中,NAS协议2412支持UE 2202的移动性和会话管理过程以建立和维持UE 2202与P-GW 2234之间的IP连接。
在至少一个实施例中,Si应用协议(Si-AP)层(Si-AP层2422)可以支持Si接口的功能并且包括基本过程(EP)。在至少一个实施例中,EP是RAN 2216和CN 2228之间的交互单元。在至少一个实施例中,S1-AP层服务可以包括两个组:UE关联服务和非UE关联服务。在至少一个实施例中,这些服务执行功能,包括但不限于:E-UTRAN无线电接入承载(E-RAB)管理、UE能力指示、移动性、NAS信令传输、RAN信息管理(RIM)和配置转移。
在至少一个实施例中,流控制传输协议(SCTP)层(可替代地称为流控制传输协议/互联网协议(SCTP/IP)层)(SCTP层2420)可以部分地基于IP层2418所支持的IP协议来确保RAN 2216与MME 2228之间的信令消息的可靠传递。在至少一个实施例中,L2层2416和L1层2414可以指由RAN节点和MME用来交换信息的通信链路(例如,有线或无线)。
在至少一个实施例中,RAN 2216和一个或更多个MME 2228可以利用S1-MME接口来经由包括L1层2414、L2层2416、IP层2418、SCTP层2420和Si-AP层2422的协议栈交换控制平面数据。
图25是根据至少一个实施例的用户平面协议栈的图示。在至少一个实施例中,图25用于至少部分地基于用于执行一个或更多个计算机程序的一个或更多个部分和/或以其他方式执行本文结合图1-图7描述的操作的处理器的数量,使得分配存储的量以存储由一个或更多个计算机程序使用的数据。在至少一个实施例中,用户平面2500被示为UE 2202、RAN 2216、S-GW 2230和P-GW 2234之间的通信协议栈。在至少一个实施例中,用户平面2500可以利用与控制平面2400相同的协议层。在至少一个实施例中,例如,UE 2202和RAN 2216可以利用Uu接口(例如,LTE-Uu接口)来经由包括PHY层2402、MAC层2404、RLC层2406、PDCP层2408的协议栈来交换用户平面数据。
在至少一个实施例中,用于用户平面的通用分组无线电服务(GPRS)隧道协议(GTP-U)层(GTP-U层2504)可以用于在GPRS核心网络内和在无线电接入网络和核心网络之间运载用户数据。在至少一个实施例中,所传输的用户数据例如可以是IPv4、IPv6或PPP格式中的任何格式的分组。在至少一个实施例中,UDP和IP安全(UDP/IP)层(UDP/IP层2502)可以提供数据完整性的校验和、用于在源和目的地寻址不同功能的端口号、以及对所选数据流的加密和认证。在至少一个实施例中,RAN 2216和S-GW 2230可以利用S1-U接口来经由包括L1层2414、L2层2416、UDP/IP层2502和GTP-U层2504的协议栈来交换用户平面数据。在至少一个实施例中,S-GW 2230和P-GW 2234可以利用S5/S8a接口来经由包括L1层2414、L2层2416、UDP/IP层2502和GTP-U层2504的协议栈交换用户平面数据。在至少一个实施例中,如以上关于图24所讨论的,NAS协议支持UE 2202的移动性和会话管理过程以建立和维持UE2202与P-GW 2234之间的IP连接。
图26示出了根据至少一个实施例的核心网络的组件2600。在至少一个实施例中,图26用于至少部分地基于用于执行一个或更多个计算机程序的一个或更多个部分和/或以其他方式执行本文结合图1-图7描述的操作的处理器的数量,使得分配存储的量以存储将由一个或更多个计算机程序使用的数据。在至少一个实施例中,CN 2238的组件可以在一个物理节点或单独的物理节点中实现,所述单独的物理节点包括用于从机器可读介质或计算机可读介质(例如,非暂态机器可读存储介质)读取和执行指令的组件。在至少一个实施例中,网络功能虚拟化(NFV)用于经由存储在一个或更多个计算机可读存储介质(以下进一步详细描述)中的可执行指令来虚拟化任何或所有的上述网络节点功能。在至少一个实施例中,CN 2238的逻辑实例化可以被称为网络切片2602(例如,网络切片2602被示出为包括HSS2232、MME 2228和S-GW 2230)。在至少一个实施例中,CN 2238的一部分的逻辑实例化可以被称为网络子切片2604(例如,网络子切片2604被示出为包括P-GW 2234和PCRF 2236)。
在至少一个实施例中,NFV架构和基础设施可以用于将一个或更多个网络功能虚拟化到包括行业标准服务器硬件、存储硬件或交换机的组合的物理资源上,所述网络功能可替代地由专用硬件执行。在至少一个实施例中,NFV系统可用于执行一个或更多个EPC组件/功能的虚拟或可重新配置的实现方式。
图27是示出了根据至少一个实施例的用于支持网络功能虚拟化(NFV)的系统2700的组件的框图。在至少一个实施例中,图27用于至少部分地基于用于执行一个或更多个计算机程序的一个或更多个部分和/或以其他方式执行本文结合图1-图7描述的操作的处理器的数量,使得存储的量被分配以存储将由一个或更多个计算机程序使用的数据。在至少一个实施例中,系统2700被示为包括虚拟化基础设施管理器(被示为VIM2702)、网络功能虚拟化基础设施(如NFVI 2704所示)、VNF管理器(如VNFM 2706所示)、虚拟化网络功能(示出为VNF 2708)、元件管理器(示出为EM 2710)、NFV协调器(示出为NFVO 2712)、以及网络管理器(示为NM 2714)。
在至少一个实施例中,VIM 2702管理NFVI 2704的资源。在至少一个实施例中,NFVI 2704可包括用于执行系统2700的物理或虚拟资源和应用(包括管理程序)。在至少一个实施例中,VIM 2702可以利用NFVI 2704来管理虚拟资源的生命周期(例如,与一个或更多个物理资源相关联的虚拟机(VM)的创建、维护和拆除)、跟踪VM实例、跟踪性能、VM实例和相关联的物理资源的故障和安全性、以及向其他管理系统暴露VM实例和相关联的物理资源。
在至少一个实施例中,VNFM 2706可以管理VNF 2708。在至少一个实施例中,VNF2708可以用于执行EPC组件/功能。在至少一个实施例中,VNFM 2706可以管理VNF 2708的生命周期并且跟踪VNF 2708的虚拟方面的性能、故障和安全性。在至少一个实施例中,EM2710可以跟踪VNF 2708的功能方面的性能、故障和安全性。在至少一个实施例中,跟踪来自VNFM 2706和EM 2710的数据可以包括,例如,由VIM 2702或NFVI 2704使用的性能测量(PM)数据。在至少一个实施例中,VNFM 2706和EM 2710两者可以放大/缩小系统2700的VNF的数量。
在至少一个实施例中,NFVO 2712可协调、授权、释放和占用NFVI 2704的资源,以便提供所请求的服务(例如,以执行EPC功能、组件或切片)。在至少一个实施例中,NM 2714可提供负责管理网络的终端用户功能包,该网络可包括具有VNF、非虚拟化网络功能或两者的网络元件(VNF的管理可经由EM 2710发生)。
基于计算机的系统
以下各图提出但不限于可用于实现至少一个实施例的示例性的基于计算机的系统。
图28示出了根据至少一个实施例的处理系统2800。在至少一个实施例中,图28用于至少部分地基于用于执行一个或更多个计算机程序的一个或更多个部分和/或以其他方式执行本文结合图1-图7描述的操作的处理器的数量,使得存储的量被分配以存储将由一个或更多个计算机程序使用的数据。在至少一个实施例中,系统2800包括一个或更多个处理器2802和一个或更多个图形处理器2808,并且可以是单处理器台式机系统、多处理器工作站系统或具有大量处理器2802或处理器核心2807的服务器系统。在至少一个实施例中,处理系统2800是结合在片上系统(SoC)集成电路内的处理平台,以用于移动、手持或嵌入式设备。
在至少一个实施例中,处理系统2800可以包括或结合在基于服务器的游戏平台中,包括游戏和媒体控制台的游戏控制台、移动游戏控制台、手持游戏控制台或在线游戏控制台。在至少一个实施例中,处理系统2800是移动电话、智能电话、平板计算设备或移动互联网设备。在至少一个实施例中,处理系统2800还可包括与可穿戴设备耦合或集成在可穿戴设备中,例如智能手表可穿戴设备、智能眼镜设备、增强现实设备或虚拟现实设备。在至少一个实施例中,处理系统2800是电视或机顶盒设备,其具有一个或更多个处理器2802以及由一个或更多个图形处理器2808生成的图形界面。
在至少一个实施例中,一个或更多个处理器2802每个包括一个或更多个处理器核心2807,以处理指令,该指令在被执行时执行针对系统和用户软件的操作。在至少一个实施例中,一个或更多个处理器核心2807中的每一个被配置为处理特定指令集2809。在至少一个实施例中,指令集2809可以促进复杂指令集计算(CISC)、精简指令集计算(RISC),或通过超长指令字(VLIW)进行计算。在至少一个实施例中,多个处理器核心2807可以各自处理不同的指令集2809,该指令集2809可以包括有助于仿真其他指令集的指令。在至少一个实施例中,处理器核心2807还可以包括其他处理设备,例如数字信号处理器(DSP)。
在至少一个实施例中,处理器2802包括高速缓存存储器(cache)2804。在至少一个实施例中,处理器2802可以具有单个内部高速缓存或多个级别的内部高速缓存。在至少一个实施例中,高速缓存存储器在处理器2802的各个组件之间共享。在至少一个实施例中,处理器2802还使用外部高速缓存(例如,三级(L3)高速缓存或最后一级高速缓存(LLC))(未示出),其可以使用已知的高速缓存一致性技术在处理器核心2807之间共享该逻辑。在至少一个实施例中,处理器2802中另外包括寄存器文件2806,处理器2802可以包括用于存储不同类型的数据的不同类型的寄存器(例如,整数寄存器、浮点寄存器、状态寄存器和指令指针寄存器)。在至少一个实施例中,寄存器文件2806可以包括通用寄存器或其他寄存器。
在至少一个实施例中,一个或更多个处理器2802与一个或更多个接口总线2810耦合,以在处理器2802与系统2800中的其他组件之间传输通信信号,例如地址、数据或控制信号。在至少一个实施例中,接口总线2810在一个实施例中可以是处理器总线,例如直接媒体接口(DMI)总线的版本。在至少一个实施例中,接口总线2810不限于DMI总线,并且可以包括一个或更多个外围组件互连总线(例如,PCI,PCI Express)、存储器总线或其他类型的接口总线。在至少一个实施例中,处理器2802包括集成存储器控制器2816和平台控制器集线器2830。在至少一个实施例中,存储器控制器2816促进存储设备与处理系统2800的其他组件之间的通信,而平台控制器集线器(PCH)2830通过本地I/O总线提供到输入/输出(I/O)设备的连接。
在至少一个实施例中,存储器设备2820可以是动态随机存取存储器(DRAM)设备、静态随机存取存储器(SRAM)设备、闪存设备、相变存储设备或具有适当的性能以用作处理器存储器。在至少一个实施例中,存储设备2820可以用作处理系统2800的系统存储器,以存储数据2822和指令2821,以在一个或更多个处理器2802执行应用或过程时使用。在至少一个实施例中,存储器控制器2816还与可选的外部图形处理器2812耦合,其可以与处理器2802中的一个或更多个图形处理器2808通信以执行图和媒体操作。在至少一个实施例中,显示设备2811可以连接至处理器2802。在至少一个实施例中,显示设备2811可以包括内部显示设备中的一个或更多个,例如在移动电子设备或便携式计算机设备或通过显示器接口(例如显示端口(DisplayPort)等)连接的外部显示设备。在至少一个实施例中,显示设备2811可以包括头戴式显示器(HMD),诸如用于虚拟现实(VR)应用或增强现实(AR)应用中的立体显示设备。
在至少一个实施例中,平台控制器集线器2830使外围设备能够通过高速I/O总线连接到存储设备2820和处理器2802。在至少一个实施例中,I/O外围设备包括但不限于音频控制器2846、网络控制器2834、固件接口2828、无线收发器2826、触摸传感器2825、数据存储设备2824(例如,硬盘驱动器、闪存等)。在至少一个实施例中,数据存储设备2824可以经由存储器接口(例如,SATA)或经由外围总线来连接,诸如外围组件互连总线(例如,PCI、PCIe)。在至少一个实施例中,触摸传感器2825可以包括触摸屏传感器、压力传感器或指纹传感器。在至少一个实施例中,无线收发器2826可以是Wi-Fi收发器、蓝牙收发器或移动网络收发器,诸如3G、4G或长期演进(LTE)收发器。在至少一个实施例中,固件接口2828使能与系统固件的通信,并且例如可以是统一的可扩展固件接口(UEFI)。在至少一个实施例中,网络控制器2834可以启用到有线网络的网络连接。在至少一个实施例中,高性能网络控制器(未示出)与接口总线2810耦合。在至少一个实施例中,音频控制器2846是多通道高清晰度音频控制器。在至少一个实施例中,处理系统2800包括可选的传统(legacy)I/O控制器2840,用于将遗留(例如,个人系统2(PS/2))设备耦合到处理系统2800。在至少一个实施例中,平台控制器集线器2830还可以连接到一个或更多个通用串行总线(USB)控制器2842,该控制器连接输入设备,诸如键盘和鼠标2843组合、相机2844或其他USB输入设备。
在至少一个实施例中,存储器控制器2816和平台控制器集线器2830的实例可以集成到离散的外部图形处理器中,例如外部图形处理器2812。在至少一个实施例中,平台控制器集线器2830和/或存储控制器2816可以在一个或更多个处理器2802的外部。例如,在至少一个实施例中,处理系统2800可以包括外部存储控制器2816和平台控制器集线器2830,其可以配置成在与处理器2802通信的系统芯片组中的存储器控制器集线器和外围控制器集线器。
图29示出了根据至少一个实施例的计算机系统2900。在至少一个实施例中,图29用于至少部分地基于用于执行一个或更多个计算机程序的一个或更多个部分和/或以其他方式执行本文结合图1-图7描述的操作的处理器的数量,使得存储的量被分配以存储将由一个或更多个计算机程序使用的数据。在至少一个实施例中,计算机系统2900可以是具有互连的设备和组件,SOC,或某种组合的系统。在至少一个实施例中,计算机系统2900由处理器2902形成,该处理器2902可以包括用于执行指令的执行单元。在至少一个实施例中,计算机系统2900可以包括但不限于组件,例如处理器2902,其采用包括逻辑的执行单元以执行用于过程数据的算法。在至少一个实施例中,计算机系统2900可以包括处理器,例如可从加利福尼亚圣塔克拉拉的英特尔公司(Intel Corporation of Santa Clara,California)获得的处理器家族、XeonTM、XScaleTM和/或StrongARMTM,CoreTM或NervanaTM微处理器,尽管也可以使用其他系统(包括具有其他微处理器的PC、工程工作站、机顶盒等)。在至少一个实施例中,计算机系统2900可以执行可从华盛顿州雷蒙德市的微软公司(Microsoft Corporation of Redmond,Wash.)获得的WINDOWS操作系统版本,尽管其他操作系统(例如UNIX和Linux)、嵌入式软件和/或图形用户界面也可以使用。
在至少一个实施例中,计算机系统2900可以用在其他设备中,例如手持设备和嵌入式应用。手持设备的一些示例包括蜂窝电话、互联网协议(Internet Protocol)设备、数码相机、个人数字助理(“PDA”)和手持PC。在至少一个实施例中,嵌入式应用可以包括微控制器、数字信号处理器(“DSP”)、SoC、网络计算机(“NetPC”)、机顶盒、网络集线器、广域网(“WAN”)交换机,或根据至少一个实施例可以执行一个或更多个指令的任何其他系统。
在至少一个实施例中,计算机系统2900可包括但不限于处理器2902,该处理器2902可包括但不限于一个或更多个执行单元2908,其可以配置为执行计算统一设备架构(“CUDA”)(由加利福尼亚州圣克拉拉的NVIDIA Corporation开发)程序。在至少一个实施例中,CUDA程序是用CUDA编程语言编写的软件应用程序的至少一部分。在至少一个实施例中,计算机系统2900是单处理器台式机或服务器系统。在至少一个实施例中,计算机系统2900可以是多处理器系统。在至少一个实施例中,处理器2902可以包括但不限于CISC微处理器、RISC微处理器、VLIW微处理器、实现指令集组合的处理器,或任何其他处理器设备,例如,诸如数字信号处理器。在至少一个实施例中,处理器2902可以耦合到处理器总线2910,该处理器总线2910可以在处理器2902与计算机系统2900中的其他组件之间传输数据信号。
在至少一个实施例中,处理器2902可以包括但不限于1级(“L1”)内部高速缓存存储器(“cache”)2904。在至少一个实施例中,处理器2902可以具有单个内部高速缓存或多级内部缓存。在至少一个实施例中,高速缓存存储器可以驻留在处理器2902的外部。在至少一个实施例中,处理器2902可以包括内部和外部高速缓存的组合。在至少一个实施例中,寄存器文件2906可以在各种寄存器中存储不同类型的数据,包括但不限于整数寄存器、浮点寄存器、状态寄存器和指令指针寄存器。
在至少一个实施例中,包括但不限于执行整数和浮点运算的逻辑的执行单元2908,其也位于处理器2902中。处理器2902还可以包括微码(“ucode”)只读存储器(“ROM”),用于存储某些宏指令的微代码。在至少一个实施例中,执行单元2908可以包括用于处理封装指令集2909的逻辑。在至少一个实施例中,通过将封装指令集2909包括在通用处理器2902的指令集中,以及要执行指令的相关电路,可以使用通用处理器2902中的封装数据来执行许多多媒体应用程序使用的操作。在至少一个实施例中,可以通过使用处理器的数据总线的全宽度来在封装的数据上执行操作来加速和更有效地执行许多多媒体应用程序,这可能不需要在处理器的数据总线上传输较小的数据单元来一次对一个数据元件执行一个或更多个操作。
在至少一个实施例中,执行单元2908也可以用在微控制器、嵌入式处理器、图形设备、DSP和其他类型的逻辑电路中。在至少一个实施例中,计算机系统2900可以包括但不限于存储器2920。在至少一个实施例中,存储器2920可以被实现为DRAM设备、SRAM设备、闪存设备或其他存储设备。存储器2920可以存储由处理器2902可以执行的由数据信号表示的指令2919和/或数据2921。
在至少一个实施例中,系统逻辑芯片可以耦合到处理器总线2910和存储器2920。在至少一个实施例中,系统逻辑芯片可以包括但不限于存储器控制器集线器(“MCH”)2916,并且处理器2902可以经由处理器总线2910与MCH 2916通信。在至少一个实施例中,MCH2916可以提供到存储器2920的高带宽存储器路径2918以用于指令和数据存储以及用于图形命令、数据和纹理的存储。在至少一个实施例中,MCH 2916可以在处理器2902、存储器2920和计算机系统2900中的其他组件之间启动数据信号,并且在处理器总线2910、存储器2920和系统I/O 2922之间桥接数据信号。在至少一个实施例中,系统逻辑芯片可以提供用于耦合到图形控制器的图形端口。在至少一个实施例中,MCH 2916可以通过高带宽存储器路径2918耦合到存储器2920,并且图形/视频卡2912可以通过加速图形端口(AcceleratedGraphics Port)(“AGP”)互连2914耦合到MCH 2916。
在至少一个实施例中,计算机系统2900可以使用系统I/O 2922作为专有集线器接口总线来将MCH 2916耦合到I/O控制器集线器(“ICH”)2930。在至少一个实施例中,ICH2930可以通过本地I/O总线提供与某些I/O设备的直接连接。在至少一个实施例中,本地I/O总线可以包括但不限于用于将外围设备连接到存储器2920、芯片组和处理器2902的高速I/O总线。示例可以包括但不限于音频控制器2929、固件集线器(“Flash BIOS”)2928、无线收发器2926、数据存储2924、包含用户输入2925的传统I/O控制器2923和键盘接口、串行扩展端口2927(例如USB)和网络控制器2934。数据存储2924可以包括硬盘驱动器、软盘驱动器、CD-ROM设备、闪存设备或其他大容量存储设备。
在至少一个实施例中,图29示出了包括互连的硬件设备或“芯片”的系统。在至少一个实施例中,图29可以示出示例性SoC。在至少一个实施例中,图29中示出的设备可以与专有互连、标准化互连(例如,PCIe)或其某种组合互连。在至少一个实施例中,系统2900的一个或更多个组件使用计算快速链路(CXL)互连来互连。
图30示出了根据至少一个实施例的系统3000。在至少一个实施例中,图30用于至少部分地基于用于执行一个或更多个计算机程序的一个或更多个部分和/或以其他方式执行本文结合图1-图7描述的操作的处理器的数量,使得存储的量被分配以存储将由一个或更多个计算机程序使用的数据。在至少一个实施例中,系统3000是利用处理器3010的电子设备。在至少一个实施例中,系统3000可以是,例如但不限于,笔记本电脑、塔式服务器、机架服务器、刀片服务器、膝上型计算机、台式机、平板电脑、移动设备、电话、嵌入式计算机或任何其他合适的电子设备。
在至少一个实施例中,系统3000可以包括但不限于通信地耦合到任何合适数量或种类的组件、外围设备、模块或设备的处理器3010。在至少一个实施例中,处理器3010使用总线或接口耦合,诸如I2C总线、系统管理总线(“SMBus”)、低引脚数(LPC)总线、串行外围接口(“SPI”)、高清音频(“HDA”)总线、串行高级技术附件(“SATA”)总线、USB(1、2、3版)或通用异步接收器/发送器(“UART”)总线。在至少一个实施例中,图30示出了系统,该系统包括互连的硬件设备或“芯片”。在至少一个实施例中,图30可以示出示例性SoC。在至少一个实施例中,图30中所示的设备可以与专有互连线、标准化互连(例如,PCIe)或其某种组合互连。在至少一个实施例中,图30的一个或更多个组件使用计算快速链路(CXL)互连线来互连。
在至少一个实施例中,图30可以包括显示器3024、触摸屏3025、触摸板3030、近场通信单元(“NFC”)3045、传感器集线器3040、热传感器3046、快速芯片组(“EC”)3035、可信平台模块(“TPM”)3038、BIOS/固件/闪存(“BIOS,FW Flash”)3022、DSP 3060、固态磁盘(“SSD”)或硬盘驱动器(“HDD”)3020、无线局域网单元(“WLAN”)3050、蓝牙单元3052、无线广域网单元(“WWAN”)3056、全球定位系统(GPS)3055、相机(“USB 3.0相机”)3054(例如USB3.0相机)或以例如LPDDR3标准实现的低功耗双倍数据速率(“LPDDR”)存储器单元(“LPDDR3”)3015。这些组件可以各自以任何合适的方式实现。
在至少一个实施例中,其他组件可以通过以上讨论的组件通信地耦合到处理器3010。在至少一个实施例中,加速度计3041、环境光传感器(“ALS”)3042、罗盘3043和陀螺仪3044可以可通信地耦合到传感器集线器3040。在至少一个实施例中,热传感器3039、风扇3037、键盘3046和触摸板3030可以通信地耦合到EC 3035。在至少一个实施例中,扬声器3063、耳机3064和麦克风(“mic”)3065可以通信地耦合到音频单元(“音频编解码器和D类放大器”)3064,其又可以通信地耦合到DSP 3060。在至少一个实施例中,音频单元3064可以包括例如但不限于音频编码器/解码器(“编解码器”)和D类放大器。在至少一个实施例中,SIM卡(“SIM”)3057可以通信地耦合到WWAN单元3056。在至少一个实施例中,组件(诸如WLAN单元3050和蓝牙单元3052以及WWAN单元3056)可以被实现为下一代形式因素(NGFF)。
图31示出了根据至少一个实施例的示例性集成电路3100。在至少一个实施例中,图31用于至少部分地基于用于执行一个或更多个计算机程序的一个或更多个部分和/或以其他方式执行本文结合图1-图7描述的操作的处理器的数量,使得存储的量被分配以存储将由一个或更多个计算机程序使用的数据。在至少一个实施例中,示例性集成电路3100是SoC,其可使用一个或更多个IP核心制造。在至少一个实施例中,集成电路3100包括一个或更多个应用处理器3105(例如,CPU)、至少一个图形处理器3110,并且可以另外包括图像处理器3115和/或视频处理器3120,其中任意一个可能是模块化IP核心。在至少一个实施例中,集成电路3100包括外围或总线逻辑,其包括USB控制器3125、UART控制器3130、SPI/SDIO控制器3135和I2S/I2C控制器3140。在至少一个实施例中,集成电路3100可以包括显示设备3145耦合到高清多媒体接口(HDMI)控制器3150和移动工业处理器接口(MIPI)显示接口3155中的一个或更多个。在至少一个实施例中,存储可以由闪存子系统3160提供,包括闪存和闪存控制器。在至少一个实施例中,可以经由存储器控制器3165提供存储器接口以用于访问SDRAM或SRAM存储器设备。在至少一个实施例中,一些集成电路还包括嵌入式安全引擎3170。
图32示出了根据至少一个实施例的计算系统3200。在至少一个实施例中,图32用于至少部分地基于用于执行一个或更多个计算机程序的一个或更多个部分和/或以其他方式执行本文结合图1-图7描述的操作的处理器的数量,使得存储的量被分配以存储将由一个或更多个计算机程序使用的数据。在至少一个实施例中,计算系统3200包括处理子系统3201,其具有经由可以包括存储器集线器3205的互连路径通信的一个或更多个处理器3202和系统存储器3204。在至少一个实施例中,存储器集线器3205可以是芯片组组件内的单独组件,也可以集成在一个或更多个处理器3202内。在至少一个实施例中,存储器集线器3205通过通信链路3206与I/O子系统3211耦合。在至少一个实施例中,I/O子系统3211包括I/O集线器3207,其可以使计算系统3200能够接收来自一个或更多个输入设备3208的输入。在至少一个实施例中,I/O集线器3207可以使能显示控制器,其包括在一个或更多个处理器3202中,用于向一个或更多个显示设备3210A提供输出。在至少一个实施例中,与I/O集线器3207耦合的一个或更多个显示设备3210A可以包括本地、内部或嵌入式显示设备。
在至少一个实施例中,处理子系统3201包括经由总线或其他通信链路3213耦合到存储器集线器3205的一个或更多个并行处理器3212。在至少一个实施例中,通信链路3213可以是许多基于标准的通信链路技术或协议中的一种,例如但不限于PCIe,或者可以是针对供应商的通信接口或通信结构。在至少一个实施例中,一个或更多个并行处理器3212形成计算集中的并行或向量处理系统,该系统可以包括大量的处理核心和/或处理集群,例如多集成核心(MIC)处理器。在至少一个实施例中,一个或更多个并行处理器3212形成可以将像素输出到经由I/O集线器3207耦合的一个或更多个显示设备3210A之一的图形处理子系统。在至少一个实施例中,一个或更多个并行处理器3212还可以包括显示控制器和显示接口(未示出),以使得能够直接连接到一个或更多个显示设备3210B。
在至少一个实施例中,系统存储单元3214可以连接到I/O集线器3207,以提供用于计算系统3200的存储机制。在至少一个实施例中,I/O交换机3216可以用于提供接口机制,以实现I/O集线器3207与其他组件之间的连接,例如可以集成到平台中的网络适配器3218和/或无线网络适配器3219,以及可以通过一个或更多个附加设备3220添加的各种其他设备。在至少一个实施例中,网络适配器3218可以是以太网适配器或另一有线网络适配器。在至少一个实施例中,无线网络适配器3219可以包括Wi-Fi、蓝牙、NFC的一个或更多个或其他包括一个或更多个无线电的网络设备。
在至少一个实施例中,计算系统3200可以包括未明确示出的其他组件,包括USB或其他端口连接、光存储驱动器、视频捕获设备和/或其变体,也可以连接到I/O集线器3207。在至少一个实施例中,对图32中的各个组件进行互连的通信路径可以使用任何合适的协议来实现,诸如基于PCI(外围组件互连)的协议(例如,PCIe),或其他总线或点对点通信接口和/或协议(例如,NVLink高速互连或互连协议)。
在至少一个实施例中,一个或更多个并行处理器3212包括针对图形和视频处理而优化的电路(例如,包括视频输出电路),并构成图形处理单元(GPU)。在至少一个实施例中,一个或更多个并行处理器3212包括针对通用处理而优化的电路。在至少一个实施例中,计算系统3200的组件可以与单个集成电路上的一个或更多个其他系统元件集成。例如,在至少一个实施例中,一个或更多个并行处理器3212、存储器集线器3205、处理器3202和I/O集线器3207可以被集成到片上系统(SoC)集成电路中。在至少一个实施例中,计算系统3200的组件可以被集成到单个封装中以形成系统级封装(SIP)配置。在至少一个实施例中,计算系统3200的组件的至少一部分可以被集成到多芯片模块(MCM)中,该多芯片模块可以与其他多芯片模块互连到模块化计算系统中。在至少一个实施例中,从计算系统3200中省略了I/O子系统3211和显示设备3210B。
处理系统
以下各图阐述了但不限于可用于实现至少一个实施例的示例性处理系统。
图33示出了根据至少一个实施例的加速处理单元(“APU”)3300。在至少一个实施例中,图33用于至少部分地基于用于执行一个或更多个计算机程序的一个或更多个部分和/或以其他方式执行本文结合图1-图7描述的操作的处理器的数量,使得存储的量被分配以存储将由一个或更多个计算机程序使用的数据。在至少一个实施例中,APU 3300由加利福尼亚州圣克拉拉市的AMD公司开发。在至少一个实施例中,APU 3300可以被配置为执行应用程序,诸如CUDA程序。在至少一个实施例中,APU 3300包括但不限于核心复合体3310、图形复合体3340、结构3360、I/O接口3370、存储器控制器3380、显示控制器3392和多媒体引擎3394。在至少一个实施例中,APU 3300可以包括但不限于任意数量的核心复合体3310、任意数量的图形复合体3340、任意数量的显示控制器3392和任意数量的多媒体引擎3394的任何组合。为了说明的目的,在本文中用附图标记表示相似对象的多个实例,其中附图标记标识该对象,并且括号中的数字标识所需要的实例。
在至少一个实施例中,核心复合体3310是CPU,图形复合体3340是GPU,并且APU3300是将不限于3310和3340集成到单个芯片上的处理单元。在至少一个实施例中,一些任务可以被分配给核心复合体3310,而其他任务可以被分配给图形复合体3340。在至少一个实施例中,核心复合体3310被配置为执行与APU 3300相关联的主控制软件,例如操作系统。在至少一个实施例中,核心复合体3310是APU 3300的主处理器,其控制和协调其他处理器的操作。在至少一个实施例中,核心复合体3310发出控制图形复合体3340的操作的命令。在至少一个实施例中,核心复合体3310可以被配置为执行从CUDA源代码派生的主机可执行代码,并且图形复合体3340可以被配置为执行从CUDA源代码派生的设备可执行代码。
在至少一个实施例中,核心复合体3310包括但不限于核心3320(1)-3320(4)和L3高速缓存3330。在至少一个实施例中,核心复合体3310可以包括但不限于任意数量的核心3320以及任意数量和类型的高速缓存的任何组合。在至少一个实施例中,核心3320被配置为执行特定指令集架构(“ISA”)的指令。在至少一个实施例中,每个核心3320是CPU核心。
在至少一个实施例中,每个核心3320包括但不限于获取/解码单元3322、整数执行引擎3324、浮点执行引擎3326和L2高速缓存3328。在至少一个实施例中,获取/解码单元3322获取指令,对这些指令进行解码,生成微操作,并将单独的微指令分派给整数执行引擎3324和浮点执行引擎3326。在至少一个实施例中,获取/解码单元3322可以同时分派一个微指令到整数执行引擎3324和另一微指令到浮点执行引擎3326。在至少一个实施例中,整数执行引擎3324执行不限于整数和存储器操作。在至少一个实施例中,浮点引擎3326执行不限于浮点和向量运算。在至少一个实施例中,获取-解码单元3322将微指令分派给单个执行引擎,该执行引擎代替整数执行引擎3324和浮点执行引擎3326两者。
在至少一个实施例中,每个核心3320(i)可以访问包括在核心3320(i)中的L2高速缓存3328(i),其中i是表示核心3320的特定实例的整数。在至少一个实施例中,包括在核心复合体3310(j)中的每个核心3320经由包括在核心复合体3310(j)中的L3高速缓存3330(j)连接到包括在核心复合体3310(j)中的其他核心3320,其中j是表示核心复合体3310的特定实例的整数。在至少一个实施例中,包括在核心复合体3310(j)中的核心3320可以访问包括在核心复合体3310(j)中的所有L3高速缓存3330(j),其中j是表示核心复合体3310的特定实例的整数。在至少一个实施例中,L3高速缓存3330可以包括但不限于任意数量的切片(slice)。
在至少一个实施例中,图形复合体3340可以被配置为以高度并行的方式执行计算操作。在至少一个实施例中,图形复合体3340被配置为执行图形管线操作,诸如绘制命令、像素操作、几何计算以及与将图像渲染至显示器相关联的其他操作。在至少一个实施例中,图形复合体3340被配置为执行与图形无关的操作。在至少一个实施例中,图形复合体3340被配置为执行与图形有关的操作和与图形无关的操作。
在至少一个实施例中,图形复合体3340包括但不限于任意数量的计算单元3350和L2高速缓存3342。在至少一个实施例中,计算单元3350共享L2高速缓存3342。在至少一个实施例中,L2高速缓存3342被分区。在至少一个实施例中,图形复合体3340包括但不限于任意数量的计算单元3350以及任意数量(包括零)和类型的高速缓存。在至少一个实施例中,图形复合体3340包括但不限于任意数量的专用图形硬件。
在至少一个实施例中,每个计算单元3350包括但不限于任意数量的SIMD单元3352和共享存储器3354。在至少一个实施例中,每个SIMD单元3352实现SIMD架构并且被配置为并行执行操作。在至少一个实施例中,每个计算单元3350可以执行任意数量的线程块,但是每个线程块在单个计算单元3350上执行。在至少一个实施例中,线程块包括但不限于任意数量的执行线程。在至少一个实施例中,工作组是线程块。在至少一个实施例中,每个SIMD单元3352执行不同的线程束(warp)。在至少一个实施例中,线程束是一组线程(例如16个线程),其中线程束中的每个线程属于单个线程块,并且被配置为基于单个指令集来处理不同的数据集。在至少一个实施例中,可以使用预测(predication)来禁用线程束中的一个或更多个线程。在至少一个实施例中,通道是线程。在至少一个实施例中,工作项是线程。在至少一个实施例中,波前是线程束。在至少一个实施例中,线程块中的不同波前可一起同步并经由共享存储器3354进行通信。
在至少一个实施例中,结构3360是系统互连,其促进跨核心复合体3310、图形复合体3340、I/O接口3370、存储器控制器3380、显示控制器3392和多媒体引擎3394的数据和控制传输。在至少一个实施例中,除了结构3360之外或代替结构3360,APU 3300还可以包括但不限于任意数量和类型的系统互连,该结构3360促进跨可以在APU 3300内部或外部的任意数量和类型的直接或间接链接的组件的数据和控制传输。在至少一个实施例中,I/O接口3370表示任意数量和类型的I/O接口(例如,PCI,PCI-Extended(“PCI-X”),PCIe,千兆以太网(“GBE”),USB等)。在至少一个实施例中,各种类型的外围设备耦合到I/O接口3370。在至少一个实施例中,耦合到I/O接口3370的外围设备可以包括但不限于键盘,鼠标,打印机,扫描仪,操纵杆或其他类型的游戏控制器、媒体记录设备、外部存储设备、网络接口卡等。
在至少一个实施例中,显示控制器AMD92在一个或更多个显示设备(例如液晶显示器(LCD)设备)上显示图像。在至少一个实施例中,多媒体引擎3394包括但不限于任意数量和类型的与多媒体相关的电路,例如视频解码器、视频编码器、图像信号处理器等。在至少一个实施例中,存储器控制器3380促进APU 3300与统一系统存储器3390之间的数据传输。在至少一个实施例中,核心复合体3310和图形复合体3340共享统一系统存储器3390。
在至少一个实施例中,APU 3300实现种存储器子系统,其包括但不限于任意数量和类型的存储器控制器3380和可以专用于一个组件或在多个组件之间共享的存储器设备(例如,共享存储器3354)。组件。在至少一个实施例中,APU 3300实现高速缓存子系统,其包括但不限于一个或更多个高速缓存存储器(例如,L2高速缓存3328,L3高速缓存3330和L2高速缓存3342),每个高速缓存存储器可以是组件私有的或在任意数量的组件(例如,核心3320,核心复合体3310,SIMD单元3352,计算单元3350和图形复合体3340)之间共享。
图34示出了根据至少一个实施例的CPU 3400。在至少一个实施例中,图34用于至少部分地基于用于执行一个或更多个计算机程序的一个或更多个部分和/或以其他方式执行本文结合图1-图7描述的操作的处理器的数量,使得存储的量被分配以存储将由一个或更多个计算机程序使用的数据。在至少一个实施例中,CPU 3400由加利福尼亚州圣克拉拉市的AMD公司开发。在至少一个实施例中,CPU 3400可以被配置为执行应用程序。在至少一个实施例中,CPU 3400被配置为执行主控制软件,例如操作系统。在至少一个实施例中,CPU3400发出控制外部GPU(未示出)的操作的命令。在至少一个实施例中,CPU 3400可以被配置为执行从CUDA源代码派生的主机可执行代码,并且外部GPU可以被配置为执行从这种CUDA源代码派生的设备可执行代码。在至少一个实施例中,CPU 3400包括但不限于任意数量的核心复合体3410,结构3460,I/O接口3470和存储器控制器3480。
在至少一个实施例中,核心复合体3410包括但不限于核心3420(1)-3420(4)和L3高速缓存3430。在至少一个实施例中,核心复合体3410可以包括但不限于任意数量的核心3420以及任意数量和类型的高速缓存的任何组合。在至少一个实施例中,核心3420被配置为执行特定ISA的指令。在至少一个实施例中,每个核心3420是CPU核心。
在至少一个实施例中,每个核心3420包括但不限于获取/解码单元3422、整数执行引擎3424、浮点执行引擎3426和L2高速缓存3428。在至少一个实施例中,获取/解码单元3422获取指令,对这些指令进行解码,生成微操作,并将单独的微指令分派给整数执行引擎3424和浮点执行引擎3426。在至少一个实施例中,获取/解码单元3422可以同时分派一个微指令至整数执行引擎3424和另一微指令至浮点执行引擎3426。在至少一个实施例中,整数执行引擎3424执行不限于整数和存储器操作。在至少一个实施例中,浮点引擎3426执行不限于浮点和向量运算。在至少一个实施例中,获取-解码单元3422将微指令分派给单个执行引擎,该引擎代替整数执行引擎3424和浮点执行引擎3426两者。
在至少一个实施例中,每个核心3420(i)可以访问包括在核心3420(i)中的L2高速缓存3428(i),其中i是表示核心3420的特定实例的整数。在至少一个实施例中,包括在核心复合体3410(j)中的每个核心3420经由包括在核心复合体3410(j)中的L3高速缓存3430(j)连接到核心复合体3410(j)中的其他核心3420,其中j是表示核心复合体3410的特定实例的整数。在至少一个实施例中,包括在核心复合体3410(j)中的核心3420可以访问包括在核心复合体3410(j)中的所有L3高速缓存3430(j),其中j是表示核心复合体3410的特定实例的整数。在至少一个实施例中,L3高速缓存3430可以包括但不限于任意数量的切片。
在至少一个实施例中,结构3460是系统互连,其促进跨核心复合体3410(1)-3410(N)(其中N是大于零的整数)、I/O接口3470和存储器控制器3480的数据和控制传输。在至少一个实施例中,除了结构3460之外或代替结构3460,CPU 3400还可以包括但不限于任意数量和类型的系统互连,该结构3460促进跨可以在CPU 3400内部或外部的任意数量和类型的直接或间接链接的组件的数据和控制传输。在至少一个实施例中,I/O接口3470表示任意数量和类型的I/O接口(例如PCI,PCI-X,PCIe,GBE,USB等)。在至少一个实施例中,各种类型的外围设备耦合到I/O接口3470。在至少一个实施例中,耦合到I/O接口3470的外围设备可以包括但不限于显示器,键盘,鼠标,打印机,扫描仪,操纵杆或其他类型的游戏控制器、媒体记录设备、外部存储设备、网络接口卡等。
在至少一个实施例中,存储器控制器3480促进CPU 3400与系统存储器3490之间的数据传输。在至少一个实施例中,核心复合体3410和图形复合体3440共享系统存储器3490。在至少一个实施例中,CPU 3400实现存储器子系统,其包括但不限于任意数量和类型的存储器控制器3480和可以专用于一个组件或在多个组件之间共享的存储器设备。在至少一个实施例中,CPU 3400实现了高速缓存子系统,其包括但不限于一个或更多个高速缓存存储器(例如,L2高速缓存3428和L3高速缓存3430),每个高速缓存存储器可以是组件私有的或在任意数量的组件(例如,核心3420和核心复合体3410)之间共享。
图35示出了根据至少一个实施例的示例性加速器集成切片3590。在至少一个实施例中,图35用于至少部分地基于用于执行一个或更多个计算机程序的一个或更多个部分和/或以其他方式执行本文结合图1-图7描述的操作的处理器的数量,使得存储的量被分配以存储将由一个或更多个计算机程序使用的数据。如本文所使用的,“切片”包括加速器集成电路的处理资源的指定部分。在至少一个实施例中,加速器集成电路代表多个图形加速模块种的多个图形处理引擎提供高速缓存管理、存储器访问、环境管理和中断管理服务。图形处理引擎可以各自包括单独的GPU。可选地,图形处理引擎可包括GPU内的不同类型的图形处理引擎,例如图形执行单元、媒体处理引擎(例如,视频编码器/解码器)、采样器和blit引擎。在至少一个实施例中,图形加速模块可以是具有多个图形处理引擎的GPU。在至少一个实施例中,图形处理引擎可以是集成在通用封装、线卡或芯片上的各个GPU。
系统存储器3514内的应用程序有效地址空间3582存储进程元件3583。在一个实施例中,响应于来自处理器3507上执行的应用程序3580的GPU调用3581而存储进程元件3583。进程元件3583包含对应应用程序3580的处理状态。包含在进程元件3583中的工作描述符(WD)3584可以是应用程序请求的单个作业或可能包含指向作业队列的指针。在至少一个实施例中,WD 3584是指向应用程序有效地址空间3582中的作业请求队列的指针。
图形加速模块3546和/或各个图形处理引擎可以由系统中的全部或部分进程共享。在至少一个实施例中,可以包括用于建立处理状态并将WD 3584发送到图形加速模块3546以在虚拟化环境中开始作业的基础设施。
在至少一个实施例中,专用进程编程模型是针对实现的。在该模型中,单个进程拥有图形加速模块3546或个体图形处理引擎。由于图形加速模块3546由单个进程拥有,因此管理程序为拥有的分区初始化加速器集成电路,并且当分配图形加速模块3546时操作系统对加速器集成电路进行初始化以用于拥有的分区。
在操作中,加速器集成切片3590中的WD获取单元3591获取下一个WD 3584,其中包括将由图形加速模块3546的一个或更多个图形处理引擎完成的工作的指示。来自WD 3584的数据可以存储在寄存器3545被存储器管理单元(MMU)3539、中断管理电路3547和/或环境管理电路3548使用,如图所示。例如,MMU 3539的一个实施例包括用于访问OS虚拟地址空间3585内的段/页表3586的段/页面漫游电路。中断管理电路3547可以处理从图形加速模块3546接收到的中断事件(INT)3592。当执行图操作时,由图形处理引擎产生的有效地址3593由MMU 3539转换为实际地址。
在一个实施例中,为每个图形处理引擎和/或图形加速模块3546复制相同的寄存器组3545,并且可以由系统管理程序或操作系统来初始化。这些复制的寄存器中的每一个都可以包含在加速器集成切片3590中。表1中显示了可由管理程序初始化的示例性寄存器。
表1-管理程序初始化的寄存器
1 | 切片控制寄存器 |
2 | 实地址(RA)计划的处理区域指针 |
3 | 授权掩码覆盖寄存器 |
4 | 中断向量表输入偏移 |
5 | 中断向量表入口限制 |
6 | 状态寄存器 |
7 | 逻辑分区ID |
8 | 实地址(RA)管理程序加速器利用率记录指针 |
9 | 存储描述寄存器 |
表2中示出了可以由操作系统初始化的示例性寄存器。
表2-操作系统初始化寄存器
1 | 进程和线程识别 |
2 | 有效地址(EA)环境保存/还原指针 |
3 | 虚拟地址(VA)加速器利用率记录指针 |
4 | 虚拟地址(VA)存储分段表指针 |
5 | 权威面具 |
6 | 工作描述符 |
在一个实施例中,每个WD 3584特定于特定的图形加速模块3546和/或特定图形处理引擎。它包含图形处理引擎进行工作或工作所需的所有信息,或者它可以是指向存储器位置的指针,其中应用程序建立了要完成的工作的命令队列。
图36A-36B示出了根据本文至少一个实施例的示例性图形处理器。在至少一个实施例中,任何示例性图形处理器可以使用一个或更多个IP核心来制造。除了图示之外,在至少一个实施例中可以包括其他逻辑和电路,包括附加的图形处理器/核心、外围接口控制器或通用处理器核心。在至少一个实施例中,示例性图形处理器用于SoC内。
图36A示出了根据至少一个实施例的SoC集成电路的示例性图形处理器3610,其可以使用一个或更多个IP核心来制造。图36B示出了根据至少一个实施例的SoC集成电路的的附加示例性图形处理器3640,其可以使用一个或更多个IP核心来制造。在至少一个实施例中,图36A和图36B用于至少部分地基于用于执行一个或更多个计算机程序的一个或更多个部分和/或以其他方式执行本文结合图1-图7描述的操作的处理器的数量,使得分配存储的量以存储将由一个或更多个计算机程序使用的数据。在至少一个实施例中,图36A的图形处理器3610是低功耗图形处理器核心。在至少一个实施例中,图36B的图形处理器3640是更高性能的图形处理器核心。在至少一个实施例中,每个图形处理器3610、3640可以是图31的图形处理器3110的变体。
在至少一个实施例中,图形处理器3610包括顶点处理器3605和一个或更多个片段处理器3615A-3615N(例如3615A、3615B、3615C、3615D至3615N-1和3615N)。在至少一个实施例中,图形处理器3610可以经由单独的逻辑来执行不同的着色器程序,使得顶点处理器3605被优化以执行针对顶点着色器程序的操作,而一个或更多个片段处理器3615A-3615N执行片段(例如,像素)着色操作用于片段或像素或着色器程序。在至少一个实施例中,顶点处理器3605执行3D图形管线的顶点处理阶段并生成图元和顶点数据。在至少一个实施例中,片段处理器3615A-3615N使用由顶点处理器3605生成的图元和顶点数据来生成在显示设备上显示的帧缓冲区。在至少一个实施例中,片段处理器3615A-3615N被优化以执行如在OpenGL API中所提供的片段着色器程序,其可以用于执行与在Direct 3D API中所提供的像素着色器程序类似的操作。
在至少一个实施例中,图形处理器3610附加地包括一个或更多个MMU 3620A-3620B、高速缓存3625A-3625B和电路互连3630A-3630B。在至少一个实施例中,一个或更多个MMU 3620A-3620B提供用于图形处理器3610的虚拟到物理地址的映射,包括用于顶点处理器3605和/或片段处理器3615A-3615N,其可以引用存储在存储器中的顶点或图像/纹理数据,除了存储在一个或更多个高速缓存3625A-3625B中的顶点或图像/纹理数据之外。在至少一个实施例中,一个或更多个MMU 3620A-3620B可以与系统内的其他MMU同步,包括与图31的一个或更多个应用处理器3105、图像处理器3115和/或视频处理器3120相关联的一个或更多个MMU,使得每个处理器3105-3120可以参与共享或统一的虚拟存储器系统。在至少一个实施例中,一个或更多个电路互连3630A-3630B使图形处理器3610能够经由SoC的内部总线或经由直接连接与SoC内的其他IP核心相连接。
在至少一个实施例中,图形处理器3640包括图36A的图形处理器3610的一个或更多个MMU 3620A-3620B、高速缓存3625A-3625B和电路互连3630A-3630B。在至少一个实施例中,图形处理器3640包括一个或更多个着色器核心3655A-3655N(例如,3655A、3655B、3655C、3655D、3655E、3655F、至3655N-1和3655N),其提供了统一的着色器核心架构,其中单个核心或类型或核心可以执行所有类型的可编程着色器代码,包括用于实现顶点着色器、片段着色器和/或计算着色器的着色器程序代码。在至少一个实施例中,多个着色器核心可以变化。在至少一个实施例中,图形处理器3640包括核心间任务管理器3645,其充当线程分派器以将执行线程分派给一个或更多个着色器核心3655A-3655N和分块单元3658,以加速基于图块渲染的分块操作,其中在图像空间中细分了场景的渲染操作,例如,以利用场景内的局部空间一致性或优化内部缓存的使用。
图37A示出了根据至少一个实施例的图形核心3700。在至少一个实施例中,图形核心3700可以包括在图31的图形处理器3110内。在至少一个实施例中,图形核心3700可以是图36B中统一的着色器核心3655A-3655N。在至少一个实施例中,图37A和图37B用于至少部分地基于用于执行一个或更多个计算机程序的一个或更多个部分和/或以其他方式执行本文结合图1-图7描述的操作的处理器的数量,使得分配存储的量以存储将由一个或更多个计算机程序使用的数据。在至少一个实施例中,图形核心3700包括共享指令高速缓存3702、纹理单元3718和高速缓存/共享存储器3720,它们是图形核心3700内的执行资源所共有的。在至少一个实施例中,图形核心3700可以包括多个切片(slice)3701A-3701N或每个核心的分区,图形处理器可以包括图形核心3700的多个实例。切片3701A-3701N可以包括支持逻辑,该支持逻辑包括本地指令高速缓存3704A-3704N、线程调度器3706A-3706N、线程分派器3708A-3708N和一组寄存器3710A-3710N。在至少一个实施例中,切片3701A-3701N可以包括一组附加功能单元(AFU)3712A-3712N、浮点单元(FPU)3714A-3714N、整数算术逻辑单元(ALU)3716A-3716N、地址计算单元(ACU)3713A-3713N、双精度浮点单元(DPFPU)3715A-3715N和矩阵处理单元(MPU)3717A-3717N。
在一个实施例中,FPU 3714A-3714N可以执行单精度(32位)和半精度(16位)浮点运算,而DPFPU 3715A-3715N可以执行双精度(64位)浮点运算点操作。在至少一个实施例中,ALU 3716A-3716N可以以8位、16位和32位精度执行可变精度整数运算,并且可以被配置用于混合精度运算。在至少一个实施例中,MPU 3717A-3717N还可被配置用于混合精度矩阵运算,包括半精度浮点运算和8位整数运算。在至少一个实施例中,MPU 3717A-3717N可以执行各种矩阵操作以加速CUDA程序,包括使得能够支持加速的通用矩阵到矩阵乘法(GEMM)。在至少一个实施例中,AFU 3712A-3712N可以执行浮点数或整数单元不支持的附加逻辑运算,包括三角运算(例如,Sine、Cosine等)。
图37B示出了在至少一个实施例中的通用图形处理单元(GPGPU)3730。在至少一个实施例中,GPGPU 3730是高度并行的并且适合于部署在多芯片模块上。在至少一个实施例中,GPGPU 3730可以被配置为使得高度并行的计算操作能够由GPU阵列来执行。在至少一个实施例中,GPGPU 3730可以直接链路到GPGPU 3730的其他实例,以创建多GPU集群以提高用于CUDA程序的执行时间。在至少一个实施例中,GPGPU 3730包括主机接口3732以实现与主机处理器的连接。在至少一个实施例中,主机接口3732是PCIe接口。在至少一个实施例中,主机接口3732可以是厂商专用的通信接口或通信结构。在至少一个实施例中,GPGPU 3730从主机处理器接收命令,并使用全局调度器3734将与那些命令相关联的执行线程分派给一组计算集群3736A-3736H。在至少一个实施例中,计算集群3736A-3736H共享高速缓存存储器3738。在至少一个实施例中,高速缓存存储器3738可以用作计算集群3736A-3736H内的高速缓存存储器的高级高速缓存。
在至少一个实施例中,GPGPU 3730包括经由一组存储器控制器3742A-3742B与计算集群3736A-3736H耦合的存储器3744A-3744B。在至少一个实施例中,存储器3744A-3744B可以包括各种类型的存储器设备,包括动态随机存取存储器(DRAM)或图形随机存取存储器,例如同步图形随机存取存储器(SGRAM),包括图形双倍数据速率(GDDR)存储器。
在至少一个实施例中,计算集群3736A-3736H各自包括一组图形核心,诸如图37A的图形核心3700,其可以包括多种类型的整数和浮点逻辑单元,可以以各种精度执行计算操作,包括适合与CUDA程序相关的计算。例如,在至少一个实施例中,每个计算集群3736A-3736H中的浮点单元的至少一个子集可以配置为执行16位或32位浮点运算,而不同的浮点单元的子集可以配置为执行64位浮点运算。
在至少一个实施例中,GPGPU 3730的多个实例可以被配置为操作为计算集群。在至少一个实施例中,计算集群3736A-3736H可以实现用于同步和数据交换的任何技术上可行的通信技术。在至少一个实施例中,GPGPU 3730的多个实例通过主机接口3732进行通信。在至少一个实施例中,GPGPU 3730包括I/O集线器3739,其将GPGPU 3730与GPU链路3740耦合,使得能够直接连接至GPGPU 3730的其他的实例。在至少一个实施例中,GPU链路3740耦合到专用GPU到GPU桥接器,其使得能够在GPGPU 3730的多个实例之间进行通信和同步。在至少一个实施例中,GPU链路3740与高速互连耦合,以向其他GPGPU或并行处理器发送和接收数据。在至少一个实施例中,GPGPU 3730的多个实例位于单独的数据处理系统中,并经由可经由主机接口3732访问的网络设备进行通信。在至少一个实施例中,GPU链路3740可被配置为能够连接到主机处理器,附加或替代主机接口3732。在至少一个实施例中,GPGPU 3730可以配置为执行CUDA程序。
图38A示出了根据至少一个实施例的并行处理器3800。在至少一个实施例中,并行处理器3800的各种组件可以使用一个或更多个集成电路设备来实现,例如可编程处理器、专用集成电路(ASIC)或FPGA。
在至少一个实施例中,并行处理器3800包括并行处理单元3802。在至少一个实施例中,并行处理单元3802包括I/O单元3804,其使得能够与其他设备进行通信,包括并行处理单元3802的其他实例。在至少一个实施例中,I/O单元3804可以直接连接到其他设备。在至少一个实施例中,I/O单元3804通过使用集线器或交换机接口(例如,存储器集线器3205)与其他设备连接。在至少一个实施例中,存储器集线器3205与I/O单元3804之间的连接形成通信链路。在至少一个实施例中,I/O单元3804与主机接口3806和存储器交叉开关3816连接,其中主机接口3806接收用于执行处理操作的命令,而存储器交叉开关3816接收用于执行存储器操作的命令。
在至少一个实施例中,当主机接口3806经由I/O单元3804接收命令缓冲区时,主机接口3806可以引导工作操作以执行那些命令到前端3808。在至少一个实施例中,前端3808与调度器3810耦合,调度器3810配置成将命令或其他工作项分配给处理阵列3812。在至少一个实施例中,调度器3810确保在将任务分配给处理阵列3812中的处理阵列3812之前,处理阵列3812被正确地配置并且处于有效状态。在至少一个实施例中,调度器3810通过在微控制器上执行的固件逻辑来实现。在至少一个实施例中,微控制器实现的调度器3810可配置成以粗粒度和细粒度执行复杂的调度和工作分配操作,从而实现对在处理阵列3812上执行的线程的快速抢占和环境切换。在至少一个实施例中,主机软件可以证明用于通过多个图形处理门铃之一在处理阵列3812上进行调度的工作负载。在至少一个实施例中,工作负载然后可以由包括调度器3810的微控制器内的调度器3810逻辑在处理阵列3812上自动分配。
在至少一个实施例中,处理阵列3812可以包括多达“N”个处理集群(例如,集群3814A、集群3814B到集群3814N)。在至少一个实施例中,处理阵列3812的每个集群3814A-3814N可以执行大量并发线程。在至少一个实施例中,调度器3810可以使用各种调度和/或工作分配算法将工作分配给处理阵列3812的集群3814A-3814N,其可以根据每种程序或计算类型产生的工作负载而变化。在至少一个实施例中,调度可以由调度器3810动态地处理,或者可以在配置为由处理阵列3812执行的程序逻辑的编译期间部分地由编译器逻辑来辅助。在至少一个实施例中,可将处理阵列3812的不同的集群3814A-3814N分配用于处理不同类型的程序或用于执行不同类型的计算。
在至少一个实施例中,处理阵列3812可以配置成执行各种类型的并行处理操作。在至少一个实施例中,处理阵列3812配置成执行通用并行计算操作。例如,在至少一个实施例中,处理阵列3812可以包括执行处理任务的逻辑,该处理任务包括对视频和/或音频数据的过滤,执行建模操作,包括物理操作以及执行数据转换。
在至少一个实施例中,处理阵列3812配置成执行并行图形处理操作。在至少一个实施例中,处理阵列3812可以包括附加逻辑以支持这种图形处理操作的执行,包括但不限于执行纹理操作的纹理采样逻辑,以及镶嵌逻辑和其他顶点处理逻辑。在至少一个实施例中,处理阵列3812可以配置成执行与图形处理有关的着色器程序,例如但不限于顶点着色器、曲面细分着色器、几何着色器和像素着色器。在至少一个实施例中,并行处理单元3802可以经由I/O单元3804从系统存储器传送数据以进行处理。在至少一个实施例中,在处理期间,可以在处理期间将传送的数据存储到片上存储器(例如,并行处理器存储器3822),然后将其写回到系统存储器。
在至少一个实施例中,当并行处理单元3802用于执行图处理时,调度器3810可以配置成将处理工作负载分区为近似相等大小的任务,以更好地将图形处理操作分配给处理阵列3812的多个集群3814A-3814N。在至少一个实施例中,处理阵列3812的部分可以配置成执行不同类型的处理。例如,在至少一个实施例中,第一部分可以配置成执行顶点着色和拓扑生成,第二部分可以配置成执行镶嵌和几何着色,并且第三部分可以配置成执行像素着色或其他屏幕空间操作,以生成用于显示的渲染图像。在至少一个实施例中,可以将由集群3814A-3814N中的一个或更多个产生的中间数据存储在缓冲区中,以允许在集群3814A-3814N之间传输中间数据以进行进一步处理。
在至少一个实施例中,处理阵列3812可以经由调度器3810接收要执行的处理任务,该调度器3810从前端3808接收定义处理任务的命令。在至少一个实施例中,处理任务可以包括要被处理的数据的索引,例如可以包括表面(补丁)数据、原始数据、顶点数据和/或像素数据,以及状态参数和定义如何处理数据的命令(例如,要执行什么程序)。在至少一个实施例中,调度器3810可以配置成获取与任务相对应的索引,或者可以从前端3808接收索引。在至少一个实施例中,前端3808可以配置成确保在启动由传入命令缓冲区(例如,批缓冲区(batch-buffer)、推送缓冲区等)指定的工作负载之前,处理阵列3812配置成有效状态。
在至少一个实施例中,并行处理单元3802的一个或更多个实例中的每一个可以与并行处理器存储器3822耦合。在至少一个实施例中,可以经由存储器交叉开关3816访问并行处理器存储器3822,所述存储器交叉开关3816可以接收来自处理阵列3812以及I/O单元3804的存储器请求。在至少一个实施例中,存储器交叉开关3816可以经由存储器接口3818访问并行处理器存储器3822。在至少一个实施例中,存储器接口3818可以包括多个分区单元(例如,分区单元3820A、分区单元3820B到分区单元3820N),其可各自耦合至并行处理器存储器3822的一部分(例如,存储器单元)。在至少一个实施例中,多个分区单元3820A-3820N为配置为等于存储器单元的数量,使得第一分区单元3820A具有对应的第一存储器单元3824A,第二分区单元3820B具有对应的存储器单元3824B,第N分区单元3820N具有对应的第N存储器单元3824N。在至少一个实施例中,分区单元3820A-3820N的数量可以不等于存储器设备的数量。
在至少一个实施例中,存储器单元3824A-3824N可以包括各种类型的存储器设备,包括动态随机存取存储器(DRAM)或图形随机存取存储器,例如同步图形随机存取存储器(SGRAM),包括图形双倍数据速率(GDDR)存储器。在至少一个实施例中,存储器单元3824A-3824N还可包括3D堆叠存储器,包括但不限于高带宽存储器(HBM)。在至少一个实施例中,可以跨存储器单元3824A-3824N来存储诸如帧缓冲区或纹理映射的渲染目标,从而允许分区单元3820A-3820N并行地写入每个渲染目标的部分,以有效地使用并行处理器存储器3822的可用带宽。在至少一个实施例中,可以排除并行处理器存储器3822的本地实例,以有利于利用系统存储器与本地高速缓存存储器结合的统一存储器设计。
在至少一个实施例中,处理阵列3812的集群3814A-3814N中的任何一个都可以处理将被写入并行处理器存储器3822内的任何存储器单元3824A-3824N中的数据。在至少一个实施例中,存储器交叉开关3816可以配置为将每个集群3814A-3814N的输出传输到任何分区单元3820A-3820N或另一个集群3814A-3814N,集群3814A-3814N可以对输出执行其他处理操作。在至少一个实施例中,每个集群3814A-3814N可以通过存储器交叉开关3816与存储器接口3818通信,以从各种外部存储设备读取或写入各种外部存储设备。在至少一个实施例中,存储器交叉开关3816具有到存储器接口3818的连接以与I/O单元3804通信,以及到并行处理器存储器3822的本地实例的连接,从而使不同处理集群3814A-3814N内的处理单元与系统存储器或不是并行处理单元3802本地的其他存储器进行通信。在至少一个实施例中,存储器交叉开关3816可以使用虚拟通道来分离集群3814A-3814N和分区单元3820A-3820N之间的业务流。
在至少一个实施例中,可以在单个插入卡上提供并行处理单元3802的多个实例,或者可以将多个插入卡互连。在至少一个实施例中,并行处理单元3802的不同实例可以配置成相互操作,即使不同实例具有不同数量的处理核心,不同数量的本地并行处理器存储器和/或其他配置差异。例如,在至少一个实施例中,并行处理单元3802的一些实例可以包括相对于其他实例而言更高精度的浮点单元。在至少一个实施例中,结合并行处理单元3802或并行处理器3800的一个或更多个实例的系统可以以各种配置和形式因素来实现,包括但不限于台式机、膝上型计算机或手持式个人计算机、服务器、工作站、游戏机和/或嵌入式系统。
图38B示出了根据至少一个实施例的处理集群3894。在至少一个实施例中,图38A和图38B用于至少部分地基于用于执行一个或更多个计算机程序的一个或更多个部分和/或以其他方式执行本文结合图1至图7描述的操作的处理器的数量,使得存储的量被分配以存储将由一个或更多个计算机程序使用的数据。在至少一个实施例中,处理集群3894被包括在并行处理单元内。在至少一个实施例中,处理集群3894是图38A的处理集群3814A-3814N之一的实例。在至少一个实施例中,处理集群3894可以配置成并行执行许多线程,其中术语“线程”是指在特定的一组输入数据上执行的特定程序的实例。在至少一个实施例中,单指令多数据(SIMD)指令发布技术用于支持大量线程的并行执行而无需提供多个独立的指令单元。在至少一个实施例中,使用单指令多线程(SIMT)技术来支持并行执行大量一般同步的线程,这使用了公共指令单元,该公共指令单元配置成向每个处理集群3894内的一组处理引擎发出指令。
在至少一个实施例中,可以通过将处理任务分配给SIMT并行处理器的管线管理器3832来控制处理集群3894的操作。在至少一个实施例中,管线管理器3832从图38A的调度器3810接收指令,通过图形多处理器3834和/或纹理单元3636管理这些指令的执行。在至少一个实施例中,图形多处理器3834是SIMT并行处理器的示例性实例。然而,在至少一个实施例中,处理集群3894内可以包括不同架构的各种类型的SIMT并行处理器。在至少一个实施例中,在处理集群3894内可以包括图形多处理器3834的一个或更多个实例。在至少一个实施例中,图形多处理器3834可以处理数据,并且数据交叉开关3840可以用于将处理后的数据分发到多个可能的目的(包括其他着色器单元)地之一。在至少一个实施例中,管线管理器3832可以通过指定要经由数据交叉开关3840分配的处理后的数据的目的地来促进处理后的数据的分配。
在至少一个实施例中,处理集群3894内的每个图形多处理器3834可以包括相同的一组功能执行逻辑(例如,算术逻辑单元、加载存储单元(LSU)等)。在至少一个实施例中,可以以管线方式配置功能执行逻辑,其中可以在先前的指令完成之前发出新的指令。在至少一个实施例中,功能执行逻辑支持多种运算,包括整数和浮点算术、比较操作、布尔运算、移位和各种代数函数的计算。在至少一个实施例中,可以利用相同的功能单元硬件来执行不同的操作,并且可以存在功能单元的任何组合。
在至少一个实施例中,传送到处理集群3894的指令构成线程。在至少一个实施例中,跨一组并行处理引擎执行的一组线程是线程组。在至少一个实施例中,线程组在不同的输入数据上执行程序。在至少一个实施例中,线程组内的每个线程可被分配给图形多处理器3834内的不同处理引擎。在至少一个实施例中,线程组可包括比图形多处理器3834内的多个处理引擎更少的线程。在至少一个实施例中,当线程组包括的线程数少于处理引擎的数量时,一个或更多个处理引擎在正在处理该线程组的循环期间可能是空闲的。在至少一个实施例中,线程组还可以包括比图形多处理器3834内的多个处理引擎更多的线程。在至少一个实施例中,当线程组包括比图形多处理器3834内的处理引擎的数量更多的线程时,可以在连续的时钟周期内执行处理。在至少一个实施例中,可以在图形多处理器3834上同时执行多个线程组。
在至少一个实施例中,图形多处理器3834包括内部高速缓存存储器,以执行加载和存储操作。在至少一个实施例中,图形多处理器3834可以放弃内部高速缓存并使用处理集群3894内的高速缓存存储器(例如,L1高速缓存3848)。在至少一个实施例中,每个图形多处理器3834还可以访问分区单元(例如,图38A的分区单元3820A-3820N)内的L2高速缓存,这些分区单元在所有处理集群3894之间共享并且可以用于在线程之间传输数据。在至少一个实施例中,图形多处理器3834还可以访问片外全局存储器,其可以包括本地并行处理器存储器和/或系统存储器中的一个或更多个。在至少一个实施例中,并行处理单元3802外部的任何存储器都可以用作全局存储器。在至少一个实施例中,处理集群3894包括图形多处理器3834的多个实例,它们可以共享可以存储在L1高速缓存3848中的公共指令和数据。
在至少一个实施例中,每个处理集群3894可以包括配置成将虚拟地址映射为物理地址的MMU 3845。在至少一个实施例中,MMU 3845的一个或更多个实例可以驻留在图38A的存储器接口3818内。在至少一个实施例中,MMU 3845包括一组页表条目(PTE),其用于将虚拟地址映射到图块(谈论有关图块的更多信息)的物理地址以及可选地映射到高速缓存行索引。在至少一个实施例中,MMU 3845可以包括地址转换后备缓冲区(TLB)或可以驻留在图形多处理器3834或L1高速缓存3848或处理集群3894内的高速缓存。在至少一个实施例中,处理物理地址以分配表面数据访问局部性,以便在分区单元之间进行有效的请求交织。在至少一个实施例中,高速缓存行索引可以用于确定对高速缓存线的请求是命中还是未命中。
在至少一个实施例中,可以配置处理集群3894,使得每个图形多处理器3834耦合到纹理单元3836,以执行纹理映射操作,例如,可以涉及确定纹理样本位置、读取纹理数据以及过滤纹理数据。在至少一个实施例中,根据需要从内部纹理L1高速缓存(未示出)或从图形多处理器3834内的L1高速缓存中读取纹理数据,并从L2高速缓存、本地并行处理器存储器或系统存储器中获取纹理数据。在至少一个实施例中,每个图形多处理器3834将处理后的任务输出到数据交叉开关3840,以将处理后的任务提供给另一处理集群3894以进行进一步处理或将处理后的任务存储在L2高速缓存、本地并行处理器存储器、或经由存储器交叉开关3816的系统存储器中。在至少一个实施例中,光栅前操作单元(preROP)3842配置成从图形多处理器3834接收数据,将数据引导至ROP单元,该ROP单元可以与本文所述的分区单元(例如,图38A的分区单元3820A-3820N)一起定位。在至少一个实施例中,PreROP 3842单元可以执行用于颜色混合的优化、组织像素颜色数据以及执行地址转换。
图38C示出了根据至少一个实施例的图形多处理器3896。在至少一个实施例中,图形多处理器3896是图38B的图形多处理器3834。在至少一个实施例中,图形多处理器3896与处理集群3894的管线管理器3832耦合。在至少一个实施例中,图形多处理器3896具有执行管线,该执行管线包括但不限于指令高速缓存3852、指令单元3854、地址映射单元3856、寄存器文件3858、一个或更多个GPGPU核心3862和一个或更多个LSU 3866。GPGPU核心3862和LSU 3866与高速缓存存储器3872和共享存储器3870通过存储器和高速缓存互连3868耦合。
在至少一个实施例中,指令高速缓存3852从管线管理器3832接收要执行的指令流。在至少一个实施例中,将指令高速缓存在指令高速缓存3852中并将其分派以供指令单元3854执行。在一个实施例中,指令单元3854可以分派指令作为线程组(例如,线程束),将线程组的每个线程分配给GPGPU核心3862内的不同执行单元。在至少一个实施例中,指令可以通过在统一地址空间内指定地址来访问任何本地、共享或全局地址空间。在至少一个实施例中,地址映射单元3856可以用于将统一地址空间中的地址转换成可以由LSU 3866访问的不同的存储器地址。
在至少一个实施例中,寄存器文件3858为图形多处理器3896的功能单元提供了一组寄存器。在至少一个实施例中,寄存器文件3858为连接到图形多处理器3896的功能单元(例如,GPGPU核心3862、LSU 3866)的数据路径的操作数提供了临时存储。在至少一个实施例中,在每个功能单元之间分区寄存器文件3858,使得为每个功能单元分配寄存器文件3858的专用部分。在至少一个实施例中,寄存器文件3858在图形多处理器3896正在执行的不同线程组之间分区。
在至少一个实施例中,GPGPU核心3862可以各自包括用于执行图多处理器3896的指令的FPU和/或ALU。GPGPU核心3862在架构上可以相似或架构可能有所不同。在至少一个实施例中,GPGPU核心3862的第一部分包括单精度FPU和整数ALU,而GPGPU核心的第二部分包括双精度FPU。在至少一个实施例中,FPU可以实现用于浮点算法的IEEE 754-2008标准或启用可变精度浮点算法。在至少一个实施例中,图形多处理器3896可以另外包括一个或更多个固定功能或特殊功能单元,以执行特定功能,诸如复制矩形或像素混合操作。在至少一个实施例中,GPGPU核心3862中的一个或更多个也可以包括固定或特殊功能逻辑。
在至少一个实施例中,GPGPU核心3862包括能够对多组数据执行单个指令的SIMD逻辑。在至少一个实施例中,GPGPU核心3862可以物理地执行SIMD4、SIMD8和SIMD16指令,并且在逻辑上执行SIMD1、SIMD2和SIMD32指令。在至少一个实施例中,用于GPGPU核心3862的SIMD指令可以在编译时由着色器编译器生成,或者在执行针对单程序多数据(SPMD)或SIMT架构编写和编译的程序时自动生成。在至少一个实施例中,可以通过单个SIMD指令来执行为SIMT执行模型配置的程序的多个线程。例如,在至少一个实施例中,执行相同或相似操作的八个SIMT线程可以通过单个SIMD8逻辑单元并行执行。
在至少一个实施例中,存储器和高速缓存互连3868是将图形多处理器3896的每个功能单元连接到寄存器文件3858和共享存储器3870的互连网络。在至少一个实施例中,存储器和高速缓存互连3868是交叉开关互连,其允许LSU 3866在共享存储器3870和寄存器文件3858之间实现加载和存储操作。在至少一个实施例中,寄存器文件3858可以以与GPGPU核心3862相同的频率操作,从而在GPGPU核心3862和寄存器文件3858之间进行数据传输的延迟非常低。在至少一个实施例中,共享存储器3870可以用于启用在图形多处理器3896内的功能单元上执行的线程之间的通信。在至少一个实施例中,高速缓存存储器3872可以用作数据高速缓存,例如,以高速缓存在功能单元和纹理单元3836之间通信的纹理数据。在至少一个实施例中,共享存储器3870也可以用作程序管理的高速缓存。在至少一个实施例中,除了存储在高速缓存存储器3872中的自动高速缓存的数据之外,在GPGPU核心3862上执行的线程还可以以编程方式将数据存储在共享存储器中。
在至少一个实施例中,如本文所述的并行处理器或GPGPU通信地耦合到主机/处理器核心,以加速图形操作、机器学习操作、图案分析操作以及各种通用GPU(GPGPU)功能。在至少一个实施例中,GPU可以通过总线或其他互连(例如,诸如PCIe或NVLink的高速互连)通信地耦合到主机处理器/核心。在至少一个实施例中,GPU可以与核心集成在相同的封装或芯片上,并通过内部处理器总线/互连(即,封装或芯片的内部)通信地耦合到核心。在至少一个实施例中,不管GPU连接的方式如何,处理器核心可以以WD包含的命令/指令序列的形式向GPU分配工作。在至少一个实施例中,GPU然后使用专用电路/逻辑来有效地处理这些命令/指令。
通用计算
以下各图阐述但不限于在通用计算中用来实现至少一个实施例的示例性软件配置。
图39示出了根据至少一个实施例的编程平台的软件栈。在至少一个实施例中,图39至少部分地基于用于执行一个或更多个计算机程序的一个或更多个部分和/或以其他方式执行本文结合图1-图7描述的操作的处理器的数量,使得分配存储的量以存储由一个或更多个计算机程序使用的数据。在至少一个实施例中,编程平台是用于利用计算系统上的硬件来加速计算任务的平台。在至少一个实施例中,软件开发人员可以通过库、编译器指令和/或对编程语言的扩展来访问编程平台。在至少一个实施例中,编程平台可以是但不限于CUDA,Radeon开放计算平台(“ROCm”),OpenCL(由Khronos group开发的OpenCLTM),SYCL或Intel One API。
在至少一个实施例中,编程平台的软件栈3900为应用程序3901提供执行环境。在至少一个实施例中,应用程序3901可以包括能够在软件栈3900上启动的任何计算机软件。在至少一个实施例中,应用程序3901可以包括但不限于人工智能(“AI”)/机器学习(“ML”)应用程序,高性能计算(“HPC”)应用程序,虚拟桌面基础架构(“VDI”)或数据中心工作负载。
在至少一个实施例中,应用程序3901和软件栈3900在硬件3907上运行。在至少一个实施例中,硬件3907可以包括一个或更多个GPU,CPU,FPGA,AI引擎和/或支持编程平台的其他类型的计算设备。在至少一个实施例中,例如采用CUDA,软件栈3900可以是厂商专用的,并且仅与来自特定厂商的设备兼容。在至少一个实施例中,例如在采用OpenCL中,软件栈3900可以与来自不同供应商的设备一起使用。在至少一个实施例中,硬件3907包括连接到一个或更多个设备的主机,该设备可经由应用程序编程接口(API)调用被访问以执行计算任务。在至少一个实施例中,与硬件3907内的主机相比,其可以包括但不限于CPU(但还可以包括计算设备)及其存储器,硬件3907内的设备可以包括但不限于GPU,FPGA,AI引擎或其他计算设备(但还可以包括CPU)及其存储器。
在至少一个实施例中,编程平台的软件栈3900包括但不限于多个库3903、运行时(runtime)3905和设备内核驱动器3906。在至少一个实施例中,库3903中的每个库可以包括可以由计算机程序使用并在软件开发期间利用的数据和编程代码。在至少一个实施例中,库3903可以包括但不限于预写的代码和子例程,类,值,类型规范,配置数据,文档,帮助数据和/或消息模板。在至少一个实施例中,库3903包括被优化用于在一种或更多种类型的设备上执行的函数。在至少一个实施例中,库3903可以包括但不限于用于在设备上执行数学、深度学习和/或其他类型的运算的函数。在至少一个实施例中,库4003与对应的API 4002相关联,API 4002可包括一个或更多个API,其暴露在库4003中实现的函数。
在至少一个实施例中,将应用程序3901编写为源代码,该源代码被编译成可执行代码,如下面结合图44更详细讨论的。在至少一个实施例中,应用程序3901的可执行代码可以至少部分地在由软件栈3900提供的执行环境上运行。在至少一个实施例中,在应用程序3901的执行期间,可以得到需要在设备(与主机相比)上运行的代码。在这种情况下,在至少一个实施例中,可以调用运行时3905以在设备上加载和启动必需的代码。在至少一个实施例中,运行时3905可以包括能够支持应用程序3901的执行的任何技术上可行的运行时系统。
在至少一个实施例中,运行时3905被实现为与对应的API(其被示为API 3904)相关联的一个或更多个运行时库。在至少一个实施例中,一个或更多个这样的运行时库可以包括但不限于用于存储器管理,执行控制,设备管理,错误处理和/或同步等等的函数。在至少一个实施例中,存储器管理函数可以包括但不限于用于分配、解除分配和复制设备存储器以及在主机存储器和设备存储器之间传输数据的函数。在至少一个实施例中,执行控制函数可以包括但不限于在设备上启动函数(当函数是可从主机调用的全局函数时,有时称为“内核”)的函数,和用于在运行时库为要在设备上执行的给定函数维护的缓冲区中设置属性值的函数。
在至少一个实施例中,可以任何技术上可行的方式来实现运行时库和相应的API3904。在至少一个实施例中,一个(或任意数量的)API可以公开用于设备的细粒度控制的低级函数集,而另一(或任意数量的)API可以公开这样的较高级的函数集。在至少一个实施例中,可以在低级API之上构建高级运行时API。在至少一个实施例中,一个或更多个运行时API可以是在与语言无关的运行时API之上分层的特定于语言的API。
在至少一个实施例中,设备内核驱动器3906被配置为促进与底层设备的通信。在至少一个实施例中,设备内核驱动器3906可以提供诸如API 3904之类的API和/或其他软件所依赖的低级函数。在至少一个实施例中,设备内核驱动器3906可以被配置为在运行时将中间表示(“IR”)代码编译成二进制代码。在至少一个实施例中,对于CUDA,设备内核驱动器3906可以在运行时将非硬件专用的并行线程执行(“PTX”)IR代码编译为用于特定目标设备的二进制代码(高速缓存已编译的二进制代码),其有时也称为“最终”代码。在至少一个实施例中,这样做可以允许最终代码在目标设备上运行,而当源代码最初被编译为PTX代码时,该目标设备可能不存在。备选地,在至少一个实施例中,设备源代码可以离线地编译成二进制代码,而不需要设备内核驱动器3906在运行时编译IR代码。
图40示出了根据至少一个实施例的图39的软件栈3900的CUDA实现。在至少一个实施例中,图40用于至少部分地基于用于执行一个或更多个计算机程序的一个或更多个部分和/或以其他方式执行本文结合图1-图7描述的操作的处理器的数量,使得分配存储的量以存储由一个或更多个计算机程序使用的数据。在至少一个实施例中,可在其上启动应用程序4001的CUDA软件栈4000包括CUDA库4003,CUDA运行时4005,CUDA驱动器4007和设备内核驱动器4008。在至少一个实施例中,CUDA软件栈4000在硬件4009上执行,该硬件4009可以包括支持CUDA的GPU,其由加利福尼亚州圣克拉拉市的NVIDIA公司开发。
在至少一个实施例中,应用程序4001、CUDA运行时4005和设备内核驱动器4008可以分别执行与应用程序3901、运行时3905和设备内核驱动器3906类似的功能,以上结合图39对其进行了描述。在至少一个实施例中,CUDA驱动器4007包括实现CUDA驱动器API 4006的库(libcuda.so)。在至少一个实施例中,类似于由CUDA运行时库(cudart)实现的CUDA运行时API 4004,CUDA驱动器API 4006可以公开但不限于用于存储器管理、执行控制、设备管理、错误处理、同步和/或图形互操作性等的函数。在至少一个实施例中,CUDA驱动器API4006与CUDA运行时API 4004的不同之处在于,CUDA运行时API 4004通过提供隐式初始化、上下文(类似于进程)管理和模块(类似于动态加载的库)管理来简化设备代码管理。与高级CUDA运行时API 4004相反,在至少一个实施例中,CUDA驱动器API 4006是提供对设备的更细粒度控制的低级API,特别是关于上下文和模块加载。在至少一个实施例中,CUDA驱动器API 4006可以公开没有由CUDA运行时API 4004公开的用于上下文管理的函数。在至少一个实施例中,CUDA驱动器API 4006也与语言无关,并且除了支持CUDA运行时API 4004之外,还支持例如OpenCL。此外,在至少一个实施例中,包括CUDA运行时4005在内的开发库可被视为与驱动器组件分离,包括用户模式的CUDA驱动器4007和内核模式的设备驱动器4008(有时也称为“显示”驱动器)。
在至少一个实施例中,CUDA库4003可以包括但不限于数学库,深度学习库,并行算法库和/或信号/图像/视频处理库,并行计算应用程序(例如应用程序4001)可以利用这些库。在至少一个实施例中,CUDA库4003可包括数学库,例如cuBLAS库,其是用于执行线性代数运算的基本线性代数子程序(“BLAS”)的实现;用于计算快速傅立叶变换(“FFT”)的cuFFT库,以及用于生成随机数的cuRAND库等。在至少一个实施例中,CUDA库4003可以包括深度学习库,诸如用于深度神经网络的基元的cuDNN库和用于高性能深度学习推理的TensorRT平台等等。
图41示出了根据至少一个实施例的图39的软件栈3900的ROCm实现。在至少一个实施例中,图41用于至少部分地基于用于执行一个或更多个计算机程序的一个或更多个部分和/或以其他方式执行本文结合图1-图7描述的操作的处理器的数量,使得存储的量被分配以存储将由一个或更多个计算机程序使用的数据。在至少一个实施例中,可在其上启动应用程序4101的ROCm软件栈4100包括语言运行时4103,系统运行时4105,thunk4107,ROCm内核驱动器4108和设备内核驱动器4109。在至少一个实施例中,ROCm软件栈4100在硬件4109上执行,硬件4109可以包括支持ROCm的GPU,其由加利福尼亚州圣克拉拉市的AMD公司开发。
在至少一个实施例中,应用程序4101可以执行与以上结合图39讨论的应用程序3901类似的功能。另外,在至少一个实施例中,语言运行时4103和系统运行时4105可以执行与以上结合图39讨论的运行时3905类似的功能。在至少一个实施例中,语言运行时4103和系统运行时4105的不同之处在于,系统运行时4105是实现ROCr系统运行时API 4104并利用异构系统架构(“HAS”)运行时API的语言无关运行时。在至少一个实施例中,HAS运行时API是一种瘦用户模式API,它公开接口以供访问和与AMD GPU交互,包括用于存储器管理、通过架构分派内核的执行控制、错误处理、系统和代理信息以及运行时初始化和关闭等的函数。在至少一个实施例中,与系统运行时4105相比,语言运行时4103是ROCr系统运行时API4104之上分层的特定于语言的运行时API 4102的实现。在至少一个实施例中,语言运行时API可以包括但不限于可移植异构计算接口(“HIP”)语言运行时API,异构计算编译器(“HCC”)语言运行时API或OpenCL API等等。特别是,HIP语言是C++编程语言的扩展,具有CUDA机制的功能相似版本,并且在至少一个实施例中,HIP语言运行时API包括与以上结合图40讨论的CUDA运行时API 4004相似的函数,例如用于存储器管理、执行控制、设备管理、错误处理和同步等的函数。
在至少一个实施例中,thunk(ROCt)4107是可用于与底层ROCm驱动器4108交互的接口。在至少一个实施例中,ROCm驱动器4108是ROCk驱动器,其是AMDGPU驱动器和HAS内核驱动器(amdkfd)的组合。在至少一个实施例中,AMDGPU驱动器是由AMD开发的用于GPU的设备内核驱动器,其执行与以上结合图39讨论的设备内核驱动器3906类似的功能。在至少一个实施例中,HAS内核驱动器是允许不同类型的处理器经由硬件特征更有效地共享系统资源的驱动器。
在至少一个实施例中,各种库(未示出)可以被包括在语言运行时4103上方的ROCm软件栈4100中,并且提供与以上结合图40讨论的CUDA库4003相似的功能。在至少一个实施例中,各种库可以包括但不限于数学、深度学习和/或其他库,例如实现与CUDA cuBLAS类似的函数的hipBLAS库,类似于CUDA cuFFT用于计算FFT的rocFFT库等。
图42示出了根据至少一个实施例的图39的软件栈3900的OpenCL实现。在至少一个实施例中,图42用于至少部分地基于用于执行一个或更多个计算机程序的一个或更多个部分和/或以其他方式执行本文结合图1-图7描述的操作的处理器的数量,使得分配存储的量以存储由一个或更多个计算机程序使用的数据。在至少一个实施例中,可以在其上启动应用程序4201的OpenCL软件栈4200包括OpenCL框架4205、OpenCL运行时4206和驱动器4207。在至少一个实施例中,OpenCL软件栈4200在不是特定于供应商的硬件4009上执行。在至少一个实施例中,由于由不同厂商开发的设备支持OpenCL,因此可能需要特定的OpenCL驱动器才能与来自此类厂商的硬件进行互操作。
在至少一个实施例中,应用程序4201、OpenCL运行时4206、设备内核驱动器4207和硬件4208可以分别执行与上面结合图39讨论的应用程序3901、运行时3905、设备内核驱动器3906和硬件3907类似的功能。在至少一个实施例中,应用程序4201还包括具有将在设备上执行的代码的OpenCL内核4202。
在至少一个实施例中,OpenCL定义了一种“平台”,其允许主机控制连接到该主机的设备。在至少一个实施例中,OpenCL框架提供平台层API和运行时API,示出为平台API4203和运行时API 4205。在至少一个实施例中,运行时API 4205使用上下文来管理设备上内核的执行。在至少一个实施例中,每个标识的设备可以与各自的上下文相关联,运行时API 4205可以使用该上下文来管理该设备的命令队列、程序对象和内核对象、共享存储器对象等。在至少一个实施例中,平台API 4203公开了允许设备上下文用于选择和初始化设备,经由命令队列将工作提交给设备,以及使得能够进行来自和去往设备的数据传输等的函数。另外,在至少一个实施例中,OpenCL框架提供各种内置函数(未示出),包括数学函数、关系函数和图像处理函数等。
在至少一个实施例中,编译器4204也被包括在OpenCL框架4205中。在至少一个实施例中,源代码可以在执行应用程序之前被离线编译或者在执行应用程序期间被在线编译。与CUDA和ROCm相反,至少一个实施例中的OpenCL应用程序可以由编译器4204在线编译,编译器4204被包括以代表可以用于将源代码和/或IR代码(例如标准可移植中间表示(“SPIR-V”)代码)编译为二进制代码的任意数量的编译器。可替代地,在至少一个实施例中,可以在执行这样的应用程序之前离线编译OpenCL应用程序。
图43示出了根据至少一个实施例的由编程平台支持的软件。在至少一个实施例中,图43用于至少部分地基于用于执行一个或更多个计算机程序的一个或更多个部分和/或以其他方式执行本文结合图1-图7描述的操作的处理器的数量,使得分配存储的量以存储由一个或更多个计算机程序使用的数据。在至少一个实施例中,编程平台4304被配置为支持应用程序4300可以依赖的各种编程模型4303、中间件和/或库4302以及框架4301。在至少一个实施例中,应用程序4300可以是使用例如深度学习框架(在至少一个实施例中,MXNet,PyTorch或TensorFlow)实现的AI/ML应用,其可以依赖于诸如cuDNN,NVIDIACollective Communications Library(“NCCL”)”和/或NVIDIA开发人员数据加载库(“DALI”)CUDA库之类的库,以在底层硬件上提供加速的计算。
在至少一个实施例中,编程平台4304可以是以上分别结合图40、图41和图42描述的CUDA、ROCm或OpenCL平台之一。在至少一个实施例中,编程平台4304支持多个编程模型4303,其是底层计算系统的抽象,其允许算法和数据结构的表达。在至少一个实施例中,编程模型4303可以暴露底层硬件的特征以便改善性能。在至少一个实施例中,编程模型4303可以包括但不限于CUDA,HIP,OpenCL,C++加速大规模并行性(“C++AMP”),开放多处理(“OpenMP”),开放加速器(“OpenACC”)和/或Vulcan计算(Vulcan Compute)。
在至少一个实施例中,库和/或中间件4302提供编程模型4304的抽象的实现。在至少一个实施例中,这样的库包括可由计算机程序使用并在软件开发期间利用的数据和编程代码。在至少一个实施例中,除了可以从编程平台4304获得的那些之外,这样的中间件还包括向应用程序提供服务的软件。在至少一个实施例中,库和/或中间件4302可以包括但不限于cuBLAS、cuFFT、cuRAND和其他CUDA库,或rocBLAS、rocFFT、rocRAND和其他ROCm库。另外,在至少一个实施例中,库和/或中间件4302可以包括NCCL和ROCm通信集合库(“RCCL”)库,其提供用于GPU的通信例程,用于深度学习加速的MIOpen库和/或用于线性代数、矩阵和向量运算、几何变换、数值求解器以及相关算法的本征库。
在至少一个实施例中,应用程序框架4301依赖于库和/或中间件4302。在至少一个实施例中,每个应用程序框架4301是用于实现应用软件的标准结构的软件框架。在至少一个实施例中,可以使用框架(诸如Caffe,Caffe2,TensorFlow,Keras,PyTorch或MxNet深度学习框架)来实现AI/ML应用。
图44示出了根据至少一个实施例的编译代码以在图39-图42的编程平台之一上执行。在至少一个实施例中,图44用于至少部分地基于执行一个或更多个计算机程序的一个或更多个部分和/或以其他方式执行本文结合图1-图7描述的操作的处理器的数量,使得分配存储的量以存储将由一个或更多个计算机程序使用的数据。在至少一个实施例中,编译器4401接收源代码4400,其包括主机代码以及设备代码两者。在至少一个实施例中,编译器4401被配置为将源代码4400转换为用于在主机上执行的主机可执行代码4402以及用于在设备上执行的设备可执行代码4403。在至少一个实施例中,源代码4400可以在执行应用程序之前离线编译,或者在执行应用程序期间在线编译。
在至少一个实施例中,源代码4400可以包括编译器4401支持的任何编程语言的代码,例如C++、C、Fortran等。在至少一个实施例中,源代码4400可以包括在单源(single-source)文件中,其具有主机代码和设备代码的混合,并在其中指示了设备代码的位置。在至少一个实施例中,单源文件可以是包括CUDA代码的.cu文件或包括HIP代码的.hip.cpp文件。备选地,在至少一个实施例中,源代码4400可以包括多个源代码文件,而不是单源文件,在该单源文件中主机代码和设备代码是分开的。
在至少一个实施例中,编译器4401被配置为将源代码4400编译成用于在主机上执行的主机可执行代码4402和用于在设备上执行的设备可执行代码4403。在至少一个实施例中,编译器4401执行操作,包括将源代码4400解析为抽象系统树(AST),执行优化以及生成可执行代码。在源代码4400包括单源文件的至少一个实施例中,编译器4401可以将设备代码与主机代码在这种单源文件中分开,将设备代码和主机代码分别编译成设备可执行代码4403和主机可执行代码4402,以及将设备可执行代码4403和主机可执行代码4402在单个文件中链接到一起,如上面关于图33更详细讨论的。
在至少一个实施例中,主机可执行代码4402和设备可执行代码4403可以是任何合适的格式,例如二进制代码和/或IR代码。在CUDA的情况下,在至少一个实施例中,主机可执行代码4402可以包括本地对象代码,而设备可执行代码4403可以包括PTX中间表示的代码。在至少一个实施例中,在ROCm的情况下,主机可执行代码4402和设备可执行代码4403都可以包括目标二进制代码。
本公开的至少一个实施例可以鉴于以下条款进行描述:
1.一种处理器,
其他变型在本公开的精神内。因此,尽管公开的技术易于进行各种修改和替代配置,但是某些示出的其实施例在附图中示出并且已经在上面进行了详细描述。然而,应理解,无意将公开内容限制为所公开的一种或更多种特定形式,而是相反,其意图是涵盖落入如所附权利要求书所定义的本公开内容的精神和范围内的所有修改、替代配置和等同物。
除非另有说明或显然与上下文矛盾,否则在描述所公开的实施例的上下文中(特别是在所附权利要求的上下文中),术语“一”和“一个”和“该”以及类似指代的使用应被解释为涵盖单数和复数,而不是作为术语的定义。除非另有说明,否则术语“包括”、“具有”、“包含”和“含有”应被解释为开放式术语(意味着“包括但不限于”)。术语“连接”(在未经修改时指的是物理连接)应解释为部分或全部包含在内、附接到或连接在一起,即使有某些介入。除非本文另外指出,否则本文中对数值范围的引用仅旨在用作分别指代落入该范围内的每个单独值的简写方法,并且每个单独值都被并入说明书中,就如同其在本文中被单独叙述一样。在至少一个实施例中,除非另外指出或与上下文矛盾,否则术语“集”(例如“项目集”)或“子集”的使用应解释为包括一个或更多个成员的非空集合。此外,除非另外指出或与上下文矛盾,否则术语相应集合的“子集”不一定表示对应集合的适当子集,而是子集和对应集合可以相等。
除非以其他方式明确指出或与上下文明显矛盾,否则诸如“A,B和C中的至少一个”或“A,B与C中的至少一个”形式的短语之类的连接语在上下文中理解为通常用来表示项目、条款等,其可以是A或B或C,也可以是A和B和C集的任何非空子集。例如,在具有三个成员的集的说明性示例中,连接短语“A,B和C中的至少一个”和“A,B与C中的至少一个”是指以下任意集:{A},{B},{C},{A,B},{A,C},{B,C},{A,B,C}。因此,这种连接语言通常不旨在暗示某些实施例要求存在A中的至少一个,B中的至少一个和C中的至少一个。另外,除非另有说明或与上下文矛盾,否则术语“多个”表示复数的状态(例如,“多个项目”表示多个项目)。在至少一个实施例中,多个项目中项目的数量至少为两个,但如果明确指示或通过上下文指示,则可以更多。此外,除非另有说明或从上下文中可以清楚得知,否则短语“基于”是指“至少部分地基于”而不是“仅基于”。
除非本文另外指出或与上下文明显矛盾,否则本文描述的过程的操作可以任何合适的顺序执行。在至少一个实施例中,诸如本文所述的那些过程(或其变形和/或其组合)之类的过程在配置有可执行指令的一个或更多个计算机系统的控制下执行,并且被实现为代码(例如,可执行指令,一个或更多个计算机程序或一个或更多个应用程序),该代码通过硬件或其组合在一个或更多个处理器上共同执行。在至少一个实施例中,代码以计算机程序的形式存储在计算机可读存储介质上,在至少一个实施例中,该计算机程序包括可由一个或更多个处理器执行的多个指令。在至少一个实施例中,计算机可读存储介质是非暂时性计算机可读存储介质,其排除了暂时性信号(例如,传播的瞬态电或电磁传输),但包括非暂时性数据存储电路(例如,缓冲区、高速缓存和队列)。在至少一个实施例中,代码(例如,可执行代码或源代码)被存储在其上存储有可执行指令的一组一个或更多个非暂时性计算机可读存储介质(或用于存储可执行指令的其他存储器)上,该可执行指令在由计算机系统的一个或更多个处理器执行时(即,作为被执行的结果),使得计算机系统执行本文所述的操作。在至少一个实施例中,一组非暂时性计算机可读存储介质包括多个非暂时性计算机可读存储介质,并且多个非暂时性计算机可读存储介质中的个体非暂时性存储介质中的一个或更多个缺少全部代码,而是多个非暂时性计算机可读存储介质共同存储全部代码。在至少一个实施例中,可执行指令被执行,以使得不同的指令由不同的处理器执行,在至少一个实施例中,非暂时性计算机可读存储介质存储指令,并且主中央处理单元(“CPU”)执行一些指令,而图形处理单元(“GPU”)执行其他指令。在至少一个实施例中,计算机系统的不同组件具有单独的处理器,并且不同的处理器执行指令的不同子集。
因此,在至少一个实施例中,计算机系统被配置为实现单独地或共同地执行本文所述的过程的操作的一个或更多个服务,并且这样的计算机系统被配置有使能实施操作的适用的硬件和/或软件。此外,实现本公开的至少一个实施例的计算机系统是单个设备,并且在另一实施例中是分布式计算机系统,其包括以不同方式操作的多个设备,使得分布式计算机系统执行本文所述的操作,并且使得单个设备不执行所有操作。
本文提供的任何和所有示例或示例性语言(例如,“诸如”)的使用仅旨在更好地阐明本公开的实施例,并且不对公开的范围构成限制,除非另有要求。说明书中的任何语言都不应被解释为表示任何未要求保护的要素对于实践公开内容是必不可少的。
本文引用的所有参考文献,包括出版物、专利申请和专利,均通过引用并入本文,其程度就如同每个参考文献被单独且具体地指示为以引用的方式并入本文并且其全部内容在本文中阐述一样。
在说明书和权利要求中,可以使用术语“耦合”和“连接”以及它们的派生词。应当理解,这些术语可能不旨在作为彼此的同义词。相反,在特定示例中,“连接”或“耦合”可用于指示两个或更多个元件彼此直接或间接物理或电接触。“耦合”也可能意味着两个或更多个元件彼此不直接接触,但仍彼此协作或交互。
除非另有明确说明,否则可以理解,在整个说明书中,诸如“处理”、“计算”、“计算”、“确定”等之类的术语,是指计算机或计算系统或类似的电子计算设备的动作和/或过程,其将计算系统的寄存器和/或存储器中表示为物理量(例如电子)的数据处理和/或转换为类似表示为计算系统的存储器、寄存器或其他此类信息存储、传输或显示设备中的物理量的其他数据。
以类似的方式,术语“处理器”可以指处理来自寄存器和/或存储器的电子数据并将该电子数据转换成可以存储在寄存器和/或存储器中的其他电子数据的任何设备或存储器的一部分。作为非限制性示例,“处理器”可以是CPU或GPU。“计算平台”可以包括一个或更多个处理器。如本文所使用的,在至少一个实施例中,“软件”进程可以包括随时间执行工作的软件和/或硬件实体,诸如任务、线程和智能代理。同样,每个过程可以指代多个过程,以连续地或间歇地顺序地或并行地执行指令。术语“系统”和“方法”在本文中可以互换使用,只要系统可以体现一种或更多种方法,并且方法可以被认为是系统。
在至少一个实施例中,算术逻辑单元是采用一个或更多个输入来产生结果的一组组合逻辑电路。在至少一个实施例中,处理器使用算术逻辑单元来实现数学运算,诸如加法、减法或乘法。在至少一个实施例中,算术逻辑单元用于实现逻辑运算,诸如逻辑AND/OR或XOR。在至少一个实施例中,算术逻辑单元是无状态的,并且由被布置以形成逻辑门的物理开关组件(诸如半导体晶体管)制成。在至少一个实施例中,算术逻辑单元可以在内部操作为具有关联的时钟的有状态逻辑电路。在至少一个实施例中,算术逻辑单元可构造为具有未维持在关联的寄存器组中的内部状态的异步逻辑电路。在至少一个实施例中,算术逻辑单元由处理器用来组合被存储在处理器的一个或更多个寄存器中的操作数并产生可以被处理器存储在另一寄存器或存储器位置中的输出。
在至少一个实施例中,作为处理由该处理器检索的指令的结果,该处理器向算术逻辑单元呈现一个或更多个输入或操作数,从而致使该算术逻辑单元至少部分地基于被提供给该算术逻辑单元的输入的指令代码来产生结果。在至少一个实施例中,由处理器提供给ALU的指令代码至少部分地基于由处理器执行的指令。在至少一个实施例中,ALU中的组合逻辑处理输入并产生输出,该输出被放置在处理器内的总线上。在至少一个实施例中,处理器选择输出总线上的目的地寄存器、存储器位置、输出装置或输出存储位置,使得对处理器进行钟控使得ALU产生的结果被发送到所需位置。
在本文件中,可以参考获得、获取、接收或将模拟或数字数据输入子系统、计算机系统或计算机实现的机器中。在至少一个实施例中,可以通过多种方式来完成获得、获取、接收或输入模拟和数字数据的过程,例如通过接收作为函数调用或对应用程序编程接口的调用的参数的数据。在一些实现方式中,可以通过经由串行或并行接口传输数据来完成获得、获取、接收或输入模拟或数字数据的过程。在另一实现方式中,可以通过经由计算机网络将数据从提供实体传输到获取实体来完成获得、获取、接收或输入模拟或数字数据的过程。也可以参考提供、输出、传送、发送或呈现模拟或数字数据。在各个示例中,提供、输出、传送、发送或呈现模拟或数字数据的过程可以通过将数据作为函数调用的输入或输出参数、应用程序编程接口或进程间通信机制的参数进行传输来实现。
尽管上面的讨论阐述了所描述的技术的示例实现,但是其他架构可以用于实现所描述的功能,并且旨在落入本公开的范围内。此外,尽管出于讨论的目的在上面定义了具体的职责分配,但是根据情况,可以以不同的方式分配和分区各种功能和职责。
此外,尽管已经用特定于结构特征和/或方法动作的语言描述了主题,但是应当理解,所附权利要求书所要求保护的主题不必限于所描述的特定特征或动作。而是,公开了特定的特征和动作作为实现权利要求的示例性形式。
Claims (23)
1.一种处理器,包括:一个或更多个电路,所述一个或更多个电路使得至少部分地基于执行一个或更多个计算机程序的一个或更多个部分的处理器的数量,分配存储的量以存储将由所述一个或更多个计算机程序使用的数据。
2.如权利要求1所述的处理器,其中所分配的存储是所述一个或更多个计算机程序能够访问的逻辑卷分区。
3.如权利要求1所述的处理器,其中所述数据是训练数据,并且所述一个或更多个计算机程序用于使用所述训练数据来训练神经网络。
4.如权利要求1所述的处理器,其中:
分配所述存储的量以存储将由所述一个或更多个计算机程序使用的数据进一步至少部分地基于可用存储的量和处理器的集群中的可用处理器的数量;以及
所述处理器的集群包括所述一个或更多个处理器。
5.如权利要求4所述的处理器,其中所述可用存储的量属于磁盘存储,所述磁盘存储对所述集群而言是本地的。
6.如权利要求5所述的处理器,其中所述可用存储的量是未被分区的所述磁盘存储的量。
7.如权利要求4所述的处理器,其中所述处理器的数量是所述集群中可用的处理器的总数量。
8.一种计算机实现的方法,包括:
至少部分地基于用于执行一个或更多个计算机程序的处理器的数量,分配存储的量以存储将由所述一个或更多个计算机程序使用的数据。
9.如权利要求8所述的计算机实现的方法,其中分配所述存储的量以存储数据进一步至少部分地基于由多个处理器的集群共享的存储上的可用存储的量。
10.如权利要求8所述的计算机实现的方法,其中分配所述存储的量以存储数据进一步至少部分地基于处理器的集群中可用处理器的数量。
11.如权利要求10所述的计算机实现的方法,其中所述处理器的集群包括所述一个或更多个处理器。
12.如权利要求11所述的计算机实现的方法,其中所分配的用于存储数据的所述存储的量被存储在存储的逻辑卷中。
13.如权利要求12所述的计算机实现的方法,其中所述处理器的集群包括所述一个或更多个处理器,并且所述存储对于所述集群而言是本地的。
14.如权利要求12所述的计算机实现的方法,其中所述存储是磁盘存储。
15.如权利要求12所述的计算机实现的方法,其中所述数据是训练数据,并且所述一个或更多个计算机程序用于使用所述训练数据来训练神经网络。
16.如权利要求12所述的计算机实现的方法,其中可用的所述存储的量是能够被用于分区的磁盘装置的量。
17.一种系统,包括:
一个或更多个处理器,所述一个或更多个处理器用于使得至少部分地基于执行一个或更多个计算机程序的一个或更多个部分的处理器的数量,分配存储的量以存储将由所述一个或更多个计算机程序使用的数据。
18.如权利要求17所述的系统,其中:
分配所述存储的量以存储将由所述一个或更多个计算机程序使用的数据进一步至少部分地基于处理器的集群中的可用处理器的数量;以及
所述处理器的集群包括所述一个或更多个处理器。
19.如权利要求18所述的系统,其中所述处理器的集群中的所述可用处理器的数量是至少部分地基于所述集群中的处理器的总数量来确定的。
20.如权利要求17所述的系统,其中分配所述存储的量以存储将由所述一个或更多个计算机程序使用的数据进一步至少部分地基于可用存储的量。
21.如权利要求17所述的系统,其中所述数据是训练数据,并且所述一个或更多个计算机程序用于使用所述训练数据来训练神经网络。
22.如权利要求21所述的系统,其中所分配的存储是所述一个或更多个计算机程序能够访问的逻辑卷分区。
23.如权利要求22所述的系统,进一步包括:由于确定由一个或更多个计算机程序执行以训练所述神经网络的过程已经结束,则删除所述逻辑卷分区。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US63/400,625 | 2022-08-24 | ||
US18/197,628 | 2023-05-15 | ||
US18/197,628 US20240069767A1 (en) | 2022-08-24 | 2023-05-15 | Processor-based storage allocation |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117632467A true CN117632467A (zh) | 2024-03-01 |
Family
ID=90020544
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311072720.4A Pending CN117632467A (zh) | 2022-08-24 | 2023-08-23 | 基于处理器的存储分配 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117632467A (zh) |
-
2023
- 2023-08-23 CN CN202311072720.4A patent/CN117632467A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115473663A (zh) | 安全网络访问设备 | |
CN115484042A (zh) | 机器学习辅助的网络设备 | |
CN115039081A (zh) | 基于用户交互组度量的网络服务性能退化的检测 | |
CN114816029A (zh) | 静态数据中心的功率平衡和配置 | |
CN114202054A (zh) | 使用一个或更多个神经网络的预测控制 | |
CN116643938A (zh) | 安全数据中心的健康监测 | |
CN117093193A (zh) | 代码生成技术 | |
US20240069767A1 (en) | Processor-based storage allocation | |
CN118043813A (zh) | 用于可编程部件的选择性通信接口 | |
CN116028076A (zh) | 非易失性存储器存储和接口 | |
CN116225179A (zh) | 进行气流控制以获得冷却效率 | |
US20220352099A1 (en) | Integrated circuit physical security device | |
CN115438315A (zh) | 单向计数器 | |
CN115550356A (zh) | 机架组件检测和通信 | |
CN114813177A (zh) | 热测试车辆 | |
CN116249837A (zh) | 用于数据中心冷却系统的可调节风扇 | |
US11956306B1 (en) | Multicast-reduction assisted by network devices | |
US11895017B1 (en) | Port management in multi-ASIC systems | |
US20240272958A1 (en) | Distributed operating system implemented within a computer cluster | |
US20240272946A1 (en) | Pooling volatile memory resources within a computing system | |
US20240195736A1 (en) | Redundant management network access | |
US20240069969A1 (en) | Processor binding technique | |
US20240070040A1 (en) | System testing technique | |
US20240073124A1 (en) | Quality based load balancing for multipath routing in networks | |
US20230342067A1 (en) | Solid state memory interface |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |