CN117581200A - 在分派期间从存储器加载数据 - Google Patents
在分派期间从存储器加载数据 Download PDFInfo
- Publication number
- CN117581200A CN117581200A CN202280045776.8A CN202280045776A CN117581200A CN 117581200 A CN117581200 A CN 117581200A CN 202280045776 A CN202280045776 A CN 202280045776A CN 117581200 A CN117581200 A CN 117581200A
- Authority
- CN
- China
- Prior art keywords
- memory
- data
- tile
- chiplet
- dispatch
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000015654 memory Effects 0.000 title claims abstract description 370
- 239000004744 fabric Substances 0.000 claims abstract description 45
- 238000012545 processing Methods 0.000 claims abstract description 22
- 238000012546 transfer Methods 0.000 claims abstract description 16
- 238000000034 method Methods 0.000 claims description 45
- 230000004044 response Effects 0.000 claims description 11
- 230000003247 decreasing effect Effects 0.000 abstract description 2
- 238000004891 communication Methods 0.000 description 33
- 230000001360 synchronised effect Effects 0.000 description 14
- 239000000872 buffer Substances 0.000 description 12
- 238000013461 design Methods 0.000 description 12
- 230000005540 biological transmission Effects 0.000 description 8
- 230000002093 peripheral effect Effects 0.000 description 8
- 230000008901 benefit Effects 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 7
- 239000000758 substrate Substances 0.000 description 6
- 238000013519 translation Methods 0.000 description 6
- 230000003068 static effect Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000000977 initiatory effect Effects 0.000 description 4
- 238000007726 management method Methods 0.000 description 4
- 238000004519 manufacturing process Methods 0.000 description 4
- 238000013507 mapping Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000007792 addition Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000012937 correction Methods 0.000 description 3
- 238000007667 floating Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000012423 maintenance Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000005192 partition Methods 0.000 description 3
- 230000011664 signaling Effects 0.000 description 3
- 230000000153 supplemental effect Effects 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 238000004806 packaging method and process Methods 0.000 description 2
- 239000002245 particle Substances 0.000 description 2
- 102100035964 Gastrokine-2 Human genes 0.000 description 1
- 101001075215 Homo sapiens Gastrokine-2 Proteins 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 230000004888 barrier function Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 230000003139 buffering effect Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 229920003211 cis-1,4-polyisoprene Polymers 0.000 description 1
- 239000004020 conductor Substances 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005538 encapsulation Methods 0.000 description 1
- 239000012530 fluid Substances 0.000 description 1
- 230000020169 heat generation Effects 0.000 description 1
- 239000012212 insulator Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 239000011295 pitch Substances 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000004043 responsiveness Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 235000013599 spices Nutrition 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0628—Interfaces specially adapted for storage systems making use of a particular technique
- G06F3/0655—Vertical data movement, i.e. input-output transfer; data movement between one or more hosts and one or more storage devices
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/48—Program initiating; Program switching, e.g. by interrupt
- G06F9/4806—Task transfer initiation or dispatching
- G06F9/4843—Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0602—Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
- G06F3/062—Securing storage systems
- G06F3/0622—Securing storage systems in relation to access
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0668—Interfaces specially adapted for storage systems adopting a particular infrastructure
- G06F3/0671—In-line storage system
- G06F3/0673—Single storage device
- G06F3/0679—Non-volatile semiconductor memory device, e.g. flash memory, one time programmable memory [OTP]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Software Systems (AREA)
- Memory System Of A Hierarchy Structure (AREA)
- Advance Control (AREA)
Abstract
分派元件与主机处理器对接且将线程分派到混合线程组构的一或多个片块。存储器中的待由片块使用的数据结构可由起始地址及大小来识别,所述起始地址及大小被包含为由主机提供的参数。所述分派元件将用以将经识别数据传送到将使用所述数据的所述片块的命令发送到存储器接口。因此,当所述片块开始处理所述线程时,所述数据已在所述片块的本地存储器中可用且不需要从存储器控制器存取。可在所述片块正在执行针对另一线程的操作的同时由所述分派元件传送数据,从而增大由所述片块执行的正在执行有用工作的操作的百分比且减小仅仅检索数据的操作的百分比。
Description
优先权申请
本申请要求2021年6月28日提交的第17/360,455号美国申请的优先权的权益,所述申请的全文以引用的方式并入本文中。
技术领域
本公开的实施例大体上涉及混合线程组构(HTF),且更具体来说,涉及在将处理线程分派给HTF中的片块期间从存储器接口加载数据的方法。
背景技术
各种计算机架构(例如冯·诺依曼架构)常规上使用数据的共享存储器、用于存取共享存储器的总线、算术单元及程序控制单元。然而,在处理器与存储器之间移动数据可能需要大量的时间及能量,这又可能约束计算机系统的性能及容量。鉴于这些限制,期望新的计算架构及装置以使计算性能超越晶体管微缩(即,摩尔定律)的实践。
可在处理元件上起始进程。处理元件发出存储器加载指令以从存储器装置检索待处理的数据。
附图说明
从下文所给出的详细描述及从本公开的各种实施例的附图,将更全面地理解本公开。然而,附图不应被理解为将本公开限于具体实施例,而是仅用于解释及理解。
为了便于识别任何特定元件或动作的论述,参考编号中的最高有效数字或若干最高有效数字是指其中首次出现那个元件的图号。
图1大体上说明根据实施例的在存储器计算系统的背景下的第一存储器计算装置的第一实例。
图2大体上说明根据实施例的存储器计算装置的存储器子系统的实例。
图3大体上说明根据实施例的用于存储器控制器的可编程原子单元(PAU)的实例。
图4说明根据实施例的存储器计算装置的混合线程处理器(HTP)加速器的实例。
图5说明根据实施例的存储器计算装置的HTF的表示的实例。
图6A大体上说明根据实施例的小芯片系统的实例。
图6B大体上说明展示来自图6A的实例的小芯片系统中的各种组件的框图。
图7大体上说明根据实施例的存储器计算装置的基于小芯片的实施方案的实例。
图8说明根据实施例的存储器计算装置小芯片的实例平铺。
图9是展示根据本公开的一些实施例的由电路在分派期间从存储器加载数据时执行的方法的操作的流程图。
图10是展示根据本公开的一些实施例的由电路在分派期间从存储器加载数据时执行的方法的操作的流程图。
图11说明实例机器的框图,利用所述机器、在所述机器中或通过所述机器可实施本文中所论述的任何一或多种技术(例如,方法论)。
具体实施方式
可利用材料、装置及集成技术的最新进展来提供以存储器为中心的计算拓扑。例如,对于受大小、重量或功率要求约束的应用,此类拓扑可实现计算效率及工作负载处理量的提升。所述拓扑可被用来促进存储器或其它数据存储元件附近或内部的低延时计算。所述方法可特别适用于具有稀疏查找的各种计算密集型操作,例如在变换计算(例如,快速傅里叶变换计算(FFT))中,或在例如神经网络或人工智能(AI)、金融分析或者例如针对计算流体动力学(CFD)、增强型工程师声学模拟器(EASE)、以集成电路为核心的模拟程序(SPICE)等等的模拟或建模的应用中。
本文中所论述的系统、装置及方法可包含或使用具有处理器或处理能力的存储器计算系统,所述存储器计算系统提供在存储器或数据存储组件中、附近或与其集成在一起。此类系统在本文中通常被称为CNM系统。CNM系统可为基于节点的系统,其中所述系统中的个别节点使用系统缩放组构来耦合。每一节点可包含或使用专用或通用处理器及用户可存取加速器与定制计算组构来促进密集型操作,特别是在预期较高高速缓存未命中率的环境中。
在实例中,CNM系统中的每一节点可具有一或若干主机处理器。在每一节点内,专用混合线程处理器可占据芯片上网络的离散端点。混合线程处理器可存取所述系统的特定节点中的存储器的一些或全部,或者混合线程处理器可经由系统缩放组构跨多个节点的网络存取存储器。每一节点处的定制计算组构或混合线程组构可具有(若干)其自身处理器或加速器且可在比混合线程处理器更高的带宽下操作。可不同地配置CNM系统中的不同节点,例如具有不同计算能力、不同类型的存储器、不同接口或其它差异。然而,所述节点可共同地经耦合以在所定义地址空间内共享数据及计算资源。
在实例中,CNM系统或所述系统内的节点可由用户配置用于定制操作。用户可使用高级编程语言(例如C/C++)提供指令,所述指令可被编译及直接映射到所述系统或者CNM系统中的一或多个节点的数据流架构中。即,所述系统中的节点可包含可经配置以直接实施或支持用户指令以由此增强系统性能且减少延时的硬件块(例如,存储器控制器、原子单元、其它客户加速器等)。
在实例中,CNM系统可特别适用于实施指令及嵌套循环(例如,两个、三个或更多个深度循环,或者多维循环)的层次结构。标准编译器可被用来接受高级语言指令且又直接编译成所述节点中的一或多者的数据流架构。例如,所述系统中的节点可包含混合线程组构加速器。混合线程组构加速器可在CNM系统的用户空间中执行且可启动其自身线程或子线程,所述线程或子线程可并行操作。每一线程可映射到不同循环迭代以由此支持多维循环。凭借启动此类嵌套循环的能力以及其它能力,CNM系统可为计算密集型操作实现显著的时间节省及延时改进。
CNM系统或者CNM系统的节点或组件可包含或使用各种存储器装置、控制器及互连件等等。在实例中,所述系统可包括各种互连节点,且所述节点或节点群组可使用小芯片来实施。小芯片是一种用于集成各种处理功能性的新兴技术。通常,小芯片系统由集成在中介层上且封装在一起的离散芯片(例如,不同衬底或裸片上的集成电路(IC))组成。这种布置不同于在一个衬底(例如,单个裸片)上含有不同装置块(例如,知识产权(IP)块)的单个芯片(例如,IC)(例如芯片上系统(SoC))或集成在板上的离散封装装置。一般来说,小芯片提供比单裸片芯片更多的生产效益,包含更高的良率或降低的开发成本。下文所论述的图6A及图6B大体上说明例如可包括CNM系统的小芯片系统的实例。
分派元件(例如,主机接口及分派模块)可与主机处理器对接且将线程分派给混合线程组构的一或多个片块。存储器中的待由片块使用的数据结构可由起始地址及大小来识别,所述起始地址及大小被包含为由主机提供的参数。分派元件将用以把经识别数据传送到将使用所述数据的片块的命令发送到存储器接口。因此,当所述片块开始处理线程时,所述数据已在所述片块的本地存储器中可用且不需要从存储器控制器存取。
使用分派元件来传送数据而非使片块请求数据会减少必须由片块执行的命令的数目。例如,如果将由片块操作的一些数据被预加载,那么加速器资源不需要请求数据本身。由加速器资源执行的命令的数目的减少可提高片块的响应性、降低片块的功耗、减小线程创建指令之间的时间周期(也被称为启动间隔)或其任何合适组合。另外,可在片块正在执行针对另一线程的操作的同时由分派元件传送数据,从而增大由片块执行的执行有用工作的操作的百分比且减小仅仅检索数据的操作的百分比。
图1大体上说明CNM系统102的第一实例。CNM系统102的实例包含例如可各自包含各种CNM装置的多个不同存储器计算节点。所述系统中的每一节点可在其自身操作系统(OS)域(例如,Linux等等)中操作。在实例中,所述节点可共同存在于CNM系统102的共同OS域中。
图1的实例包含CNM系统102的第一存储器计算节点104的实例。CNM系统102可具有使用缩放组构106耦合的多个节点,例如包含第一存储器计算节点104的不同例子。在实例中,CNM系统102的架构可支持使用缩放组构106按比例放大至n个不同存储器计算节点(例如,n=4096)。如下文进一步论述,CNM系统102中的每一节点可为多个装置的组合件。
CNM系统102可包含用于所述系统中的各种节点的全局控制器,或所述系统中的特定存储器计算节点可任选地充当同一系统中的一或多个其它存储器计算节点的主机或控制器。因此,可类似地或不同地配置CNM系统102中的各种节点。
在实例中,CNM系统102中的每一节点可包括使用所指定操作系统的主机系统。所述操作系统在CNM系统102中的各种节点当中可为共同或不同的。在图1的实例中,第一存储器计算节点104包括主机系统108、第一交换机110及第一存储器计算装置112。主机系统108可包括处理器,例如可包含X86、ARM、RISC-V或其它类型的处理器。第一交换机110可经配置以促进例如使用专用或其它通信协议(本文中统称为芯片到芯片协议接口(CTCPI))在第一存储器计算节点104或CNM系统102的装置之间或当中进行通信。即,CTCPI可包含专属于CNM系统102的专用接口,或者可包含或使用其它接口,例如计算快速链路(CXL)接口、外围组件互连快速(PCIe)接口或小芯片协议接口(CPI)等等。第一交换机110可包含经配置以使用CTCPI的交换机。例如,第一交换机110可包含CXL交换机、PCIe交换机、CPI交换机或其它类型的交换机。在实例中,第一交换机110可经配置以耦合以不同方式配置的端点。例如,第一交换机110可经配置以例如在PCIe与CPI格式之间转换分组格式,等等。
本文中描述呈各种实例配置的CNM系统102,例如包括节点的系统,且每一节点可包括各种芯片(例如,处理器、交换机、存储器装置等)。在实例中,CNM系统102中的第一存储器计算节点104可包含使用小芯片实施的各种芯片。在CNM系统102的下述基于小芯片的配置中,小芯片间通信以及所述系统内的额外通信可使用CPI网络。本文中所描述的CPI网络是CTCPI的实例,即,作为CTCPI的小芯片特定实施方案。因此,CPI的下述结构、操作及功能性可同样适用于如可使用非基于小芯片的CTCPI实施方案实施的结构、操作及功能。除非另有明确地指示,否则本文中对CPI的任何论述同样适用于CTCPI。
CPI接口包含支持虚拟信道以实现小芯片之间的灵活及高速交互的基于分组的网络,例如可包括第一存储器计算节点104或CNM系统102的部分。CPI可实现从小芯片内网络到更广泛小芯片网络的桥接。例如,高级可扩展接口(AXI)是一种用于芯片内通信的规范。然而,AXI规范涵盖多种物理设计选项,例如物理信道的数目、信号时序、功率等等。在单个芯片中,通常选择这些选项来满足设计目标,例如功耗、速度等等。然而,为了实现基于小芯片的存储器计算系统的灵活性,例如使用CPI的适配器可在能够在各种小芯片中实施的各种AXI设计选项之间进行对接。通过实现物理信道到虚拟信道的映射以及用分组化协议封装基于时间的信令,CPI可被用来例如在特定存储器计算节点内跨更广泛小芯片网络(例如跨第一存储器计算节点104或跨CNM系统102)桥接小芯片内网络。
CNM系统102可缩放以包含多节点配置。即,第一存储器计算节点104或其它以不同方式配置的存储器计算节点的多个不同例子可使用缩放组构106来耦合,以提供经缩放系统。所述存储器计算节点中的每一者可运行其自身操作系统且可经配置以联合协调全系统的资源使用。
在图1的实例中,第一存储器计算节点104的第一交换机110耦合到缩放组构106。缩放组构106可提供可促进不同存储器计算节点当中及之间的通信的交换机(例如,CTCPI交换机、PCIe交换机、CPI交换机或其它交换机)。在实例中,缩放组构106可帮助各种节点在分区全局地址空间(PGAS)中进行通信。
在实例中,来自第一存储器计算节点104的第一交换机110耦合到一个或多个不同存储器计算装置,例如包含第一存储器计算装置112。第一存储器计算装置112可包括本文中被称为CNM小芯片的基于小芯片的架构。第一存储器计算装置112的封装版本可包含例如一个或多个CNM小芯片。为了高带宽及低延时,所述小芯片可使用CTCPI通信地耦合。
在图1的实例中,第一存储器计算装置112可包含芯片上网络(NOC)或第一NOC118。通常,NOC是装置内的互连网络,其连接一组特定端点。在图1中,第一NOC 118可提供第一存储器计算装置112的各种存储器、计算资源与端口之间的通信及连接性。
在实例中,第一NOC 118可包括例如在存储器计算装置的每一例子内或作为耦合一节点中的多个存储器计算装置的网格的折叠式Clos拓扑。例如可使用多个较小基数的交叉开关来提供与较高基数的交叉开关拓扑相关联的功能性的Clos拓扑提供各种益处。例如,Clos拓扑可跨NOC展现一致的延时及对分带宽。
第一NOC 118可包含各种不同交换机类型,包含中心交换机、边缘交换机及端点交换机。所述交换机中的每一者可被构造为在输入与输出节点之间提供基本上均匀的延时及带宽的交叉开关。在实例中,端点交换机及边缘交换机可包含两个单独交叉开关,一个用于去往中心交换机的业务而另一个用于远离中心交换机的业务。中心交换机可被构造为将所有输入交换到所有输出的单个交叉开关。
在实例中,所述中心交换机可例如取决于特定集线器交换机是否参与芯片间通信而各自具有多个端口(例如,各自四个或六个端口)。参与芯片间通信的中心交换机的数目可根据芯片间带宽要求来设置。
第一NOC 118可支持计算元件与存储器之间的各种有效负载(例如,从8到64字节有效负载;可类似地使用其它有效负载大小)。在实例中,第一NOC 118可针对相对较小的有效负载(例如,8到16字节)进行优化以高效地处置对稀疏数据结构的存取。
在实例中,第一NOC 118可经由第一物理层接口114、PCIe从属模块116或端点及PCIe主导模块126或根端口耦合到外部主机。即,第一物理层接口114可包含用以允许外部主机处理器耦合到第一存储器计算装置112的接口。外部主机处理器可任选地例如使用PCIe交换机或其它本机协议交换机耦合到一个或多个不同存储器计算装置。通过基于PCIe的交换机与外部主机处理器通信可能将装置到装置通信限于由所述交换机支持的通信。相比之下,例如使用CTCPI通过存储器计算装置-本机协议交换机的通信可允许不同存储器计算装置之间或当中的更充分通信,包含对例如用于创建工作线程及发送事件的分区全局地址空间的支持。
在实例中,CTCPI协议可由第一存储器计算装置112中的第一NOC 118使用,且第一交换机110可包含CTCPI交换机。CTCPI交换机可允许将CTCPI分组从源存储器计算装置(例如第一存储器计算装置112)传送到不同目的地存储器计算装置(例如,在同一节点或其它节点上),例如而无需转换为另一分组格式。
在实例中,第一存储器计算装置112可包含内部主机处理器122。内部主机处理器122可经配置以例如使用内部PCIe主导模块126与第一NOC 118或第一存储器计算装置112的其它组件或模块进行通信,这可帮助消除将消耗时间及能量的物理层。在实例中,内部主机处理器122可基于RISC-V指令集架构(ISA)处理器,且可使用第一物理层接口114以在第一存储器计算装置112外部进行通信,例如与第一存储器计算装置112的其它存储装置、联网装置或其它外围装置进行通信。内部主机处理器122可控制第一存储器计算装置112且可充当操作系统相关功能性的代理。内部主机处理器122可包含相对少量的处理核心(例如,2到4个核心)及主机存储器装置124(例如,包括动态随机存取存储器(DRAM)模块)。
在实例中,内部主机处理器122可包含PCI根端口。当内部主机处理器122在使用中时,其根端口中的一者接着可连接到PCIe从属模块116。内部主机处理器122的根端口中的另一者可连接到第一物理层接口114,例如以提供与外部PCI外围装置的通信。当内部主机处理器122被停用时,接着可将PCIe从属模块116耦合到第一物理层接口114以允许外部主机处理器与第一NOC 118进行通信。在具有多个存储器计算装置的系统的实例中,第一存储器计算装置112可经配置以充当系统主机或控制器。在这个实例中,内部主机处理器122可在使用中,且相应的其它存储器计算装置中的内部主机处理器的其它例子可被停用。
可在第一存储器计算装置112通电时配置内部主机处理器122,例如以允许主机初始化。在实例中,内部主机处理器122及其相关联数据路径(例如,包含第一物理层接口114、PCIe从属模块116等)可从输入引脚配置到第一存储器计算装置112。所述引脚中的一或多者可被用来启用或停用内部主机处理器122且相应地配置PCI(或其它)数据路径。
在实例中,第一NOC 118可经由缩放组构接口模块136及第二物理层接口138连接到缩放组构106。缩放组构接口模块136或SIF可促进第一存储器计算装置112与装置空间(例如PGAS)之间的通信。PGAS可经配置使得特定存储器计算装置(例如第一存储器计算装置112)可例如使用加载/存储范例存取不同存储器计算装置上(例如,同一节点或不同节点上)的存储器或其它资源。可使用各种可缩放组构技术,包含CTCPI、CPI、Gen-Z、PCI或通过CXL桥接的以太网。缩放组构106可经配置以支持各种分组格式。在实例中,缩放组构106支持无序分组通信或支持有序分组,例如可使用路径识别符以跨多个等效路径展开带宽。缩放组构106通常可支持远程操作,例如远程存储器读取、写入及其它内置原子、远程存储器原子、远程存储器计算装置发送事件以及远程存储器计算装置调用及返回操作。
在实例中,第一NOC 118可耦合到一个或多个不同存储器模块,例如包含第一存储器装置128。第一存储器装置128可包含各种种类的存储器装置,例如低功率双倍数据速率5(LPDDR5)同步DRAM(SDRAM)或图形双倍数据速率6(GDDR6)DRAM等等。在图1的实例中,第一NOC 118可经由可专用于特定存储器模块的存储器控制器130协调与第一存储器装置128的通信。在实例中,存储器控制器130可包含存储器模块高速缓存及原子操作模块。原子操作模块可经配置以提供相对高处理量的原子运算符,例如包含整数及浮点运算符。原子操作模块可经配置以将其运算符应用于存储器模块高速缓存(例如,包括静态随机存取存储器(SRAM)存储器侧高速缓存)内的数据,由此允许使用同一存储器位置以最小的处理量下降进行背靠背原子操作。
存储器模块高速缓存可为频繁存取的存储器位置提供存储,例如而无须重新存取第一存储器装置128。在实例中,存储器模块高速缓存可经配置以仅高速缓存存储器控制器130的特定例子的数据。在实例中,存储器控制器130包含经配置以与第一存储器装置128(例如包含DRAM装置)对接的DRAM控制器。存储器控制器130可提供存取调度及位错误管理,以及其它功能。
在实例中,第一NOC 118可耦合到HTP(HTP 140)、HTF(HTF 142)以及主机接口及分派模块(HIF 120)。HIF 120可经配置以促进存取基于主机的命令请求队列及响应队列。在实例中,HIF 120可分派在HTP 140或HTF 142的处理器或计算元件上执行的新线程。在实例中,HIF 120可经配置以维持跨HTP 140模块及HTF 142模块的工作负载平衡。
混合线程处理器或HTP 140可包含例如可基于RISC-V指令集的加速器。HTP 140可包含高度线程化的事件驱动处理器,其中线程可在单指令旋转中执行,例如以维持高指令处理量。HTP 140包括相对较少的定制指令以支持低开销线程能力、事件发送/接收及共享存储器原子运算符。
混合线程组构或HTF 142可包含加速器,例如可包含非冯·诺依曼、粗粒度的可重新配置处理器。HTF 142可针对高级语言操作及数据类型(例如,整数或浮点)进行优化。在实例中,HTF 142可支持数据流计算。HTF 142可经配置以例如当执行受存储器限制的计算内核时,使用第一存储器计算装置112上可用的基本上全部存储器带宽。
CNM系统102的HTP及HTF加速器可使用各种高级的结构化编程语言来编程。例如,HTP及HTF加速器可使用C/C++编程(例如使用LLVM编译器框架)来编程。HTP加速器可利用例如具有经配置以改进存储器存取效率、提供消息传递机制及管理事件以及其它事项的各种添加的定制指令集的开源编译器环境。在实例中,HTF加速器可经设计以实现使用高级编程语言对HTF 142进行编程,且编译器可产生在HTF 142硬件上运行的模拟器配置文件或二进制文件。HTF 142可提供用于精确及简明地表达算法,同时隐藏HTF加速器本身的配置细节的中级语言。在实例中,HTF加速器工具链可使用LLVM前端编译器及LLVM中间表示(IR)以与HTF加速器后端对接。
图2大体上说明根据实施例的存储器计算装置的存储器子系统200的实例。存储器子系统200的实例包含控制器202、PAU 208及第二NOC 206。控制器202可包含或使用可编程原子单元208以使用存储器装置204中的信息实行操作。在实例中,存储器子系统200包括来自图1的实例的第一存储器计算装置112的一部分,例如包含第一NOC 118或存储器控制器130的部分。
在图2的实例中,第二NOC 206耦合到控制器202,且控制器202可包含存储器控制模块210、本地高速缓存模块212及内置原子模块214。在实例中,内置原子模块214可经配置以处置相对简单、单循环的整数原子。内置原子模块214可以与例如正常存储器读取或写入操作相同的处理量执行原子。在实例中,原子存储器操作可包含将数据存储到存储器、执行原子存储器操作且接着用来自存储器的加载数据进行响应的组合。
可提供本地高速缓存模块212(例如可包含SRAM高速缓存)以帮助减少重复存取的存储位置的延时。在实例中,本地高速缓存模块212可为子存储器行存取提供读取缓冲区。本地高速缓存模块212对于具有相对小数据高速缓存或没有数据高速缓存的计算元件特别有益。在一些实例实施例中,本地高速缓存模块212是2千字节只读高速缓存。
存储器控制模块210(例如可包含DRAM控制器)可提供低级请求缓冲及调度,例如以提供对存储器装置204(例如可包含DRAM装置)的高效存取。在实例中,存储器装置204可包含或使用例如具有16Gb密度及64Gb/sec峰值带宽的GDDR6 DRAM装置。可类似地使用其它装置。
在实例中,PAU 208可包含例如可经配置以执行整数加法或更复杂的多指令操作(例如布隆过滤器插入)的单循环或多循环运算符。在实例中,PAU 208可经配置以执行加载及存储到存储器操作。PAU 208可经配置以利用具有一组专用指令的RISC-V ISA来促进与控制器202的交互以原子地执行用户定义的操作。
例如从节点上或节点外主机接收的可编程原子请求可经由第二NOC 206及控制器202路由到PAU 208。在实例中,(例如,由PAU 208实行的)定制原子操作可与(例如,由内置原子模块214实行的)内置原子操作相同,区别仅在于编程原子操作可由用户而不是系统架构师来定义或编程。在实例中,可编程原子请求分组可通过第二NOC 206发送到控制器202,且控制器202可将所述请求识别为定制原子。控制器202接着可将经识别请求转发到PAU208。
图3大体上说明根据实施例的与存储器控制器一起使用的PAU 302的实例。在实例中,PAU 302可包括或对应于来自图2的实例的PAU 208。即,图3说明PAU 302的实例中的组件,例如上文关于图2(例如,在PAU 208中)或图1(例如,在存储器控制器130的原子操作模块中)所述的组件。如图3中所说明,PAU 302包含PAU处理器或PAU核心306、PAU线程控制件304、指令SRAM 308、数据高速缓存310及用以与存储器控制器314对接的存储器接口312。在实例中,存储器控制器314包含来自图2的实例的控制器202的实例。
在实例中,PAU核心306是流水线处理器使得每时钟周期一起执行不同指令的多个阶段。PAU核心306可包含桶形多线程处理器,其中线程控制件304电路系统在每一时钟周期时在不同寄存器堆(例如,含有当前处理状态的寄存器组)之间切换。这实现在当前执行的线程之间进行高效上下文切换。在实例中,PAU核心306支持八个线程,从而导致八个寄存器堆。在实例中,一些或所有寄存器堆未集成到PAU核心306中,而是驻留在本地数据高速缓存310或指令SRAM 308中。这通过消除用于此类存储器中的寄存器的传统触发器来降低PAU核心306中的电路复杂性。
本地PAU存储器可包含例如可包含用于各种原子的指令的指令SRAM 308。所述指令包括用以支持各种应用程序加载的原子运算符的若干组指令。当例如由应用小芯片请求原子运算符时,由PAU核心306执行对应于原子运算符的一组指令。在实例中,指令SRAM 308可经分区以建立若干组指令。在这个实例中,由请求进程所请求的特定可编程原子运算符可通过分区号来识别可编程原子运算符。分区号可在向PAU 302注册可编程原子运算符(例如,将可编程原子运算符加载到PAU 302中)时建立。可编程指令的其它元数据可被存储在PAU 302本地的存储器中(例如,在分区表中)。
在实例中,原子运算符操纵数据高速缓存310,所述数据高速缓存通常在原子运算符的线程完成时同步(例如,刷新)。因此,除从外部存储器(例如从存储器控制器314)进行初始加载以外,可在可编程原子运算符线程的执行期间减少大多数存储器操作的延时。
当执行线程试图发出存储器请求时,如果潜在危险条件会阻止此请求,那么流水线处理器(例如PAU核心306)可能会遇到问题。在此,存储器请求是从存储器控制器314检索数据,无论其是来自存储器控制器314上的高速缓存还是裸片外存储器。为了解决这个问题,PAU核心306经配置以拒绝对线程的存储器请求。通常,PAU核心306或线程控制件304可包含用以启用流水线中的一或多个线程重新调度点的电路系统。在此,拒绝发生在流水线中的位于这些线程重新调度之外(例如,之后)的点处。在实例中,危险发生在所述重新调度点之外。在此,在存储器请求指令通过其中可进行存储器请求的流水线阶段之前的最后线程重新调度点之后,线程中的前一指令产生危险。
在实例中,为了拒绝存储器请求,PAU核心306经配置以确定(例如,检测)在存储器请求中指示的存储器上存在危险。在此,危险表示使得允许(例如,执行)存储器请求将导致线程的不一致状态的任何状况。在实例中,危险是飞行中的存储器请求。在此,无论数据高速缓存310是否包含所请求存储器地址的数据,飞行中的存储器请求的存在都使得数据高速缓存310中的位于那个地址处的数据应是什么不确定。因此,线程等待飞行中的存储器请求完成以对当前数据进行操作。当存储器请求完成时,危险被清除。
在实例中,危险是数据高速缓存310中的用于所请求存储器地址的脏高速缓存行。尽管脏高速缓存行通常指示高速缓存中的数据是当前的且这个数据的存储器控制器版本不是当前的,但在不从高速缓存操作的线程指令上可能出现问题。此指令的实例使用存储器控制器314的内置原子运算符或其它单独硬件块。在存储器控制器的背景下,内置原子运算符可与PAU 302分离且不能存取PAU内部的数据高速缓存310或指令SRAM 308。如果高速缓存行是脏的,那么内置原子运算符将不会对最新近数据进行操作,直到数据高速缓存310经刷新以同步化高速缓存与其它存储器或裸片外存储器为止。这种相同情况可能发生在存储器控制器的其它硬件块(例如密码块、编码器等等)上。
图4说明HTP加速器或HTP加速器400的实例。根据实施例,HTP加速器400可包括存储器计算装置的一部分。在实例中,HTP加速器400可包含或包括来自图1的实例的HTP 140。HTP加速器400包含例如HTP核心402、指令高速缓存404、数据高速缓存406、转译块408、存储器接口410及线程控制器412。HTP加速器400可进一步包含例如分派接口414及用于与NOC(例如来自图1的实例的第一NOC 118、来自图2的实例的第二NOC 206或任何其它NOC)对接的NOC接口416。
在实例中,HTP加速器400包含基于RISC-V指令集的模块且可包含相对少量的其它或额外定制指令以支持低开销、具备线程能力的混合线程(HT)语言。HTP加速器400可包含高线程处理器核心(HTP核心402),在所述核心中或利用所述核心,线程可在单个指令旋转中执行,例如以维持高指令处理量。在实例中,线程可在其等待其它未决事件完成时被暂停。这可允许计算资源高效地用于相关工作而非轮询上。在实例中,多线程屏障同步可使用高效的HTP到HTP及HTP往/返主机的消息传递,例如可允许数千个线程在例如几十个时钟周期内初始化或唤醒。
在实例中,分派接口414可包括用于处置基于硬件的线程管理的HTP加速器400的功能块。即,分派接口414可管理将工作分派给HTP核心402或其它加速器。然而,非HTP加速器通常不能分派工作。在实例中,从主机分派的工作可使用驻留在例如主机主存储器(例如,基于DRAM的存储器)中的分派队列。另一方面,从HTP加速器400分派的工作可使用驻留在SRAM中的分派队列,例如在对特定节点内的目标HTP加速器400的分派中。
在实例中,HTP核心402可包括代表线程执行指令的一或多个核心。即,HTP核心402可包含指令处理块。HTP核心402可进一步包含或可耦合到线程控制器412。线程控制器412可为HTP核心402内的每一活动线程提供线程控制及状态。数据高速缓存406可包含用于主机处理器(例如,用于本地及远程存储器计算装置,包含用于HTP核心402)的高速缓存,且指令高速缓存404可包含用于由HTP核心402使用的高速缓存。在实例中,数据高速缓存406可经配置用于读取及写入操作,且指令高速缓存404可经配置用于只读操作。
在实例中,数据高速缓存406是每硬件线程提供的小型高速缓存。数据高速缓存406可暂时存储由拥有线程使用的数据。数据高速缓存406可由HTP加速器400中的硬件或软件来管理。例如,在由HTP核心402执行加载及存储操作时,硬件可经配置以根据需要自动地分配或逐出行。例如使用RISC-V指令的软件可确定哪些存储器存取应被高速缓存及何时应使行无效或将其写回到其它存储器位置。
HTP加速器400上的数据高速缓存具有各种益处,包含使较大存取对存储器控制器更高效,由此允许执行线程避免停止。然而,存在使用高速缓存会引起低效的情况。实例包含其中数据仅被存取一次且致使高速缓存行颠簸的存取。为了帮助解决这个问题,HTP加速器400可使用一组定制加载指令来强制加载指令检查高速缓存命中且在高速缓存未命中时,发出对所请求操作数的存储器请求且不将所获得数据放入数据高速缓存406中。因此,HTP加速器400包含各种不同类型的加载指令,包含非高速缓存及高速缓存行加载。如果在高速缓存中存在脏数据,那么非高速缓存加载指令将使用高速缓存数据。非高速缓存加载指令忽略高速缓存中的干净数据且不将经存取数据写入到数据高速缓存。对于高速缓存行加载指令,完整的数据高速缓存行(例如,包括64个字节)可从存储器加载到数据高速缓存406中且可将所寻址存储器加载到所指定寄存器中。如果干净或脏数据在数据高速缓存406中,那么这些加载可使用高速缓存数据。如果所引用存储器位置不在数据高速缓存406中,那么可从存储器存取整个高速缓存行。使用高速缓存行加载指令可在正引用循序存储器位置(例如存储器复制操作)时减少高速缓存未命中,但如果不使用所引用存储器数据,那么也可能浪费NOC接口416处的存储器及带宽。
在实例中,HTP加速器400包含非高速缓存的定制存储指令。非高速缓存的存储指令可帮助避免因未被循序地写入到存储器的写入数据而使数据高速缓存406颠簸。
在实例中,HTP加速器400进一步包含转译块408。转译块408可包含用于存储器计算装置的本地存储器的虚拟到物理转译块。例如,主机处理器(例如HTP核心402)可执行加载或存储指令,且所述指令可产生虚拟地址。虚拟地址可例如使用来自转译块408的转译表被转译为主机处理器的物理地址。例如,存储器接口410可包含HTP核心402与NOC接口416之间的接口。
图5说明根据实施例的存储器计算装置的HTF 500的表示的实例。在实例中,HTF500可包含或包括来自图1的实例的HTF 142。HTF 500是可针对高级语言操作数类型及运算符(例如,使用C/C++或其它高级语言)进行优化的粗粒度、可重新配置的计算组构。在实例中,HTF 500可包含互连强化单指令/多数据(SIMD)运算单元的可配置、n位宽(例如,512位宽)的数据路径。
在实例中,HTF 500包括包含多个HTF片块(包含实例片块504或片块N)的HTF集群502。每一HTF片块可包含具有本地存储器及算术功能的一或多个计算元件。例如,每一片块可包含支持整数及浮点运算的计算流水线。在实例中,数据路径、计算元件及其它基础结构可被实施为强化IP以提供最大性能,同时最小化功耗及重新配置时间。
在图5的实例中,包括HTF集群502的片块线性地经布置,且所述集群中的每一片块可耦合到HTF集群502中的一或多个其它片块。在图5的实例中,实例片块504或片块N耦合到四个其它片块,包含经由标记为SF IN N-2的端口耦合到基础片块510(例如,片块N-2)、经由标记为SF IN N-1的端口耦合到邻近片块512(例如,片块N-1)及经由标记为SF IN N+1的端口耦合到片块N+1及经由标记为SF IN N+2的端口耦合到片块N+2。实例片块504可经由相应输出端口(例如标记为SF OUT N-1、SF OUT N-2、SF OUT N+1及SF OUT N+2的输出端口)耦合到相同片块或其它片块。在这个实例中,各种片块的名称的有序列表是所述片块的位置的概念指示。在其它实例中,包括HTF集群502的片块可被布置成栅格或其它配置,其中每一片块类似地耦合到所述栅格中的其最近邻居中的一或若干者。设置在集群的边缘处的片块可任选地具有到邻近片块的较少连接。例如,片块N-2或图5的实例中的基础片块510可仅耦合到邻近片块512(片块N-1)及实例片块504(片块N)。类似地,可使用更少或额外片块间连接。
HTF集群502可进一步包含存储器接口模块,包含第一存储器接口模块506。存储器接口模块可将HTF集群502耦合到NOC,例如第一NOC 118。在实例中,存储器接口模块可允许集群内的片块向存储器计算系统中(例如所述系统中的同一或不同节点中)的其它位置提出请求。即,HTF 500的表示可包括可跨多个节点分布的较大组构的一部分,例如在所述节点中的每一者处具有一或多个HTF片块或HTF集群。请求可在较大组构的背景下的片块或节点之间提出。
在图5的实例中,HTF集群502中的片块使用同步组构(SF)来耦合。同步组构可提供HTF集群502中的特定片块与其相邻片块之间的通信,如上文所描述。每一HTF集群502可进一步包含异步组构(AF),所述异步组构可提供例如所述集群中的片块、所述集群中的存储器接口与所述集群中的分派接口508当中的通信。
在实例中,同步组构可交换包含数据及控制信息的消息。控制信息可尤其包含指令RAM地址信息或线程识别符。控制信息可被用来设置数据路径,且可选择数据消息字段作为所述路径的源。通常,可更早地提供或接收控制字段,使得它们可被用来配置数据路径。例如,为了帮助最小化通过片块中的同步域流水线的任何延迟,控制信息可比数据字段早几个时钟周期到达片块。可提供各种寄存器来帮助协调流水线中的数据流时序。
在实例中,HTF集群502中的每一片块可包含多个存储器。每一存储器可具有与数据路径相同的宽度(例如,512个位)且可具有所指定深度,例如在512到1024个元件的范围内。片块存储器可被用来存储支持数据路径操作的数据。例如,经存储数据可包含作为内核的集群配置的部分加载的常数,或可包含作为数据流的部分计算的变量。在实例中,片块存储器可作为来自另一同步域的数据传送被从异步组构写入,或可包含例如由另一同步域启动的加载操作的结果。片块存储器可经由同步域中的同步数据路径指令执行来读取。
在实例中,HTF集群502中的每一片块可具有专用指令RAM(INST RAM)。在具有16个片块的HTF集群502及具有64个条目的指令RAM例子的实例中,所述集群可允许用多达1024个乘法-移位及/或算术逻辑单元(ALU)运算来映射算法。各种片块可任选地例如使用同步组构流水线化在一起,以允许具有最少存储器存取的数据流计算,从而最小化延时且降低功耗。在实例中,异步组构可允许存储器引用与计算并行进行,由此提供更高效的流内核。在实例中,各种片块可包含对基于循环的结构的内置支持且可支持嵌套循环内核。
同步组构可允许多个片块被流水线化,例如而无需数据排队。例如,参与同步域的片块可充当单个流水线数据路径。同步域的第一或基础片块(例如,在图5的实例中为片块N-2)可通过流水线片块启动工作线程。基础片块可负责在预定义节奏(在本文中被称为辐条计数)上起始工作。例如,如果辐条计数是3,那么基础片块可每隔两个时钟周期启动工作。
在实例中,同步域包括HTF集群502中的一组所连接片块。线程的执行可从所述域的基础片块处开始且可经由同步组构从基础片块前进到同一域中的其它片块。基础片块可提供待对于第一片块执行的指令。在默认情况下,第一片块可提供相同指令供其它所连接片块执行。然而,在一些实例中,基础片块或后续片块可有条件地指定或使用替代指令。可通过使片块的数据路径产生布尔条件值来选择替代指令,且接着可使用所述布尔值以在当前片块的指令集与替代指令之间进行选择。
异步组构可被用来执行相对于同步域异步地发生的操作。HTF集群502中的每一片块可包含到异步组构的接口。入站接口可包含例如先进/先出(FIFO)缓冲区或队列(例如,AF IN QUEUE)以为无法立即处理的消息提供存储。类似地,异步组构的出站接口可包含FIFO缓冲区或队列(例如,AF OUT QUEUE)以为无法立即发出的消息提供存储。
在实例中,AF中的消息可被分类为数据消息或控制消息。数据消息可包含写入到片块存储器0(MEM_0)或存储器1(MEM_1)的SIMD宽度数据值。控制消息可经配置以控制线程创建、释放资源或发出外部存储器引用。
HTF集群502中的片块可为HTF执行各种计算操作。所述计算操作可通过配置片块内的数据路径来执行。在实例中,片块包含为片块执行计算操作的两个功能块:乘法及移位运算块(MS OP)以及算术、逻辑及位运算块(ALB OP)。所述两个块可经配置以执行流水线操作,例如乘法及加法,或移位及加法等等。
在实例中,系统中的存储器计算装置的每一例子可具有用于其运算符块(例如,MSOP及ALB OP)的完整支持指令集。在这种情况下,可跨系统中的所有装置实现二进制兼容性。然而,在一些实例中,维持一组基础功能性及任选指令集类别是有帮助的,例如以满足各种设计折中,例如裸片大小。所述方法可与RISC-V指令集具有基础集及多个任选指令子集的方式类似。
在实例中,实例片块504可包含辐条RAM。辐条RAM可被用来指定哪个输入(例如,来自四个SF片块输入及基础片块输入当中)是每一时钟周期的主要输入。辐条RAM读取地址输入可源于从零计数到辐条计数减一的计数器。在实例中,可在不同片块(例如在同一HTF集群502内)上使用不同辐条计数,以允许由内部循环用于确定特定应用程序或指令集的性能的数个切片或唯一片块例子。在实例中,辐条RAM可指定何时将同步输入写入到片块存储器,例如何时使用特定片块指令的多个输入及所述输入中的一者何时先于其它者到达。较早到达的输入可被写入到片块存储器且稍后可在所有输入都可用时被读取。在这个实例中,片块存储器可作为FIFO存储器来存取,且FIFO读取及写入指针可被存储在片块存储器中的基于寄存器的存储区或结构中。
图6A及图6B大体上说明可被用来实施CNM系统102的一或多个方面的小芯片系统的实例。如上文类似地提及,CNM系统102中的节点或CNM系统102中的节点内的装置可包含基于小芯片的架构或CNM小芯片。封装式存储器计算装置可包含例如一个、两个或四个CNM小芯片。所述小芯片可使用高带宽、低延时互连件(例如使用CPI接口)来互连。通常,小芯片系统由集成在中介层上且在许多实例中根据需要通过一或多个所建立网络互连以提供具有所期望功能性的系统的离散模块(各自为“小芯片”)组成。中介层及所包含小芯片可被封装在一起以促进与更大系统的其它组件互连。每一小芯片可包含潜在地与离散电路组件组合的一或多个个别IC或“芯片”,且可耦合到相应衬底以促进附接到中介层。系统中的大多数或所有小芯片可个别地经配置用于通过所建立网络进行通信。
将小芯片配置为系统的个别模块不同于在单个芯片上实施此系统,所述单个芯片含有一个衬底(例如,单个裸片)上的不同装置块(例如,IP块)(例如芯片上系统(SoC))或集成在印刷电路板(PCB)上的离散封装装置。一般来说,小芯片提供比离散封装装置更好的性能(例如,更低的功耗、减少的延时等),且小芯片提供比单裸片芯片更大的生产效益。这些生产效益可包含更高的良率或减少的开发成本及时间。
小芯片系统可包含例如一或多个应用(或处理器)小芯片及一或多个支持小芯片。在此,应用小芯片与支持小芯片之间的区别仅仅是对小芯片系统的可能设计场景的参考。因此,例如,仅举例来说,合成视觉小芯片系统可包含用以产生合成视觉输出的应用小芯片连同支持小芯片,例如存储器控制器小芯片、传感器接口小芯片或通信小芯片。在典型使用案例中,合成视觉设计者可设计应用小芯片且从其它方获得支持小芯片。因此,通过避免支持小芯片中体现的功能性的设计及生产来减少设计支出(例如,在时间或复杂性方面)。
小芯片还支持原本可能难以实现的IP块(例如使用不同处理技术或使用不同特征大小(或使用不同接触技术或间距)制造的IP块)的紧密集成。因此,具有不同物理特性、电特性或通信特性的多个IC或IC组合件可以模块化方式组装以提供具有各种所期望功能性的组合件。小芯片系统还可促进调适以适应小芯片系统将并入到其中的不同更大系统的需求。在实例中,可针对特定功能的功率、速度或发热进行优化(如可能发生在传感器上)的IC或其它组合件可比试图在单个裸片上与其它装置集成更容易地与其它装置集成在一起。另外,通过减小裸片的总体大小,小芯片的良率趋向于高于更复杂的单裸片装置的良率。
图6A及图6B大体上说明根据实施例的小芯片系统的实例。图6A是安装可(例如,通过PCIe)连接到更广泛计算机系统的外围板604上的小芯片系统602的表示。小芯片系统602包含封装衬底606、中介层608及四个小芯片:应用小芯片610、主机接口小芯片612、存储器控制器小芯片614及存储器装置小芯片616。其它系统可包含许多额外小芯片以提供额外功能性,如从以下论述将显而易见。小芯片系统602的封装被说明为具有盖子或覆盖物618,但可使用小芯片系统的其它封装技术及结构。图6B是为了清楚起见而标记小芯片系统中的组件的框图。
应用小芯片610被说明为包含小芯片系统NOC 620以支持用于小芯片间通信的小芯片网络622。在实例实施例中,小芯片系统NOC 620可被包含在应用小芯片610上。在实例中,来自图1的实例的第一NOC 118可响应于选定支持小芯片(例如,主机接口小芯片612、存储器控制器小芯片614及存储器装置小芯片616)而定义,从而使设计者能够为小芯片系统NOC 620选择适当数目个小芯片网络连接或交换机。在实例中,小芯片系统NOC 620可位于单独小芯片上,或位于中介层608内。在如本文中所论述的实例中,小芯片系统NOC 620实施CPI网络。
在实例中,小芯片系统602可包含或包括第一存储器计算节点104或第一存储器计算装置112的一部分。即,第一存储器计算装置112的各种块或组件可包含可安装在外围板604、封装衬底606及中介层608上的小芯片。第一存储器计算装置112的接口组件通常可包括主机接口小芯片612。第一存储器计算装置112的存储器及存储器控制相关组件通常可包括存储器控制器小芯片614。第一存储器计算装置112的各种加速器及处理器组件通常可包括应用小芯片610或其例子等等。
例如可被用于系统中的小芯片之间或当中的通信的CPI接口是支持虚拟信道以实现小芯片之间的灵活且高速交互的基于分组的网络。CPI实现从小芯片内网络到小芯片网络622的桥接。例如,AXI是被广泛地用来设计芯片内通信的规范。然而,AXI规范涵盖各种各样的物理设计选项,例如物理信道的数目、信号时序、功率等等。在单个芯片内,通常选择这些选项来满足设计目标,例如功耗、速度等等。然而,为了实现小芯片系统的灵活性,使用适配器(例如CPI)来在可在各种小芯片中实施的各种AXI设计选项之间进行对接。通过实现物理信道到虚拟信道的映射且用分组化协议封装基于时间的信令,CPI跨小芯片网络622桥接小芯片内网络。
CPI可使用多种不同物理层来传输分组。物理层可包含简单的导电连接、用以增大电压或以其它方式促进在更长距离上传输信号的驱动器。一个此类物理层的实例可包含高级接口总线(AIB),在各种实例中,所述高级接口总线可在中介层608中实施。AIB使用带有经转发时钟的源同步数据传送来传输及接收数据。分组相对于经传输时钟以单倍数据速率(SDR)或双倍数据速率(DDR)跨AIB传送。AIB支持各种信道宽度。所述信道可经配置以具有对称数目个传输(TX)及接收(RX)输入/输出(I/O)或具有非对称数目个传输器及接收器(例如,全传输器或全接收器)。取决于哪个小芯片提供主导时钟,所述信道可充当AIB主导信道或从属信道。AIB I/O单元支持三种时控模式:异步(即,非时控)、SDR及DDR。在各种实例中,非时控模式被用于时钟及一些控制信号。SDR模式可使用专用仅SDR I/O单元或两用SDR/DDR I/O单元。
在实例中,CPI分组协议(例如,点对点或可路由)可使用AIB信道内的对称的接收及传输I/O单元。CPI流协议允许更灵活地使用AIB I/O单元。在实例中,用于流模式的AIB信道可将I/O单元配置为全TX、全RX或半TX半RX。CPI分组协议可在SDR或DDR操作模式下使用AIB信道。在实例中,AIB信道对于SDR模式以80个I/O单元(即,40TX及40RX)的增量配置且对于DDR模式以40个I/O单元的增量配置。CPI流协议可在SDR或DDR操作模式下使用AIB信道。在此,在实例中,AIB信道对于SDR及DDR模式两者以40个I/O单元为增量。在实例中,每一AIB信道被指派唯一接口识别符。在CPI重置及初始化期间使用所述识别符来确定跨邻近小芯片的成对AIB信道。在实例中,接口识别符是包括7位小芯片识别符、7位列识别符及6位链路识别符的20位值。AIB物理层使用AIB带外移位寄存器传输接口识别符。使用移位寄存器的位32到51,跨AIB接口在两个方向上传送20位接口识别符。
AIB将一组堆叠AIB信道定义为AIB信道列。AIB信道列具有某一数目个AIB信道加上一辅助信道。辅助信道含有用于AIB初始化的信号。列内的所有AIB信道(辅助信道除外)具有相同配置(例如,全TX、全RX或半TX及半RX),并且具有相同数目个数据I/O信号。在实例中,AIB信道从邻近于AUX信道的AIB信道开始以连续递增顺序编号。邻近于AUX的AIB信道被定义为AIB信道零。
通常,个别小芯片上的CPI接口可包含串行化-去串行化(SERDES)硬件。SERDES互连件非常适合其中期望具有低信号计数的高速信令的场景。然而,SERDES可能导致复用及解复用、错误检测或校正(例如,使用块级循环冗余校验(CRC))、链路级重试或前向错误校正的额外功耗及更长延时。然而,当低延时或能耗是超短距离的小芯片到小芯片互连的主要关注点时,可利用具有允许以最小延时进行数据传送的时钟速率的并行接口。CPI包含用以最小化这些超短距离小芯片互连件中的延时及能耗两者的元件。
对于流控制,CPI采用基于信用的技术。接收者(例如应用小芯片610)向发送者(例如存储器控制器小芯片614)提供表示可用缓冲区的信用。在实例中,CPI接收者包含在给定传输时间单位内用于每一虚拟信道的缓冲区。因此,如果CPI接收者支持时间上的五个消息及单个虚拟信道,那么接收者具有布置在五行中的五个缓冲区(例如,每单位时间一行)。如果支持四个虚拟信道,那么接收者具有布置在五行中的二十个缓冲区。每一缓冲区保存一个CPI分组的有效负载。
当发送者向接收者传输时,发送者基于所述传输而使可用信用递减。一旦接收者的所有信用被消耗,发送者就停止将分组发送到接收者。这确保接收者总是具有可用缓冲区来存储所述传输。
随着接收者处理经接收分组且释放缓冲区,接收者将可用缓冲区空间传达给发送者。接着,发送者可使用这个信用返回来允许传输额外信息。
图6A的实例包含使用直接的小芯片到小芯片技术而无需小芯片系统NOC 620的小芯片网状网络624。小芯片网状网络624可在CPI或另一小芯片到小芯片协议中实施。小芯片网状网络624通常实现小芯片的流水线,其中一个小芯片充当到流水线的接口,而流水线中的其它小芯片仅与它们本身对接。
另外,专用装置接口(例如一或多个行业标准存储器接口(例如举例来说同步存储器接口,例如DDR5、DDR6))可被用来将装置连接到小芯片。小芯片系统或个别小芯片到外部装置(例如更大系统)的连接可通过所期望接口(例如,PCIe接口)进行。在实例中,此外部接口可通过主机接口小芯片612来实施,在所描绘实例中,所述主机接口小芯片提供小芯片系统外部的PCIe接口。当行业中的惯例或标准集中在此接口上时,通常采用此类专用小芯片接口626。将存储器控制器小芯片614连接到DRAM存储器装置小芯片616的DDR接口的所说明实例正是此行业惯例。
在多种可能的支持小芯片中,存储器控制器小芯片614可能存在于小芯片系统中,这是因为几乎无所不在地对于计算机处理使用存储以及对于存储器装置使用精湛的尖端技术。因此,使用由他人生产的存储器装置小芯片616及存储器控制器小芯片614使小芯片系统设计者能够获得由成熟生产商生产的稳健产品。通常,存储器控制器小芯片614提供存储器装置特定接口来读取、写入或擦除数据。通常,存储器控制器小芯片614可提供额外特征,例如错误检测、错误校正、维护操作或原子运算符执行。对于一些类型的存储器,维护操作往往特定于存储器装置小芯片616,例如NAND快闪存储器或存储类存储器中的废弃项目收集及NAND快闪存储器中的温度调节(例如,交叉温度管理)。在实例中,维护操作可包含逻辑到物理(L2P)映射或管理以在数据的物理与逻辑表示之间提供间接层级。在其它类型的存储器(例如DRAM)中,一些存储器操作(例如刷新)有时可由主机处理器或存储器控制器来控制,且在其它时候,由DRAM存储器装置或者由与一或多个DRAM装置相关联的逻辑(例如接口芯片(在实例中,缓冲区))来控制。
原子运算符是例如可由存储器控制器小芯片614执行的数据操纵。在其它小芯片系统中,原子运算符可由其它小芯片来执行。例如,“递增”的原子运算符可由应用小芯片610在命令中指定,所述命令包含存储器地址及可能的递增值。在接收到所述命令时,存储器控制器小芯片614从所指定存储器地址检索数字,将所述数字递增所述命令中指定的量,且存储结果。在成功完成时,存储器控制器小芯片614将命令成功的指示提供到应用小芯片610。原子运算符避免跨小芯片网状网络624传输数据,从而实现此类命令的较低延时执行。
原子运算符可被分类为内置原子或可编程(例如,定制)原子。内置原子是在硬件中不变地实施的有限操作集。可编程原子是可在存储器控制器小芯片614的PAU(例如,定制原子单元(CAU))上执行的小程序。
存储器装置小芯片616可为易失性存储器装置或非易失性存储器,或者包含易失性存储器装置或非易失性存储器的任何组合。易失性存储器装置的实例包含但不限于RAM,例如DRAM、SDRAM及GDDR6 SDRAM等等。非易失性存储器装置的实例包含但不限于NAND型快闪存储器及存储类存储器(例如,相变存储器或基于忆阻器的技术)、铁电RAM(FeRAM)等等。所说明实例包含作为小芯片的存储器装置小芯片616;然而,所述装置可驻留在别处,例如在外围板604上的不同封装中。对于许多应用,可提供多个存储装置小芯片。在实例中,这些存储器装置小芯片可各自实施一或多种存储技术且可包含集成计算主机。在实例中,存储器小芯片可包含不同技术的多个堆叠式存储器裸片(例如,一或多个SRAM装置与一或多个DRAM装置堆叠在一起或者以其它方式与一或多个DRAM装置通信)。在实例中,存储器控制器小芯片614可用于协调小芯片系统602中的多个存储器小芯片之间的操作(例如,在高速缓存存储的一或多个层级中使用一或多个存储器小芯片,且使用一或多个额外存储器小芯片作为主存储器)。小芯片系统602可包含如可被用来为单独主机、处理器、传感器、网络等等提供存储器控制功能性的多个存储器控制器小芯片614例子。例如所说明系统中的小芯片架构通过经更新小芯片配置(例如在不需要重新设计系统结构的其余部分的情况下),在允许适应不同存储器存储技术及不同存储器接口方面提供优势。
图7大体上说明根据实施例的存储器计算装置的基于小芯片的实施方案的实例。所述实例包含具有四个CNM小芯片的实施方案,且所述CNM小芯片中的每一者可包含或包括来自图1的实例的第一存储器计算装置112或第一存储器计算节点104的部分。各种部分本身可包含或包括相应小芯片。基于小芯片的实施方案可包含或使用基于CPI的系统内通信,如上文在来自图6A及图6B的实例小芯片系统602中类似地论述。
图7的实例包含包括多个小芯片的第一CNM封装700。第一CNM封装700包含全部耦合到CNM NOC集线器710的第一小芯片702、第二小芯片704、第三小芯片706及第四小芯片708。第一到第四小芯片中的每一者可包括相同或基本上相同的组件或模块的例子。例如,所述小芯片可各自包含HTP加速器、HTF加速器及用于存取内部或外部存储器的存储器控制器的相应例子。
在图7的实例中,第一小芯片702包含耦合到CNM NOC集线器710的第一NOC集线器边缘714。第一CNM封装700中的其它小芯片类似地包含NOC集线器边缘或端点。NOC集线器边缘中的交换机促进经由CNM NOC集线器710进行小芯片内或小芯片系统内通信。
第一小芯片702可进一步包含一个或多个存储器控制器716。存储器控制器716可对应于与第一NOC集线器边缘714对接的相应不同NOC端点交换机。在实例中,存储器控制器716包括存储器控制器小芯片614、存储器控制器130、存储器子系统200或其它存储器计算实施方案。存储器控制器716可耦合到相应不同存储器装置,例如包含第一外部存储器模块712a或第二外部存储器模块712b。所述外部存储器模块可包含例如可由系统中的相应不同小芯片选择性地存取的GDDR6存储器。
第一小芯片702可进一步包含例如经由相应不同NOC端点交换机耦合到第一NOC集线器边缘714的第一HTP小芯片718及第二HTP小芯片720。所述HTP小芯片可对应于HTP加速器,例如来自图1的实例的HTP 140,或来自图4的实例的HTP加速器400。所述HTP小芯片可与HTF小芯片722进行通信。HTF小芯片722可对应于HTF加速器,例如来自图1的实例的HTF142,或来自图5的实例的HTF 500。
CNM NOC集线器710可凭借各种接口及交换机耦合到其它小芯片或其它CNM封装中的NOC集线器例子。例如,CNM NOC集线器710可凭借第一CNM封装700上的多个不同NOC端点耦合到CPI接口。多个不同NOC端点中的每一者可耦合到例如第一CNM封装700外部的不同节点。在实例中,CNM NOC集线器710可使用CTCPI或其它非CPI协议耦合到其它外围装置、节点或装置。例如,第一CNM封装700可包含经配置以将第一CNM封装700与其它装置对接的PCIe缩放组构接口(例如,PCIE或流组构接口(SFI))或CXL接口。在实例中,第一CNM封装700使用各种CPI、PCIe、CXL或其它组构所耦合到的装置可组成共同全局地址空间。
在图7的实例中,第一CNM封装700包含主机接口724(HIF)及主机处理器(R5)。主机接口724可对应于例如来自图1的实例的HIF 120。主机处理器或R5可对应于来自图1的实例的内部主机处理器122。主机接口724可包含用于将第一CNM封装700耦合到其它外部装置或系统的PCI接口。在实例中,可由主机接口724在第一CNM封装700上或在第一CNM封装700内的片块集群上启动工作。例如,主机接口724可经配置以命令例如第一CNM封装700中的各种小芯片当中的个别HTF片块集群进入及退出功率/时钟门模式。
图8说明根据实施例的存储器计算装置的实例平铺。在图8中,平铺式小芯片实例800包含小芯片的不同CNM集群的四个例子,其中所述集群耦合在一起。CNM小芯片的每一例子本身可包含一或多个构成小芯片(例如,主机处理器小芯片、存储器装置小芯片、接口小芯片等等)。
平铺式小芯片实例800包含来自图7的实例的第一CNM封装700的例子作为其CNM集群中的一或多者。例如,平铺式小芯片实例800可包含第一CNM集群802,所述第一CNM集群包含第一小芯片810(例如,对应于第一小芯片702)、第二小芯片812(例如,对应于第二小芯片704)、第三小芯片814(例如,对应于第三小芯片706)及第四小芯片816(例如,对应于第四小芯片708)。第一CNM集群802中的小芯片可耦合到共同NOC集线器,所述共同NOC集线器又可耦合到邻近集群或若干邻近集群中(例如,第二CNM集群804或第四CNM集群808中)的NOC集线器。
在图8的实例中,平铺式小芯片实例800包含第一CNM集群802、第二CNM集群804、第三CNM集群806及第四CNM集群808。各种CNM小芯片可经配置在共同地址空间中使得所述小芯片可跨不同片块分配及共享资源。在实例中,集群中的小芯片可彼此进行通信。例如,第一CNM集群802可经由小芯片间CPI接口818通信地耦合到第二CNM集群804,且第一CNM集群802可经由另一或同一CPI接口通信地耦合到第四CNM集群808。第二CNM集群804可经由同一或其它CPI接口通信地耦合到第三CNM集群806,以此类推。
在实例中,平铺式小芯片实例800中的CNM小芯片中的一者可包含负责跨平铺式小芯片实例800的工作负载平衡的主机接口(例如,对应于来自图7的实例的主机接口724)。主机接口可促进例如从平铺式小芯片实例800外部存取基于主机的命令请求队列及响应队列。主机接口可使用平铺式小芯片实例800中的CNM小芯片中的一或多者中的混合线程处理器及混合线程组构分派新执行线程。
图9是展示根据本公开的一些实施例的由电路在分派期间从存储器加载数据时执行的方法900的操作的流程图。方法900包含操作910、920及930。举例而非限制来说,操作910到930由图1的HIF 120来执行。
在操作910中,HIF 120接收识别片块及存储器中的地址的分派请求。存储器中的地址可为指向存储在存储器中的数据结构的指针。分派请求可从主机120接收且包括HTF(例如,图1的HTF 142)的片块(例如,图5的片块510)的识别符及存储器装置128中的地址。在一些实例实施例中,分派接口请求包括下表中的字段。在各种实施例中,使用所述表中的额外字段或字段子集。
/>
在TID被分配之后,使用数据消息计数来引用消息表。为每一所引用表条目发送异步数据消息,这允许数据被分发及/或复制到片块存储器。在数据被分发之后,将继续或循环消息发送到由条目目的地指定的片块处的片块基础以实现第一线程的起始。将Ack消息从NOC 118发送到HIF 120以允许其发送另一分派。
在操作920中,HIF 120请求将所述地址处的数据从存储器装置128传送到经识别片块。在一些实例实施例中,从存储器请求数据包括将数据请求发送到控制对存储器的存取的存储器控制器小芯片(例如,图6的存储器控制器小芯片614)。从HIF 120到存储器控制器130的分派接口消息可包含一些或所有以下字段。
在操作930中,响应经接收分派请求,HIF 120在经识别片块上起始线程。线程在所请求数据被复制到所述线程将在其上执行的片块之后开始执行。
下表中的一些或所有分派接口原语操作可被用来实施一或多个操作910到930。
/>
如上表中所描述,HTF集群加载内核命令识别待从其加载数据(例如,寄存器状态)处虚拟地址。在一些实例实施例中,从虚拟地址加载的数据量是固定量。在其它实例实施例中,从虚拟地址加载的数据量是HTF集群加载内核命令的参数且HIF从提供对对应于虚拟地址的物理存储器的存取的存储器控制器请求所指示量的数据。因此,在一些实例实施例中,在操作910中接收的分派请求识别待传送数据的大小;且在操作920中对存储器的传送数据的请求识别大小。
通过使用方法900,由HIF 120而非执行线程的片块执行存储器复制操作。因此,片块执行更少的存储器存取操作,从而使片块能够执行更高百分比的其执行经分派线程的操作。改进的效率提高了处理量、降低了功耗、减小了装置大小、减轻了装置重量或其任何合适组合。
图10是展示根据本公开的一些实施例的由电路在分派期间从存储器加载数据时执行的方法的操作的流程图。方法1000包含操作1010、1020、1030、1040、1050及1060。举例而非限制来说,操作1010到1060由图1的存储器控制器130来执行。
在操作1010中,存储器控制器130接收指示待发送数据的数据消息。数据消息包括字段。例如,加载操作可从同步域中的片块或HIF启动。在一些实例实施例中,请求片块或HIF发送包括下表中所展示的一或多个字段的AfLdAddr消息(异步组构加载地址)。
/>
在操作1020中,存储器控制器130确定在操作1110中接收的数据消息的来源。例如,将存储器控制器130连接到始发装置的硬件总线可包含指示始发装置是片块还是HIF的1位信号。作为另一实例,将存储器控制器130连接到始发装置的硬件总线可包含提供始发装置的识别符的多位信号。通过将识别符与参考数据进行比较,存储器控制器130确定始发装置是片块还是HIF。如果始发装置是片块,那么方法1000继续进行操作1030。如果始发装置是HIF,那么方法1000继续进行操作1040。
在操作1030中,存储器控制器130从字段(例如,上表中的片块存储器区/请求索引字段)确定数据待被写入到的片块存储器区。
替代地,在操作1040中,存储器控制器130从字段(例如,上表中的片块存储器区/请求索引字段)确定存储器请求索引。基于存储器请求索引,存储器控制器130从存储器接口消息表中的条目确定片块存储器区(操作1050)。例如,索引可乘以所述表中的每一条目的固定大小以确定从其存取数据的表内的偏移。在所述条目内,存取片块存储器区字段。在一些实例实施例中,存储器接口消息表包含下表的一或多个字段。
/>
在操作1060中,存储器控制器130将数据发送到经确定片块存储器区。因此,通过使用方法1000,使存储器控制器130能够处置源自HIF 120及片块两者的数据消息,且响应于数据消息,将数据发送到片块存储器区。方法1000可由存储器控制器130来执行以服务于在方法900的操作920中发送的来自HIF 120的请求。
在一些实例实施例中,关于图9及图10所论述的数据类型字段具有选自下表的值。
/>
图11说明实例机器1100的框图,利用所述机器、在所述机器中或通过所述机器可实施本文中所论述的任何一或多种技术(例如,方法论)。如本文中所论述,实例可包含机器1100中的逻辑或数个组件或机制,或者可由其来操作。电路系统(例如,处理电路系统)是在包含硬件(例如,简单电路、门、逻辑等)的机器1100的有形实体中实施的电路的集合。电路系统成员资格可随时间推移而变化。电路系统包含可在操作时独自地或组合地执行所指定操作的成员。在实例中,电路系统的硬件可不变地经设计以执行特定操作(例如,硬连线)。在实例中,电路系统的硬件可包含可变连接的物理组件(例如,执行单元、晶体管、简单电路等)(包含物理修改(例如,磁性地、电地、不变聚集粒子的可移动放置等)的机器可读媒体)以对特定操作的指令进行编码。在连接物理组件时,硬件构成的基础电性质例如从绝缘体变为导体,或反之亦然。所述指令使嵌入式硬件(例如,执行单元或加载机构)能够经由可变连接在硬件中创建电路系统的成员以在操作时实行特定操作的部分。因此,在实例中,机器可读媒体元件是电路系统的部分或当装置操作时通信地耦合到电路系统的其它组件。在实例中,所述物理组件中的任一者可被用于多于一个电路系统的多于一个成员中。例如,在操作中,执行单元可在一个时间点被用于第一电路系统的第一电路中且由第一电路系统中的第二电路重用,或在不同时间由第二电路系统中的第三电路重用。这些组件关于机器1100的额外实例。
在替代实施例中,机器1100可作为独立装置操作或可连接(例如,联网)到其它机器。在联网部署中,机器1100可在服务器-客户端网络环境中以服务器机器、客户端机器或两者的身份操作。在实例中,机器1100可充当对等(P2P)(或其它分布式)网络环境中的对等机器。机器1100可为个人计算机(PC)、平板PC、机顶盒(STB)、个人数字助理(PDA)、移动电话、网络器具、网络路由器、交换机或网桥,或者能够执行指令(循序或以其它方式)的任何机器,所述指令指定待由那个机器采取的动作。此外,虽然仅说明单个机器,但术语“机器”也应被理解为包含个别地或联合地执行一组(或多组)指令以执行本文中论述的任何一或多种方法论(例如云计算、软件即服务(SaaS)、其它计算机集群配置)的任何机器集合。
机器1100(例如,计算机系统)可包含硬件处理器1102(例如,中央处理单元(CPU)、图形处理单元(GPU)、硬件处理器核心或其任何组合)、主存储器1104、静态存储器1106(例如,用于固件、微码、基本输入输出(BIOS)、统一可扩展固件接口(UEFI)等的存储器或存储装置)及大容量存储装置1108(例如,硬盘驱动器、磁带驱动器、快闪存储装置或其它块装置),其中的一些或全部可经由互连链路1130(例如,总线)彼此进行通信。机器1100可进一步包含显示装置1110、字母数字输入装置1112(例如,键盘)及用户接口(UI)导航装置1114(例如,鼠标)。在实例中,显示装置1110、输入装置1112及UI导航装置1114可为触摸屏显示器。机器1100可另外包含信号产生装置1118(例如,扬声器)、网络接口装置1120及一或多个传感器1116,例如全球定位系统(GPS)传感器、指南针、加速度计或其它传感器。机器1100可包含输出控制器1128,例如串行(例如,通用串行总线(USB)、并行或者其它有线或无线(例如,红外线(IR)、近场通信(NFC)等)连接以与一或多个外围装置(例如,打印机、读卡器等)进行通信或者对其进行控制。
硬件处理器1102、主存储器1104、静态存储器1106或大容量存储装置1108的寄存器可为或包含机器可读媒体1122,所述机器可读媒体上存储有体现本文中所论述的任何一或多种技术或功能或者由其使用的一或多组数据结构或指令1124(例如,软件)。指令1124在由机器1100执行期间还可完全或至少部分地驻留在硬件处理器1102、主存储器1104、静态存储器1106或大容量存储装置1108的寄存器中的任一者内。在实例中,硬件处理器1102、主存储器1104、静态存储器1106或大容量存储装置1108中的一者或任何组合可构成机器可读媒体1122。虽然机器可读媒体1122被说明为单个媒体,但术语“机器可读媒体”可包含经配置以存储一或多个指令1124的单个媒体或多个媒体(例如,集中式或分布式数据库,或者相关联的高速缓存及服务器)。
术语“机器可读媒体”可包含能够存储、编码或携载用于由机器1100执行且致使机器1100执行本公开的任何一或多种技术的指令,或者能够存储、编码或携载由此类指令使用或与此类指令相关联的数据结构的任何媒体。非限制性机器可读媒体实例可包含固态存储器、光学媒体、磁性媒体及信号(例如,射频信号、其它基于光子的信号、声音信号等)。在实例中,非暂时性机器可读媒体包括带有具有不变(例如,静止)质量的多个粒子的机器可读媒体,且因此是物质的组合物。因此,非暂时性机器可读媒体是不包含暂时性传播信号的机器可读媒体。非暂时性机器可读媒体的具体实例可包含:非易失性存储器,例如半导体存储器装置(例如,电可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM))及快闪存储器装置;磁盘,例如内部硬盘及可卸除磁盘;磁光盘;以及CD-ROM及DVD-ROM盘。
在实例中,存储或以其它方式提供在机器可读媒体1122上的信息可代表指令1124,例如指令1124本身或可从其导出指令1124的格式。可从其导出指令1124的这种格式可包含源代码、经编码指令(例如,以经压缩或经加密形式)、经打包指令(例如,分成多个包)等。机器可读媒体1122中代表指令1124的信息可由处理电路系统处理成指令以实施本文中所论述的操作中的任一者。例如,从信息导出指令1124(例如,由处理电路处理)可包含:编译(例如,从源代码、目标代码等)、解译、加载、组织(例如,动态地或静态地链接)、编码、解码、加密、解密、打包、解包信息或以其它方式将信息操纵到指令1124中。
在实例中,指令1124的导出可包含(例如,由处理电路系统)汇编、编译或解译信息以从由机器可读媒体1122提供的一些中间或预处理格式创建指令1124。信息在以多个部分提供时可被组合、解包及修改以创建指令1124。例如,信息可在一或若干远程服务器上呈多个压缩源代码包(或目标代码,或二进制可执行代码等)。源代码包在通过网络传输时可被加密,且在必要时可被解密、解压缩、汇编(例如,链接),在本地机器处被编译或解译(例如,成库、独立可执行文件等),且由本地机器来执行。
指令1124可利用数种传送协议(例如,帧中继、因特网协议、传输控制协议(TCP)、用户数据报协议(UDP)、超文本传送协议(HTTP)等)中的一者,经由网络接口装置1120通过使用传输媒体的通信网络1126进一步传输或接收。实例通信网络可包含局域网(LAN)、广域网(WAN)、分组数据网络(例如,因特网)、移动电话网络(例如,蜂窝网络)、普通老式电话(POTS)网络及无线数据网络(例如,被称为的电气及电子工程师协会(IEEE)802.11标准族、被称为/>的IEEE 802.16标准族)、IEEE 802.15.4标准族、P2P网络等等。在实例中,网络接口装置1120可包含一或多个物理插孔(例如,以太网、同轴或电话插孔)或者一或多根天线以连接到网络1126。在实例中,网络接口装置1120可包含多根天线以使用单输入多输出(SIMO)、多输入多输出(MIMO)或多输入单输出(MISO)技术中的至少一者进行无线通信。术语“传输媒体”应被理解为包含能够存储、编码或携载用于由机器1100执行的指令的任何无形媒体,且包含数字或模拟通信信号或其它无形媒体以促进此软件的通信。传输媒体是机器可读媒体。
为了更好地说明本文中所论述的方法及设备,下文陈述一组非限制性实例实施例作为数字识别实例。
实例1是一种系统,其包括:存储器;及多个片块,其耦合到所述存储器,所述多个片块中的每一片块包括一或多个处理元件;及分派接口块,其耦合到所述存储器及所述多个片块且经配置以执行包括以下者的操作:接收识别片块及所述存储器中的地址的分派请求;从所述存储器请求将所述地址处的数据传送到经识别片块;及响应于经接收分派请求,在所述经识别片块上起始线程。
在实例2中,根据实例1所述的主题包含,其中:从主机处理器接收所述分派请求。
在实例3中,根据实例1至2所述的主题包含,其中所述从所述存储器请求所述数据包括将数据请求发送到控制对所述存储器的存取的存储器控制器小芯片。
在实例4中,根据实例1至3所述的主题包含,其中:所述分派请求进一步识别待传送的所述数据的大小;且对所述存储器的传送所述数据的所述请求识别所述大小。
在实例5中,根据实例1至4所述的主题包含,其中:所述分派请求进一步识别要将所述数据发送到所述经识别片块的数个消息。
在实例6中,根据实例1至5所述的主题包含,其中所述分派请求进一步识别所述数据的宽度。
在实例7中,根据实例1至6所述的主题包含,其中所述分派请求进一步识别所述数据待被复制到所有单输入/多输出(SIMD)通道中。
在实例8中,根据实例1至7所述的主题包含,其中所述分派请求进一步识别所述数据待被传送到所述经识别片块的基础上下文而非片块存储器。
实例9是一种存储指令的非暂时性机器可读媒体,所述指令在由耦合到主机及混合线程组构的片块的主机接口及分派模块执行时致使所述主机接口及分派模块执行包括以下者的操作:从所述主机接收识别所述片块及存储器中的地址的分派请求;从所述存储器请求将所述地址处的数据传送到经识别片块;及响应于经接收分派请求,在所述经识别片块上起始线程。
在实例10中,根据实例9所述的主题包含,其中所述从所述存储器请求所述数据包括将数据请求发送到控制对所述存储器的存取的存储器控制器小芯片。
在实例11中,根据实例9至10所述的主题包含,其中:所述分派请求进一步识别待传送的所述数据的大小;且对所述存储器的传送所述数据的所述请求识别所述大小。
在实例12中,根据实例9至11所述的主题包含,其中:所述分派请求进一步识别要将所述数据发送到所述经识别片块的数个消息。
在实例13中,根据实例9至12所述的主题包含,其中所述分派请求进一步识别所述数据的宽度。
在实例14中,根据实例9至13所述的主题包含,其中所述分派请求进一步识别所述数据待被复制到所有单输入/多输出(SIMD)通道中。
在实例15中,根据实例9至14所述的主题包含,其中所述分派请求进一步识别所述数据待被传送到所述片块的基础上下文而非片块存储器。
实例16是一种方法,其包括:接收识别片块及存储器中的地址的分派请求;从所述存储器请求将所述地址处的数据传送到经识别片块;及响应于经接收分派请求,在所述经识别片块上起始线程。
在实例17中,根据实例16所述的主题包含,其中:从主机处理器接收所述分派请求。
在实例18中,根据实例16至17所述的主题包含,其中所述从所述存储器请求所述数据包括将数据请求发送到控制对所述存储器的存取的存储器控制器小芯片。
在实例19中,根据实例16至18所述的主题包含,其中:所述分派请求进一步识别待传送的所述数据的大小;且对所述存储器的传送所述数据的所述请求识别所述大小。
在实例20中,根据实例16至19所述的主题包含,其中:所述分派请求进一步识别要将所述数据发送到所述经识别片块的数个消息。
在实例21中,根据实例16至20所述的主题包含,其中所述分派请求进一步识别所述数据的宽度。
在实例22中,根据实例16至21所述的主题包含,其中所述分派请求进一步识别所述数据待被复制到所有单输入/多输出(SIMD)通道中。
在实例23中,根据实例16至22所述的主题包含,其中所述分派请求进一步识别所述数据待被传送到所述片块的基础上下文而非片块存储器。
实例24是至少一种包含指令的机器可读媒体,所述指令由处理电路系统执行时致使所述处理电路系统执行操作以实施实例1至23中任一实例。
实例25是一种设备,其包括用以实施实例1至23中任一实例的构件。
实例26是一种系统,其用以实施实例1至23中任一实例。
实例27是一种方法,其用以实施实例1至23中任一实例。
上述详细描述包含对附图的参考,所述附图形成所述详细描述的一部分。附图以说明的方式展示其中可实践本发明的具体实施例。这些实施例在本文中也被称为“实例”。此类实例可包含除所展示或描述元件之外的元件。然而,本发明人也考虑其中仅提供那些所展示或描述元件的实例。此外,对于特定实例(或者其一或多个方面),或者对于本文中所展示或描述的其它实例(或者其一或多个方面),本发明人还考虑使用那些所展示或描述元件(或者其一或多个方面)的任何组合或排列的实例。
在本文献中,如专利文献中常用,术语“一(a)”或“一(an)”被用来包含一或多于一个,而与“至少一个”或“一或多个”的任何其它例子或用法无关。在本文献中,术语“或”被用指代非排他性“或”,使得“A或B”可包含“A而非B”、“B而非A”以及“A及B”,除非另有指示。在所附权利要求书中,术语“包含”及“其中(in which)”被用作相应术语“包括”及“其中(wherein)”的简明英语等效词。而且,在所附权利要求书中,术语“包含”及“包括”是开放式的,即,包含除在一权利要求中在此术语之后列出的元件之外的元件的系统、装置、物品或过程仍然被认为落入那个权利要求的范围内。此外,在所附权利要求书中,术语“第一”、“第二”、“第三”及类似者仅仅被用作标签且并不意在对它们的对象施加数值要求。
上述描述意在说明性的而非限制性的。例如,上述实例(或者其一或多个方面)可彼此组合地使用。例如,所属领域的一般技术人员在审阅上述描述后可使用其它实施例。提交时应理解是,其将不被用来解释或限制权利要求书的范围或含义。而且,在上述详细描述中,各种特征可被分组在一起以简化本公开。这不应被解释为意指非要求的所公开特征对于任何权利要求是必不可少的。相反,发明主题可在于少于特定所公开实施例的所有特征。因此,所附权利要求书由此并入到所述详细描述中,其中每一权利要求自身要求作为单独实施例,且经考虑,此类实施例可以各种组合或排列彼此组合。本发明的范围应参考所附权利要求书连同此权利要求书所授权的等效物的全范围来确定。
Claims (23)
1.一种系统,其包括:
存储器;及
多个片块,其耦合到所述存储器,所述多个片块中的每一片块包括一或多个处理元件;及
分派接口块,其耦合到所述存储器及所述多个片块且经配置以执行包括以下者的操作:
接收识别片块及所述存储器中的地址的分派请求;
从所述存储器请求将所述地址处的数据传送到经识别片块;及
响应于经接收分派请求,在所述经识别片块上起始线程。
2.根据权利要求1所述的系统,其中:
从主机处理器接收所述分派请求。
3.根据权利要求1所述的系统,其中所述从所述存储器请求所述数据包括将数据请求发送到控制对所述存储器的存取的存储器控制器小芯片。
4.根据权利要求1所述的系统,其中:
所述分派请求进一步识别待传送的所述数据的大小;且
对所述存储器的传送所述数据的所述请求识别所述大小。
5.根据权利要求1所述的系统,其中:
所述分派请求进一步识别要将所述数据发送到所述经识别片块的数个消息。
6.根据权利要求1所述的系统,其中所述分派请求进一步识别所述数据的宽度。
7.所述系统权利要求1,其中所述分派请求进一步识别所述数据待被复制到所有单输入/多输出(SIMD)通道中。
8.根据权利要求1所述的系统,其中所述分派请求进一步识别所述数据待被传送到所述经识别片块的基础上下文而非片块存储器。
9.一种存储指令的非暂时性机器可读媒体,所述指令在由耦合到主机及混合线程组构的片块的主机接口及分派模块执行时致使所述主机接口及分派模块执行包括以下者的操作:
从所述主机接收识别所述片块及存储器中的地址的分派请求;
从所述存储器请求将所述地址处的数据传送到经识别片块;及
响应于经接收分派请求,在所述经识别片块上起始线程。
10.根据权利要求9所述的非暂时性机器可读媒体,其中所述从所述存储器请求所述数据包括将数据请求发送到控制对所述存储器的存取的存储器控制器小芯片。
11.根据权利要求9所述的非暂时性机器可读媒体,其中:
所述分派请求进一步识别待传送的所述数据的大小;且
对所述存储器的传送所述数据的所述请求识别所述大小。
12.根据权利要求9所述的非暂时性机器可读媒体,其中:
所述分派请求进一步识别要将所述数据发送到所述经识别片块的数个消息。
13.根据权利要求9所述的非暂时性机器可读媒体,其中所述分派请求进一步识别所述数据的宽度。
14.根据权利要求9所述的非暂时性机器可读媒体,其中所述分派请求进一步识别所述数据待被复制到所有单输入/多输出(SIMD)通道中。
15.根据权利要求9所述的非暂时性机器可读媒体,其中所述分派请求进一步识别所述数据待被传送到所述片块的基础上下文而非片块存储器。
16.一种方法,其包括:
接收识别片块及存储器中的地址的分派请求;
从所述存储器请求将所述地址处的数据传送到经识别片块;及
响应于经接收分派请求,在所述经识别片块上起始线程。
17.根据权利要求16所述的方法,其中:
从主机处理器接收所述分派请求。
18.根据权利要求16所述的方法,其中所述从所述存储器请求所述数据包括将数据请求发送到控制对所述存储器的存取的存储器控制器小芯片。
19.根据权利要求16所述的方法,其中:
所述分派请求进一步识别待传送的所述数据的大小;且
对所述存储器的传送所述数据的所述请求识别所述大小。
20.根据权利要求16所述的方法,其中:
所述分派请求进一步识别要将所述数据发送到所述经识别片块的数个消息。
21.根据权利要求16所述的方法,其中所述分派请求进一步识别所述数据的宽度。
22.根据权利要求16所述的方法,其中所述分派请求进一步识别所述数据待被复制到所有单输入/多输出(SIMD)通道中。
23.根据权利要求16所述的方法,其中所述分派请求进一步识别所述数据待被传送到所述片块的基础上下文而非片块存储器。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US17/360,455 | 2021-06-28 | ||
US17/360,455 US11789642B2 (en) | 2021-06-28 | 2021-06-28 | Loading data from memory during dispatch |
PCT/US2022/029007 WO2023278015A1 (en) | 2021-06-28 | 2022-05-12 | Loading data from memory during dispatch |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117581200A true CN117581200A (zh) | 2024-02-20 |
Family
ID=84543178
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202280045776.8A Pending CN117581200A (zh) | 2021-06-28 | 2022-05-12 | 在分派期间从存储器加载数据 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11789642B2 (zh) |
CN (1) | CN117581200A (zh) |
WO (1) | WO2023278015A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11815935B2 (en) * | 2022-03-25 | 2023-11-14 | Micron Technology, Inc. | Programming a coarse grained reconfigurable array through description of data flow graphs |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5717882A (en) * | 1994-01-04 | 1998-02-10 | Intel Corporation | Method and apparatus for dispatching and executing a load operation to memory |
US20030158842A1 (en) * | 2002-02-21 | 2003-08-21 | Eliezer Levy | Adaptive acceleration of retrieval queries |
US20060259665A1 (en) | 2005-05-13 | 2006-11-16 | Sanjive Agarwala | Configurable multiple write-enhanced direct memory access unit |
US8122229B2 (en) * | 2007-09-12 | 2012-02-21 | Convey Computer | Dispatch mechanism for dispatching instructions from a host processor to a co-processor |
GB2459331B (en) * | 2008-04-24 | 2012-02-15 | Icera Inc | Direct Memory Access (DMA) via a serial link |
US8296411B2 (en) * | 2010-03-01 | 2012-10-23 | International Business Machines Corporation | Programmatically determining an execution mode for a request dispatch utilizing historic metrics |
JP6083687B2 (ja) | 2012-01-06 | 2017-02-22 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 分散計算方法、プログラム、ホストコンピュータおよび分散計算システム(アクセラレータ装置を用いた分散並列計算) |
US9606729B2 (en) * | 2013-03-15 | 2017-03-28 | Skyera, Llc | Apparatus and method for insertion and deletion in multi-dimensional to linear address space translation |
US9454310B2 (en) * | 2014-02-14 | 2016-09-27 | Micron Technology, Inc. | Command queuing |
US10390114B2 (en) * | 2016-07-22 | 2019-08-20 | Intel Corporation | Memory sharing for physical accelerator resources in a data center |
US10209887B2 (en) * | 2016-12-20 | 2019-02-19 | Texas Instruments Incorporated | Streaming engine with fetch ahead hysteresis |
US10417734B2 (en) * | 2017-04-24 | 2019-09-17 | Intel Corporation | Compute optimization mechanism for deep neural networks |
US10747954B2 (en) * | 2017-10-31 | 2020-08-18 | Baidu Usa Llc | System and method for performing tasks based on user inputs using natural language processing |
US11093251B2 (en) | 2017-10-31 | 2021-08-17 | Micron Technology, Inc. | System having a hybrid threading processor, a hybrid threading fabric having configurable computing elements, and a hybrid interconnection network |
US11487473B2 (en) * | 2018-07-23 | 2022-11-01 | SK Hynix Inc. | Memory system |
US11914860B2 (en) * | 2018-08-20 | 2024-02-27 | Macronix International Co., Ltd. | Data storage for artificial intelligence-based applications |
US11281579B2 (en) | 2020-01-28 | 2022-03-22 | Intel Corporation | Cryptographic separation of MMIO on device |
US11669274B2 (en) * | 2021-03-31 | 2023-06-06 | Advanced Micro Devices, Inc. | Write bank group mask during arbitration |
-
2021
- 2021-06-28 US US17/360,455 patent/US11789642B2/en active Active
-
2022
- 2022-05-12 WO PCT/US2022/029007 patent/WO2023278015A1/en active Application Filing
- 2022-05-12 CN CN202280045776.8A patent/CN117581200A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
US11789642B2 (en) | 2023-10-17 |
US20220413742A1 (en) | 2022-12-29 |
WO2023278015A1 (en) | 2023-01-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20240192955A1 (en) | Loop execution in a reconfigurable compute fabric using flow controllers for respective synchronous flows | |
CN117296048A (zh) | 传输具有不同延时的请求类型 | |
CN118043815A (zh) | 调试数据流计算机架构 | |
CN114691354A (zh) | 动态分解及线程分配 | |
CN118043796A (zh) | 存储器计算系统中的基于片块的结果缓冲 | |
CN118076944A (zh) | 可重新配置计算组构中的循环执行期间的数据存储 | |
CN118043795A (zh) | 用于粗粒度可重新配置架构的掩蔽 | |
US20240086324A1 (en) | High bandwidth gather cache | |
CN117581200A (zh) | 在分派期间从存储器加载数据 | |
CN117795496A (zh) | 可重新配置计算组构中的并行矩阵运算 | |
CN118043792A (zh) | 提供事件消息的可靠接收的机制 | |
US11762661B2 (en) | Counter for preventing completion of a thread including a non-blocking external device call with no-return indication | |
CN117546133A (zh) | 缓解具有多个存储器控制器的系统上的存储器热点 | |
CN118119933A (zh) | 用于触发协作进程的提前终止的机制 | |
CN117280332A (zh) | 通过具有多个片上系统的结构避免死锁 | |
US11861366B2 (en) | Efficient processing of nested loops for computing device with multiple configurable processing elements using multiple spoke counts | |
US20240070112A1 (en) | Context load mechanism in a coarse-grained reconfigurable array processor | |
US20240028526A1 (en) | Methods and systems for requesting atomic operations in a computing system | |
US20230055320A1 (en) | Loop execution in a reconfigurable compute fabric. | |
CN117435548A (zh) | 用于硬件组件之间的通信的方法和系统 | |
CN117632256A (zh) | 用于处置多元件处理器中的断点的装置及方法 | |
CN117435549A (zh) | 用于硬件组件之间的通信的方法和系统 | |
CN118056181A (zh) | 链式资源锁定 | |
CN117632403A (zh) | 在用于管理危险清除的桶形处理器中停驻线程 | |
CN118043794A (zh) | 粗粒度可重新配置的架构中的连接性 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |