CN118043796A - 存储器计算系统中的基于片块的结果缓冲 - Google Patents
存储器计算系统中的基于片块的结果缓冲 Download PDFInfo
- Publication number
- CN118043796A CN118043796A CN202280065245.5A CN202280065245A CN118043796A CN 118043796 A CN118043796 A CN 118043796A CN 202280065245 A CN202280065245 A CN 202280065245A CN 118043796 A CN118043796 A CN 118043796A
- Authority
- CN
- China
- Prior art keywords
- memory
- output
- register
- information
- delay
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000015654 memory Effects 0.000 title claims description 360
- 230000003139 buffering effect Effects 0.000 title description 5
- 239000004744 fabric Substances 0.000 claims abstract description 81
- 238000012545 processing Methods 0.000 claims abstract description 25
- 238000000034 method Methods 0.000 claims description 48
- 238000004364 calculation method Methods 0.000 claims description 37
- 239000000872 buffer Substances 0.000 claims description 22
- 230000001419 dependent effect Effects 0.000 claims description 2
- 230000004044 response Effects 0.000 abstract description 4
- 230000001360 synchronised effect Effects 0.000 description 95
- 238000004891 communication Methods 0.000 description 34
- 238000013461 design Methods 0.000 description 12
- 230000005540 biological transmission Effects 0.000 description 10
- 230000002093 peripheral effect Effects 0.000 description 9
- 230000008901 benefit Effects 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 7
- 238000012546 transfer Methods 0.000 description 7
- 239000000758 substrate Substances 0.000 description 6
- 238000013519 translation Methods 0.000 description 6
- 238000004519 manufacturing process Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000003068 static effect Effects 0.000 description 5
- 230000000903 blocking effect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000007726 management method Methods 0.000 description 4
- 238000013507 mapping Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000007792 addition Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000012937 correction Methods 0.000 description 3
- 238000007667 floating Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000012423 maintenance Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000005192 partition Methods 0.000 description 3
- 230000011664 signaling Effects 0.000 description 3
- 230000000153 supplemental effect Effects 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 238000004806 packaging method and process Methods 0.000 description 2
- 239000002245 particle Substances 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 108091074834 12 family Proteins 0.000 description 1
- 102100035964 Gastrokine-2 Human genes 0.000 description 1
- 101001075215 Homo sapiens Gastrokine-2 Proteins 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 230000004888 barrier function Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 229920003211 cis-1,4-polyisoprene Polymers 0.000 description 1
- 239000004020 conductor Substances 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 239000012530 fluid Substances 0.000 description 1
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 description 1
- 230000020169 heat generation Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 239000012212 insulator Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 239000011295 pitch Substances 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000008054 signal transmission Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 235000013599 spices Nutrition 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/30—Arrangements for executing machine instructions, e.g. instruction decode
- G06F9/30003—Arrangements for executing specific machine instructions
- G06F9/30076—Arrangements for executing specific machine instructions to perform miscellaneous control operations, e.g. NOP
- G06F9/30079—Pipeline control instructions, e.g. multicycle NOP
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F15/00—Digital computers in general; Data processing equipment in general
- G06F15/16—Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs
- G06F15/163—Interprocessor communication
- G06F15/167—Interprocessor communication using a common memory, e.g. mailbox
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F15/00—Digital computers in general; Data processing equipment in general
- G06F15/76—Architectures of general purpose stored program computers
- G06F15/78—Architectures of general purpose stored program computers comprising a single central processing unit
- G06F15/7807—System on chip, i.e. computer system on a single chip; System in package, i.e. computer system on one or more chips in a single package
- G06F15/7825—Globally asynchronous, locally synchronous, e.g. network on chip
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F15/00—Digital computers in general; Data processing equipment in general
- G06F15/76—Architectures of general purpose stored program computers
- G06F15/78—Architectures of general purpose stored program computers comprising a single central processing unit
- G06F15/7867—Architectures of general purpose stored program computers comprising a single central processing unit with reconfigurable architecture
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F7/00—Methods or arrangements for processing data by operating upon the order or content of the data handled
- G06F7/38—Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation
- G06F7/48—Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices
- G06F7/52—Multiplying; Dividing
- G06F7/523—Multiplying only
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/30—Arrangements for executing machine instructions, e.g. instruction decode
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/30—Arrangements for executing machine instructions, e.g. instruction decode
- G06F9/30003—Arrangements for executing specific machine instructions
- G06F9/3005—Arrangements for executing specific machine instructions to perform operations for flow control
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/30—Arrangements for executing machine instructions, e.g. instruction decode
- G06F9/30003—Arrangements for executing specific machine instructions
- G06F9/30076—Arrangements for executing specific machine instructions to perform miscellaneous control operations, e.g. NOP
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/30—Arrangements for executing machine instructions, e.g. instruction decode
- G06F9/30003—Arrangements for executing specific machine instructions
- G06F9/30076—Arrangements for executing specific machine instructions to perform miscellaneous control operations, e.g. NOP
- G06F9/3009—Thread control instructions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/30—Arrangements for executing machine instructions, e.g. instruction decode
- G06F9/38—Concurrent instruction execution, e.g. pipeline or look ahead
- G06F9/3836—Instruction issuing, e.g. dynamic instruction scheduling or out of order instruction execution
- G06F9/3851—Instruction issuing, e.g. dynamic instruction scheduling or out of order instruction execution from multiple instruction streams, e.g. multistreaming
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computer Hardware Design (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Pure & Applied Mathematics (AREA)
- Computational Mathematics (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- Microelectronics & Electronic Packaging (AREA)
- Logic Circuits (AREA)
- Multi Processors (AREA)
Abstract
可重新配置计算组构可包含多个节点,且每一节点可包含具有相应处理及存储元件的多个片块。第一节点中的第一片块可包含:处理器,其具有处理器输出;及第一寄存器网络,其经配置以接收来自所述处理器输出的信息及来自所述第一节点中的多个其它片块中的一或多者的信息。响应于输出指令及延迟指令,所述寄存器网络可将输出信号提供到所述第一节点中的所述多个其它片块中的一者。基于所述输出指令,所述输出信号可包含来自所述处理器输出的所述信息及来自所述第一节点中的所述多个其它片块中的一或多者的所述信息中的一者或另一者。所述输出信号的时序特性可取决于所述延迟指令。
Description
本申请主张2021年8月20日提交的第17/407,502号美国专利申请的优先权的权益,所述申请的全文以引用的方式并入本文中。
背景技术
各种计算机架构(例如冯·诺依曼(Von Neumann)架构)常规上使用数据的共享存储器、用于存取共享存储器的总线、算术单元及程序控制单元。然而,在处理器与存储器之间移动数据可能需要大量的时间及能量,这又可能约束计算机系统的性能及容量。鉴于这些限制,期望新的计算架构及装置以使计算性能超越晶体管微缩(即,摩尔定律)的实践。
附图说明
为了便于识别任何特定元件或动作的论述,参考编号中的最高有效数字或若干最高有效数字指代其中首次出现那个元件的图号。
图1大体上说明根据实施例的在存储器计算系统的背景下的第一存储器计算装置的第一实例。
图2大体上说明根据实施例的存储器计算装置的存储器子系统的实例。
图3大体上说明根据实施例的用于存储器控制器的可编程原子单元的实例。
图4说明根据实施例的存储器计算装置的混合线程处理器(HTP)加速器的实例。
图5说明根据实施例的存储器计算装置的混合线程组构(HTF)的表示的实例。
图6A大体上说明根据实施例的小芯片系统的实例。
图6B大体上说明展示来自图6A的实例的小芯片系统中的各种组件的框图。
图7大体上说明根据实施例的存储器计算装置的基于小芯片的实施方案的实例。
图8说明根据实施例的存储器计算装置小芯片的实例平铺。
图9A大体上说明延迟寄存器的实例。
图9B大体上说明输出寄存器的实例。
图10大体上说明可重新配置计算组构的一部分中可包含延迟及输出寄存器的寄存器网络的实例。
图11大体上说明可包含使用延迟及输出寄存器来控制可重配置计算组构中的信息流的方法的实例。
图12说明实例机器的框图,利用所述机器、在所述机器中或通过所述机器可实施本文中所论述的任何一或多种技术(例如,方法论)。
具体实施方式
可利用材料、装置及集成技术的最新进展来提供以存储器为中心的计算拓扑。例如,对于受大小、重量或功率要求约束的应用,此类拓扑可实现计算效率及工作负载处理量的提升。所述拓扑可被用来促进存储器或其它数据存储元件附近或内部的低延时计算。所述方法可特别适用于具有稀疏查找的各种计算密集型操作,例如在变换计算(例如,快速傅里叶变换计算(FFT))中,或在例如神经网络或人工智能(AI)、金融分析或者例如针对计算流体动力学(CFD)、增强型工程师声学模拟器(EASE)、以集成电路为核心的模拟程序(SPICE)等等的模拟或建模的应用中。
本文中所论述的系统、装置及方法可包含或使用具有处理器或处理能力的存储器计算系统,所述存储器计算系统提供在存储器或数据存储组件中、附近或与其集成在一起。此类系统在本文中通常被称为近存储器计算(CNM)系统。CNM系统可为基于节点的系统,其中所述系统中的个别节点使用系统缩放组构来耦合。每一节点可包含或使用专用或通用处理器及用户可存取加速器与定制计算组构来促进密集型操作,特别是在预期较高高速缓存未命中率的环境中。
在实例中,CNM系统中的每一节点可具有一或若干主机处理器。在每一节点内,专用混合线程处理器可占据芯片上网络的离散端点。混合线程处理器可存取所述系统的特定节点中的存储器的一些或全部,或者混合线程处理器可经由系统缩放组构跨多个节点的网络存取存储器。每一节点处的定制计算组构或混合线程组构(HTF)可具有(若干)其自身处理器或加速器或存储器且可在比混合线程处理器更高的带宽下操作。可不同地配置近存储器计算系统中的不同节点,例如具有不同计算能力、不同类型的存储器、不同接口或其它差异。然而,所述节点可共同地经耦合以在所定义地址空间内共享数据及计算资源。
在实例中,近存储器计算系统或所述系统内的节点可由用户进行配置以用于定制操作。用户可使用高级编程语言(例如C/C++)提供指令,所述指令可被编译及直接映射到所述系统或者CNM系统中的一或多个节点的数据流架构中。即,所述系统中的节点可包含可经配置以直接实施或支持用户指令以由此增强系统性能且减少延时的硬件块(例如,存储器控制器、原子单元、其它客户加速器等)。
在实例中,近存储器计算系统可特别适合于实施指令及嵌套循环(例如,两个、三个或更多个深度循环,或者多维循环)的层次结构。标准编译器可被用来接受高级语言指令且又直接编译成所述节点中的一或多者的数据流架构。例如,所述系统中的节点可包含混合线程组构加速器。混合线程组构加速器可在CNM系统的用户空间中执行且可启动其自身线程或子线程,所述线程或子线程可并行操作。每一线程可映射到不同循环迭代以由此支持多维循环。凭借启动此类嵌套循环的能力以及其它能力,CNM系统可为计算密集型操作实现显著的时间节省及延时改进。
近存储器计算系统或者近存储器计算系统的节点或组件可包含或使用各种存储器装置、控制器及互连件等等。在实例中,所述系统可包括各种互连节点,且所述节点或节点群组可使用小芯片来实施。小芯片是一种用于集成各种处理功能性的新兴技术。通常,小芯片系统由集成在中介层上且封装在一起的离散芯片(例如,不同衬底或裸片上的集成电路(IC))组成。这种布置不同于在一个衬底(例如,单个裸片)上含有不同装置块(例如,知识产权(IP)块)的单个芯片(例如,IC)(例如芯片上系统(SoC))或集成在板上的离散封装装置。一般来说,小芯片提供优于单裸片芯片的生产效益,包含更高的良率或降低的开发成本。下文所论述的图6A及图6B大体上说明例如可包括近存储器计算系统的小芯片系统的实例。
在一些实例中,近存储器计算系统经编程以将可重新配置计算组构(例如本文中所描述的混合线程组构(HTF))的组件布置成一或多个同步流。可重新配置计算组构包括可经布置以形成一或多个同步流的一或多个硬件流控制器及一或多个硬件计算元件,如本文中所描述。
计算元件包括计算元件存储器及形成用于处理经接收数据的计算流水线的处理器或其它合适逻辑电路系统。在一些实例中,计算元件包括多个并行处理通道,例如单指令多数据(SIMD)处理通道。计算元件还包括用于将同步及异步消息发送及接收到流控制器、其它计算元件及其它系统组件的电路系统,如本文中所描述。本文中关于HTF片块(例如图5的片块504、510、512)描述实例计算元件。
流控制器可包含用于管理同步流的处理器或其它逻辑电路系统,如本文中所描述。流控制器包括用于将同步及异步消息发送到计算元件、其它流控制器及其它系统组件的电路系统,如本文中所描述。在一些实例中,流控制器使用本文中所描述的HTF片块504、510、512中的一或多者的片块基础来实施。
同步流可包含布置在包括硬件流控制器及一组一或多个硬件计算元件之间的有序同步数据路径的可重新配置计算组构中的硬件。同步流可执行一或多个工作线程。为了执行线程,同步流的硬件组件传递同步消息且按同步流的顺序执行一组预定操作。
本发明人已尤其认识到,待解决的问题可包含避免线程或经编译HTF计算内核中例如可能由流中的被占据或被阻塞的路由路径引起的延时。所述问题的解决方案可在组构中的每一片块处包含或使用一或多个延迟寄存器。在实例中,所述解决方案包含流水线延迟及输出寄存器,其中延迟寄存器是每一对应输出寄存器的物理复制品。延迟寄存器可为计算结果提供缓冲位置,所述计算结果例如可在进一步处理之前或者在输出到另一片块或组构位置之前存储达一或多个时钟周期。由延迟寄存器或若干延迟寄存器进行的此缓冲可帮助释放对应的所连接输出寄存器,通过所述输出寄存器可路由新结果或其它结果,由此增强HTF中的每一片块的吞吐量。
在实例中,线程在同步流的所有计算元件按同步流的预定顺序完成它们的经编程操作时完成。当线程完成时,同步消息的流水线将在流控制器处开始按同步流的预定顺序在各种计算元件之间传播。因为所述布置是同步的,所以线程的完成可在固定的时间量(例如,从流控制器启动同步流算起的可预测数目个时钟周期)内发生。
包含同步流的HTF的布置可促进并行处理。例如,用于同步流的流控制器不需要在启动额外线程之前等待一个线程完成。考虑包含流控制器及多个计算元件的实例同步流。流控制器通过将同步消息提供到同步流的第一计算元件来启动第一线程。第一计算元件可执行其处理且将第二同步消息引导到下一计算元件,以此类推。在第一计算元件完成其处理且将同步消息引导到下一计算元件之后,流控制器可例如通过将额外同步消息提供到第一计算元件来启动同步流处的额外线程。专用的延迟及输出寄存器可帮助协调同一流或并行流的一或多个组件的时序。
同步流在可重新配置计算组构处的并行化可使用以预定义节奏或辐条计数操作的计算元件,例如使用本文中所描述的各种片块。例如,计算元件可使用预定数个时钟周期来执行各种操作,例如接收同步消息、执行处理操作、发送同步消息等。计算元件可经配置以接收新同步消息且在来自先前线程的操作仍在传播通过不同计算元件时开始一个线程的操作。新线程可为先前线程的相同同步流的不同线程或可为不同同步流的线程。
同步流可使用可重新配置计算组构的异步组构来使用异步消息与可重新配置计算组构的其它同步流及/或其它组件进行通信。例如,流控制器可从分派接口及/或从另一流控制器接收指示流控制器开始作为同步流的线程的异步消息。分派接口可在可重新配置计算组构与其它系统组件之间进行对接。而且,在一些实例中,同步流可将用以指示线程完成的异步消息发送到分派接口。
异步消息可被同步流用来存取存储器。例如,可重新配置计算组构可包含一或多个存储器接口。存储器接口是可被同步流或其组件用来存取不是同步流的部分的外部存储器的硬件组件。在同步流处执行的线程可包含将读取及/或写入请求发送到存储器接口。因为读取及写入是异步的,所以向存储器接口启动读取或写入请求的线程可能不会接收到请求的结果。代替地,读取或写入请求的结果可被提供到在不同同步流处执行的不同线程。所述片块中的一或多者中的延迟及输出寄存器可例如通过对一个片块的特定计算资源参与关于第一流的数据到达进行精确定时来帮助协调及最大化第一流的效率。所述寄存器可帮助使同一片块的特定计算资源能够例如在第一流停留或等待其它数据或操作完成的同时被重用于除第一流之外的流。此类其它数据或操作可取决于所述组构上的一或多个其它资源。
在实例中,可重新配置计算组构可使用用于启动读取请求的第一同步流及用于接收读取请求的结果的第二同步流。第一同步流处的第一线程可将异步读取请求消息发送到存储器接口。第一线程还可将异步继续型消息发送到第二同步流的流控制器,其中所述继续消息指示读取请求。存储器接口从存储器获取经请求数据且将读取数据引导到第二同步流的适当计算元件。计算元件接着将指示数据已被接收的异步消息引导到第二流控制器。在一些实例中,存储器接口将读取数据直接提供提供到第二流控制器。在接收到读取数据已被接收的指示之后,第二流控制器启动第二同步流处的线程以进一步处理读取请求的结果。
在一些实例中,可重新配置计算组构(例如本文中所描述的HTF)被用来执行一或多个循环,例如一组嵌套循环。为了执行循环,可重配置计算组构可使用布置成一或多个同步流的流控制器及计算元件,如本文中所描述。例如,用于同步流的流控制器可针对循环的每次迭代启动同步流处的线程。考虑下文由代码段[1]给出的简单循环实例:
[1]:
for i=1,10{
x[i]=x[i-1]*2;
saveMem=x[i];
}
流控制器可通过针对i=1循环迭代启动同步流处的第一线程来开始实例循环。在这个实例中,x[i-1]的初始值通过流控制器与初始同步消息的有效负载数据一起传递到第一计算元件。同步流的计算元件或若干计算元件确定x[1]的值且将x[1]的值作为同步或异步消息返回到流控制器。流控制器接着针对i=2循环迭代启动同步流处的第二线程,从而在同步消息中将x[1]的经返回值作为x[i-1]进行传递。这个过程继续进行,直到循环的所有迭代完成且x[10]的值被返回为止。
上述实例循环对于循环的每次迭代使用单个同步流。然而,在一些实例中,可对于每次循环迭代使用多个同步流。考虑由下文代码段[2]给出的实例循环:
[2]:
for i=1,10{
x[i]=i*y[i];
saveMem=x[i];
}
在这个实例中,每次循环迭代涉及将i乘以从存储器读取的值y[i],且接着将结果写入到存储器。因此,每次循环迭代包含异步存储器读取及异步存储器写入。如本文中所描述,存储器读取涉及将异步消息发送到存储器接口且接着等待存储器接口用包含经请求数据的另一异步消息进行回复。因为存储器读取是异步的,所以每次循环迭代可使用在两个不同同步流处执行的同步流线程。对于i=1循环迭代,第一同步流处的线程将包含针对y[1]的值的读取请求的异步消息发送到存储器接口。第一同步流处的线程还可将指示第二流控制器期待读取请求的结果(直接来自存储器接口抑或来自已接收到读取数据的第二同步流的计算元件)的异步消息发送到第二同步流的第二流控制器。存储器接口启动y[1]值的读取且经由异步消息将y[1]的值提供到第二同步流。在接收到指示读取数据被接收的异步消息时,第二流控制器启动第二同步流处的线程。(y[1]的经返回值可例如经由线程的同步通信及/或在线程启动之前直接从存储器接口提供到计算元件。)第二线程确定x[1]的值且将包含针对x[1]的写入请求的同步消息发送到存储器接口。
在一些实例中,同步流控制器可在同步流处启动的线程的数目受同步流的组件的资源的限制。例如,同步流的线程可将数据写入到同步流计算元件处的各种本地计算元件存储器。如果同时启动太多同步流线程,那么一些同步流线程可能缺乏足够的本地存储器或其它资源。这可阻止同步流线程写入其数据及/或致使其覆写其它同步流线程的本地存储数据。
为了阻止这种情况,可重新配置计算组构可限制可在给定时间启动的同步流线程的数目。例如,可重配置计算组构可实施线程识别符(ID)的池。流控制器可确定线程ID在实施同步流线程之前可用。在一些实例中,同步流线程的同步消息可包含给定线程的线程ID的指示。
当同步流线程完成时,其可将异步自由消息发送例如到启动同步流线程的流控制器。这向流控制器指示所完成同步流线程的线程ID(及相关联资源)现在可供新步流线程使用。
当同步流被用来执行循环时,执行循环的不同迭代的同步流线程可能需要从存储器读取数据及/或将数据写入到存储器。例如,在同步流线程的执行期间,一或多个计算元件可从计算元件存储器读取特定于当前循环迭代的操作数数据。类似地,一或多个计算元件可将特定于当前循环迭代的结果数据写入到计算元件或片块特定存储器。此外,在一些实例中,在同步流线程的执行期间,计算元件可经由存储器接口对外部存储器进行循环迭代特定读取或写入。这些读取、写入、计算或其它操作可能产生会降低系统效率及资源使用率的时序问题。例如,当数据通过系统中的同一或其它计算元件移动时,计算资源可能在各种时钟周期期间未使用或未充分使用。本文中所论述的系统及方法可包含或使用具有环回或反馈路径的计算元件延迟寄存器以例如通过避免输出寄存器阻塞或避免对暂时存储位置进行无关读取或写入操作来帮助协调流线程及提高资源使用率。
当同步流的计算元件在执行循环迭代的同时对存储器进行读取及/或写入时,计算元件可对特定于正在执行的循环迭代的存储器位置进行读取及/或写入。例如,如果执行第一次循环迭代的同步流线程从计算元件存储器处的第一位置读取操作数数据,那么执行第二次迭代的同步流线程可从不同位置读取其操作数数据。执行第三次迭代的同步流线程可从又一不同位置读取其操作数数据,以此类推。类似地,同步流可经布置使得线程将结果数据写入到循环迭代特定存储器位置。尤其取决于数据位置,此类读取及写入操作可使用各种不同数目个时钟周期来检索数据或将数据发送到特定目的地,这又可在特定计算元件处引入停留时间。如果可优化计算元件处的资源以在不同流线程之间或当中高效地切换,那么可在停留时间期间任选地执行其它操作。在实例中,本文中所论述的延迟寄存器可被用来帮助控制此类流线程。
图1大体上说明近存储器计算系统或CNM系统102的第一实例。CNM系统102的实例包含例如可各自包含各种近存储器计算装置的多个不同存储器计算节点。所述系统中的每一节点可在其自身操作系统(OS)域(例如,Linux等等)中操作。在实例中,所述节点可共同存在于CNM系统102的共同OS域中。
图1的实例包含CNM系统102的第一存储器计算节点104的实例。CNM系统102可具有使用缩放组构106耦合的多个节点,例如包含第一存储器计算节点104的不同例子。在实例中,CNM系统102的架构可支持使用缩放组构106按比例放大到n个不同存储器计算节点(例如,n=4096)。如下文进一步论述,CNM系统102中的每一节点可为多个装置的组合件。
CNM系统102可包含用于所述系统中的各种节点的全局控制器,或所述系统中的特定存储器计算节点可任选地充当同一系统中的一或多个其它存储器计算节点的主机或控制器。因此,可类似地或不同地配置CNM系统102中的各种节点。
在实例中,CNM系统102中的每一节点可包括使用所指定操作系统的主机系统。所述操作系统在CNM系统102中的各种节点当中可为共同或不同的。在图1的实例中,第一存储器计算节点104包括主机系统108、第一交换机110及第一存储器计算装置112。主机系统108可包括处理器,例如可包含X86、ARM、RISC-V或其它类型的处理器。第一交换机110可经配置以促进例如使用专用或其它通信协议(本文中统称为芯片到芯片协议接口(CTCPI))在第一存储器计算节点104或CNM系统102的装置之间或当中进行通信。即,CTCPI可包含专属于CNM系统102的专用接口,或者可包含或使用其它接口,例如计算快速链路(CXL)接口、外围组件互连快速(PCIe)接口或小芯片协议接口(CPI)等等。第一交换机110可包含经配置以使用CTCPI的交换机。例如,第一交换机110可包含CXL交换机、PCIe交换机、CPI交换机或其它类型的交换机。在实例中,第一交换机110可经配置以耦合以不同方式配置的端点。例如,第一交换机110可经配置以例如在PCIe与CPI格式之间转换分组格式,等等。
本文中描述呈各种实例配置的CNM系统102,例如包括节点的系统,且每一节点可包括各种芯片(例如,处理器、交换机、存储器装置等)。在实例中,CNM系统102中的第一存储器计算节点104可包含使用小芯片实施的各种芯片。在CNM系统102的下述基于小芯片的配置中,小芯片间通信以及所述系统内的额外通信可使用CPI网络。本文中所描述的CPI网络是CTCPI的实例,即,作为CTCPI的小芯片特定实施方案。因此,CPI的下述结构、操作及功能性可同样适用于如可使用非基于小芯片的CTCPI实施方案实施的结构、操作及功能。除非另有明确地指示,否则本文中对CPI的任何论述同样适用于CTCPI。
CPI接口包含支持虚拟信道以实现小芯片之间的灵活及高速交互的基于分组的网络,例如可包括第一存储器计算节点104或CNM系统102的部分。CPI可实现从小芯片内网络到更广泛小芯片网络的桥接。例如,高级可扩展接口(AXI)是一种用于芯片内通信的规范。然而,AXI规范涵盖多种物理设计选项,例如物理信道的数目、信号时序、功率等。在单个芯片中,通常选择这些选项来满足设计目标,例如功耗、速度等。然而,为了实现基于小芯片的存储器计算系统的灵活性,例如使用CPI的适配器可在能够在各种小芯片中实施的各种AXI设计选项之间进行对接。通过实现物理信道到虚拟信道的映射以及用分组化协议封装基于时间的信令,CPI可被用来例如在特定存储器计算节点内跨更广泛小芯片网络(例如跨第一存储器计算节点104或跨CNM系统102)桥接小芯片内网络。
CNM系统102可缩放以包含多节点配置。即,第一存储器计算节点104或其它以不同方式配置的存储器计算节点的多个不同例子可使用缩放组构106来耦合,以提供经缩放系统。所述存储器计算节点中的每一者可运行其自身操作系统且可经配置以联合协调全系统的资源使用。
在图1的实例中,第一存储器计算节点104的第一交换机110耦合到缩放组构106。缩放组构106可提供可促进不同存储器计算节点当中及之间的通信的交换机(例如,CTCPI交换机、PCIe交换机、CPI交换机或其它交换机)。在实例中,缩放组构106可帮助各种节点在分区全局地址空间(PGAS)中进行通信。
在实例中,来自第一存储器计算节点104的第一交换机110耦合到一或多个不同存储器计算装置,例如包含第一存储器计算装置112。第一存储器计算装置112可包括本文中被称为近存储器计算(CNM)小芯片的基于小芯片的架构。第一存储器计算装置112的封装版本可包含例如一或多个CNM小芯片。为了高带宽及低延时,所述小芯片可使用CTCPI通信地耦合。
在图1的实例中,第一存储器计算装置112可包含芯片上网络(NOC)或第一NOC118。通常,NOC是装置内的互连网络,其连接一组特定端点。在图1中,第一NOC 118可提供第一存储器计算装置112的各种存储器、计算资源与端口之间的通信及连接性。
在实例中,第一NOC 118可包括例如在存储器计算装置的每一例子内或作为耦合一节点中的多个存储器计算装置的网格的折叠式Clos拓扑。例如可使用多个较小基数的交叉开关来提供与较高基数的交叉开关拓扑相关联的功能性的Clos拓扑提供各种益处。例如,Clos拓扑可跨NOC展现一致的延时及对分带宽。
第一NOC 118可包含各种不同交换机类型,包含中心交换机、边缘交换机及端点交换机。所述交换机中的每一者可被构造为在输入与输出节点之间提供基本上均匀的延时及带宽的交叉开关。在实例中,端点交换机及边缘交换机可包含两个单独交叉开关,一个用于去往中心交换机的业务而另一个用于远离中心交换机的业务。中心交换机可被构造为将所有输入交换到所有输出的单个交叉开关。
在实例中,所述中心交换机可例如取决于特定集线器交换机是否参与芯片间通信而各自具有多个端口(例如,各自四个或六个端口)。参与芯片间通信的中心交换机的数目可根据芯片间带宽要求来设置。
第一NOC 118可支持计算元件与存储器之间的各种有效负载(例如,从8到64字节有效负载;可类似地使用其它有效负载大小)。在实例中,第一NOC 118可针对相对较小的有效负载(例如,8到16字节)进行优化以高效地处置对稀疏数据结构的存取。
在实例中,第一NOC 118可经由第一物理层接口114、PCIe从属模块116或端点及PCIe主导模块126或根端口耦合到外部主机。即,第一物理层接口114可包含用以允许外部主机处理器耦合到第一存储器计算装置112的接口。外部主机处理器可任选地例如使用PCIe交换机或其它本机协议交换机耦合到一或多个不同存储器计算装置。通过基于PCIe的交换机与外部主机处理器通信可能将装置到装置通信限于由所述交换机支持的通信。相比之下,例如使用CTCPI通过存储器计算装置-本机协议交换机的通信可允许不同存储器计算装置之间或当中的更充分通信,包含对例如用于创建工作线程及发送事件的分区全局地址空间的支持。
在实例中,CTCPI协议可由第一存储器计算装置112中的第一NOC 118使用,且第一交换机110可包含CTCPI交换机。CTCPI交换机可允许将CTCPI分组从源存储器计算装置(例如第一存储器计算装置112)传送到不同目的地存储器计算装置(例如,在同一节点或其它节点上),例如而无需转换为另一分组格式。
在实例中,第一存储器计算装置112可包含内部主机处理器122。内部主机处理器122可经配置以例如使用内部PCIe主导模块126与第一NOC 118或第一存储器计算装置112的其它组件或模块进行通信,这可帮助消除将消耗时间及能量的物理层。在实例中,内部主机处理器122可基于RISC-V ISA处理器,且可使用第一物理层接口114以在第一存储器计算装置112外部进行通信,例如与第一存储器计算装置112的其它存储装置、联网装置或其它外围装置进行通信。内部主机处理器122可控制第一存储器计算装置112且可充当操作系统相关功能性的代理。内部主机处理器122可包含相对少量的处理核心(例如,2到4个核心)及主机存储器装置124(例如,包括DRAM模块)。
在实例中,内部主机处理器122可包含PCI根端口。当内部主机处理器122在使用中时,其根端口中的一者接着可连接到PCIe从属模块116。内部主机处理器122的根端口中的另一者可连接到第一物理层接口114,例如以提供与外部PCI外围装置的通信。当内部主机处理器122被停用时,接着可将PCIe从属模块116耦合到第一物理层接口114以允许外部主机处理器与第一NOC 118进行通信。在具有多个存储器计算装置的系统的实例中,第一存储器计算装置112可经配置以充当系统主机或控制器。在这个实例中,内部主机处理器122可在使用中,且相应的其它存储器计算装置中的内部主机处理器的其它例子可被停用。
可在第一存储器计算装置112通电时配置内部主机处理器122,例如以允许主机初始化。在实例中,内部主机处理器122及其相关联数据路径(例如,包含第一物理层接口114、PCIe从属模块116等)可从输入引脚配置到第一存储器计算装置112。所述引脚中的一或多者可被用来启用或停用内部主机处理器122且相应地配置PCI(或其它)数据路径。
在实例中,第一NOC 118可经由缩放组构接口模块136及第二物理层接口138连接到缩放组构106。缩放组构接口模块136或SFI可促进第一存储器计算装置112与装置空间(例如分区全局地址空间(PGAS))之间的通信。PGAS可经配置使得特定存储器计算装置(例如第一存储器计算装置112)可例如使用加载/存储范例存取不同存储器计算装置上(例如,同一节点或不同节点上)的存储器或其它资源。可使用各种可缩放组构技术,包含CTCPI、CPI、Gen-Z、PCI或通过CXL桥接的以太网。缩放组构106可经配置以支持各种分组格式。在实例中,缩放组构106支持无序分组通信或支持有序分组,例如可使用路径识别符以跨多个等效路径展开带宽。缩放组构106通常可支持远程操作,例如远程存储器读取、写入及其它内置原子、远程存储器原子、远程存储器计算装置发送事件以及远程存储器计算装置调用及返回操作。
在实例中,第一NOC 118可耦合到一或多个不同存储器模块,例如包含第一存储器装置128。第一存储器装置128可包含各种种类的存储器装置,例如LPDDR5或GDDR6等等。在图1的实例中,第一NOC 118可经由可专用于特定存储器模块的存储器控制器130协调与第一存储器装置128的通信。在实例中,存储器控制器130可包含存储器模块高速缓存及原子操作模块。原子操作模块可经配置以提供相对高处理量的原子运算符,例如包含整数及浮点运算符。原子操作模块可经配置以将其运算符应用于存储器模块高速缓存(例如,包括SRAM存储器侧高速缓存)内的数据,由此允许使用同一存储器位置以最小的处理量下降进行背靠背原子操作。
存储器模块高速缓存可为频繁存取的存储器位置提供存储,例如而无须重新存取第一存储器装置128。在实例中,存储器模块高速缓存可经配置以仅高速缓存存储器控制器130的特定例子的数据。在实例中,存储器控制器130包含经配置以与第一存储器装置128(例如包含DRAM装置)对接的DRAM控制器。存储器控制器130可提供存取调度及位错误管理,以及其它功能。
在实例中,第一NOC 118可耦合到混合线程处理器(HTP 140)、混合线程组构(HTF142)以及主机接口及分派模块(HIF 120)。HIF 120可经配置以促进存取基于主机的命令请求队列及响应队列。在实例中,HIF 120可分派在HTP 140或HTF 142的处理器或计算元件上执行的新线程。在实例中,HIF 120可经配置以维持跨HTP 140模块及HTF 142模块的工作负载平衡。
混合线程处理器或HTP 140可包含例如可基于RISC-V指令集的加速器。HTP 140可包含高度线程化的事件驱动处理器,其中线程可在单指令旋转中执行,例如以维持高指令处理量。HTP 140包括相对较少的定制指令以支持低开销线程能力、事件发送/接收及共享存储器原子运算符。
混合线程组构或HTF 142可包含加速器,例如可包含非冯·诺依曼、粗粒度的可重新配置处理器。HTF 142可针对高级语言操作及数据类型(例如,整数或浮点)进行优化。在实例中,HTF 142可支持数据流计算。HTF 142可经配置以例如当执行受存储器限制的计算内核时,使用第一存储器计算装置112上可用的基本上全部存储器带宽。
CNM系统102的HTP及HTF加速器可使用各种高级的结构化编程语言来编程。例如,HTP及HTF加速器可使用C/C++编程(例如使用LLVM编译器框架)来编程。HTP加速器可利用例如具有经配置以改进存储器存取效率、提供消息传递机制及管理事件以及其它事项的各种添加的定制指令集的开源编译器环境。在实例中,HTF加速器可经设计以实现使用高级编程语言对HTF 142进行编程,且编译器可产生在HTF 142硬件上运行的模拟器配置文件或二进制文件。HTF 142可提供用于精确及简明地表达算法,同时隐藏HTF加速器本身的配置细节的中级语言。在实例中,HTF加速器工具链可使用LLVM前端编译器及LLVM中间表示(IR)以与HTF加速器后端对接。
图2大体上说明根据实施例的存储器计算装置的存储器子系统200的实例。存储器子系统200的实例包含控制器202、可编程原子单元208及第二NOC 206。控制器202可包含或使用可编程原子单元208以使用存储器装置204中的信息实行操作。在实例中,存储器子系统200包括来自图1的实例的第一存储器计算装置112的一部分,例如包含第一NOC 118或存储器控制器130的部分。
在图2的实例中,第二NOC 206耦合到控制器202,且控制器202可包含存储器控制模块210、本地高速缓存模块212及内置原子模块214。在实例中,内置原子模块214可经配置以处置相对简单、单循环的整数原子。内置原子模块214可以与例如正常存储器读取或写入操作相同的处理量执行原子。在实例中,原子存储器操作可包含将数据存储到存储器、执行原子存储器操作且接着用来自存储器的加载数据进行响应的组合。
可提供本地高速缓存模块212(例如可包含SRAM高速缓存)以帮助减少重复存取的存储位置的延时。在实例中,本地高速缓存模块212可为子存储器行存取提供读取缓冲区。本地高速缓存模块212对于具有相对小数据高速缓存或没有数据高速缓存的计算元件特别有益。
存储器控制模块210(例如可包含DRAM控制器)可提供低级请求缓冲及调度,例如以提供对存储器装置204(例如可包含DRAM装置)的高效存取。在实例中,存储器装置204可包含或使用例如具有16Gb密度及64Gb/sec峰值带宽的GDDR6 DRAM装置。可类似地使用其它装置。
在实例中,可编程原子单元208可包含例如可经配置以执行整数加法或更复杂的多指令操作(例如布隆过滤器插入)的单循环或多循环运算符。在实例中,可编程原子单元208可经配置以执行加载及存储到存储器操作。可编程原子单元208可经配置以利用具有一组专用指令的RISC-V ISA来促进与控制器202的交互以原子地执行用户定义的操作。
例如从节点上或节点外主机接收的可编程原子请求可经由第二NOC 206及控制器202路由到可编程原子单元208。在实例中,(例如,由可编程原子单元208实行的)定制原子操作可与(例如,由内置原子模块214实行的)内置原子操作相同,区别仅在于编程原子操作可由用户而不是系统架构师来定义或编程。在实例中,可编程原子请求分组可通过第二NOC206发送到控制器202,且控制器202可将所述请求识别为定制原子。控制器202接着可将经识别请求转发到可编程原子单元208。
图3大体上说明根据实施例的与存储器控制器一起使用的可编程原子单元302的实例。在实例中,可编程原子单元302可包括或对应于来自图2的实例的可编程原子单元208。即,图3说明可编程原子单元302(PAU)的实例中的组件,例如上文关于图2(例如,在可编程原子单元208中)或图1(例如,在存储器控制器130的原子操作模块中)所述的组件。如图3中所说明,可编程原子单元302包含PAU处理器或PAU核心306、PAU线程控制件304、指令SRAM 308、数据高速缓存310及用以与存储器控制器314对接的存储器接口312。在实例中,存储器控制器314包含来自图2的实例的控制器202的实例。
在实例中,PAU核心306是流水线处理器使得每时钟周期一起执行不同指令的多个阶段。PAU核心306可包含桶形多线程处理器,其中线程控制件304电路系统在每一时钟周期时在不同寄存器堆(例如,含有当前处理状态的寄存器组)之间切换。这实现当前执行的线程之间进行高效上下文切换。在实例中,PAU核心306支持八个线程,从而导致八个寄存器堆。在实例中,一些或所有寄存器堆未集成到PAU核心306中,而是驻留在本地数据高速缓存310或指令SRAM 308中。这通过消除用于此类存储器中的寄存器的传统触发器来降低PAU核心306中的电路复杂性。
本地PAU存储器可包含例如可包含用于各种原子的指令的指令SRAM 308。所述指令包括用以支持各种应用程序加载的原子运算符的若干组指令。当例如由应用小芯片请求原子运算符时,由PAU核心306执行对应于原子运算符的一组指令。在实例中,指令SRAM 308可经分区以建立若干组指令。在这个实例中,由请求进程所请求的特定可编程原子运算符可通过分区号来识别可编程原子运算符。分区号可在向可编程原子单元302注册可编程原子运算符(例如,将可编程原子运算符加载到可编程原子单元302中)时建立。可编程指令的其它元数据可被存储在可编程原子单元302本地的存储器中的存储器中(例如,在分区表中)。
在实例中,原子运算符操纵数据高速缓存310,所述数据高速缓存通常在原子运算符的线程完成时同步(例如,刷新)。因此,除从外部存储器(例如从存储器控制器314)进行初始加载以外,可在可编程原子运算符线程的执行期间减少大多数存储器操作的延时。
当执行线程试图发出存储器请求时,如果潜在危险条件会阻止此请求,那么流水线处理器(例如PAU核心306)可能会遇到问题。在此,存储器请求是从存储器控制器314检索数据,无论其是来自存储器控制器314上的高速缓存还是裸片外存储器。为了解决这个问题,PAU核心306经配置以拒绝对线程的存储器请求。通常,PAU核心306或线程控制件304可包含用以启用流水线中的一或多个线程重新调度点的电路系统。在此,拒绝发生在流水线中的位于这些线程重新调度之外(例如,之后)的点处。在实例中,危险发生在所述重新调度点之外。在此,在存储器请求指令通过其中可进行存储器请求的流水线阶段之前的最后线程重新调度点之后,线程中的前一指令产生危险。
在实例中,为了拒绝存储器请求,PAU核心306经配置以确定(例如,检测)在存储器请求中指示的存储器上存在危险。在此,危险表示使得允许(例如,执行)存储器请求将导致线程的不一致状态的任何状况。在实例中,危险是飞行中的存储器请求。在此,无论数据高速缓存310是否包含所请求存储器地址的数据,飞行中的存储器请求的存在都使得数据高速缓存310中的位于那个地址处的数据应是什么不确定。因此,线程必须等待飞行中的存储器请求完成以对当前数据进行操作。当存储器请求完成时,危险被清除。
在实例中,危险是数据高速缓存310中的用于所请求存储器地址的脏高速缓存行。尽管脏高速缓存行通常指示高速缓存中的数据是当前的且这个数据的存储器控制器版本不是当前的,但在不从高速缓存操作的线程指令上可能出现问题。此指令的实例使用存储器控制器314的内置原子运算符或其它单独硬件块。在存储器控制器的背景下,内置原子运算符可与可编程原子单元302分离且不能存取PAU内部的数据高速缓存310或指令SRAM308。如果高速缓存行是脏的,那么内置原子运算符将不会对最新近数据进行操作,直到数据高速缓存310经刷新以同步化高速缓存与其它存储器或裸片外存储器为止。这种相同情况可能发生在存储器控制器的其它硬件块(例如密码块、编码器等)上。
图4说明混合线程处理器(HTP)加速器或HTP加速器400的实例。根据实施例,HTP加速器400可包括存储器计算装置的一部分。在实例中,HTP加速器400可包含或包括来自图1的实例的HTP 140。HTP加速器400包含例如HTP核心402、指令高速缓存404、数据高速缓存406、转译块408、存储器接口410及线程控制器412。HTP加速器400可进一步包含例如分派接口414及用于与NOC(例如来自图1的实例的第一NOC 118、来自图2的实例的第二NOC 206或其它NOC)对接的NOC接口416。
在实例中,HTP加速器400包含基于RISC-V指令集的模块且可包含相对少量的其它或额外定制指令以支持低开销、具备线程能力的混合线程(HT)语言。HTP加速器400可包含高线程处理器核心(HTP核心402),在所述核心中或利用所述核心,线程可在单个指令旋转中执行,例如以维持高指令处理量。在实例中,线程可在其等待其它未决事件完成时被暂停。这可允许计算资源高效地用于相关工作而非轮询上。在实例中,多线程屏障同步可使用高效的HTP到HTP及HTP往/返主机的消息传递,例如可允许数千个线程在例如几十个时钟周期内初始化或唤醒。
在实例中,分派接口414可包括用于处置基于硬件的线程管理的HTP加速器400的功能块。即,分派接口414可管理将工作分派给HTP核心402或其它加速器。然而,非HTP加速器通常不能分派工作。在实例中,从主机分派的工作可使用驻留在例如主机主存储器(例如,基于DRAM的存储器)中的分派队列。另一方面,从HTP加速器400分派的工作可使用驻留在SRAM中的分派队列,例如在对特定节点内的目标HTP加速器400的分派中。
在实例中,HTP核心402可包括代表线程执行指令的一或多个核心。即,HTP核心402可包含指令处理块。HTP核心402可进一步包含或可耦合到线程控制器412。线程控制器412可为HTP核心402内的每一活动线程提供线程控制及状态。数据高速缓存406可包含用于主机处理器(例如,用于本地及远程存储器计算装置,包含用于HTP核心402)的高速缓存,且指令高速缓存404可包含用于由HTP核心402使用的高速缓存。在实例中,数据高速缓存406可经配置用于读取及写入操作,且指令高速缓存404可经配置用于只读操作。
在实例中,数据高速缓存406是每硬件线程提供的小型高速缓存。数据高速缓存406可暂时存储由拥有线程使用的数据。数据高速缓存406可由HTP加速器400中的硬件或软件来管理。例如,在由HTP核心402执行加载及存储操作时,硬件可经配置以根据需要自动地分配或逐出行。例如使用RISC-V指令的软件可确定哪些存储器存取应被高速缓存及何时应使行无效或将其写回到其它存储器位置。
HTP加速器400上的数据高速缓存具有各种益处,包含使较大存取对存储器控制器更高效、允许执行线程避免停止。然而,存在使用高速缓存会引起低效的情况。实例包含其中数据仅被存取一次且致使高速缓存行颠簸的存取。为了帮助解决这个问题,HTP加速器400可使用一组定制加载指令来强制加载指令检查高速缓存命中且在高速缓存未命中时,发出对所请求操作数的存储器请求且不将所获得数据放入数据高速缓存406中。因此,HTP加速器400包含各种不同类型的加载指令,包含非高速缓存及高速缓存行加载。如果在高速缓存中存在脏数据,那么非高速缓存加载指令将使用高速缓存数据。非高速缓存加载指令忽略高速缓存中的干净数据且不将经存取数据写入到数据高速缓存。对于高速缓存行加载指令,完整的数据高速缓存行(例如,包括64个字节)可从存储器加载到数据高速缓存406中且可将所寻址存储器加载到所指定寄存器中。如果干净或脏数据在数据高速缓存406中,那么这些加载可使用高速缓存数据。如果所引用存储器位置不在数据高速缓存406中,那么可从存储器存取整个高速缓存行。使用高速缓存行加载指令可在正引用循序存储器位置(例如存储器复制操作)时减少高速缓存未命中,但如果不使用所引用存储器数据,那么也可能浪费NOC接口416处的存储器及带宽。
在实例中,HTP加速器400包含非高速缓存的定制存储指令。非高速缓存的存储指令可帮助避免因未被循序地写入到存储器的写入数据而使数据高速缓存406颠簸。
在实例中,HTP加速器400进一步包含转译块408。转译块408可包含用于存储器计算装置的本地存储器的虚拟到物理转译块。例如,主机处理器(例如HTP核心402)可执行加载或存储指令,且所述指令可产生虚拟地址。虚拟地址可例如使用来自转译块408的转译表被转译为主机处理器的物理地址。例如,存储器接口410可包含HTP核心402与NOC接口416之间的接口。
图5说明根据实施例的存储器计算装置的混合线程组构(HTF)或HTF 500的表示的实例。在实例中,HTF 500可包含或包括来自图1的实例的HTF 142。HTF 500是可针对高级语言操作数类型及运算符(例如,使用C/C++或其它高级语言)进行优化的粗粒度、可重新配置的计算组构。在实例中,HTF 500可包含互连强化SIMD运算单元的可配置、n位宽(例如,512位宽)的数据路径。
在实例中,HTF 500包括包含多个HTF片块(包含实例片块504或片块N)的HTF集群502。每一HTF片块可包括具有本地片块存储器或计算元件存储器及算术功能的一或多个计算元件。例如,每一片块可包含支持整数及浮点运算的计算流水线。在实例中,数据路径、计算元件及其它基础结构可被实施为强化IP以提供最大性能,同时最小化功耗及重新配置时间。
在图5的实例中,包括HTF集群502的片块线性地经布置,且所述集群中的每一片块可耦合到HTF集群502中的一或多个其它片块。在图5的实例中,实例片块504或片块N耦合到四个其它片块,包含经由标记为SF IN N-2的端口耦合到基础片块510(例如,片块N-2)、经由标记为SF IN N-1的端口耦合到邻近片块512(例如,片块N-1)及经由标记为SF IN N+1的端口耦合到片块N+1及经由标记为SF IN N+2的端口耦合到片块N+2。片块可包含基础部分,例如可包含经配置以启动线程或以其它方式充当流控制器的硬件。实例片块504可经由相应输出端口(例如标记为SF OUT N-1、SF OUT N-2、SF OUT N+1及SF OUT N+2的输出端口)耦合到相同片块或其它片块。在这个实例中,各种片块的名称的有序列表是所述片块的位置的概念指示。在其它实例中,包括HTF集群502的片块可被布置成栅格或其它配置,其中每一片块类似地耦合到所述栅格中的其最近邻居中的一或若干者。设置在集群的边缘处的片块可任选地具有到相邻片块的较少连接。例如,片块N-2或图5的实例中的基础片块510可仅耦合到邻近片块512(片块N-1)及实例片块504(片块N)。类似地,可使用更少或额外片块间连接。
HTF集群502可进一步包含存储器接口模块,包含第一存储器接口模块506。存储器接口模块可将HTF集群502耦合到NOC,例如第一NOC 118。在实例中,存储器接口模块可允许集群内的片块向存储器计算系统中(例如所述系统中的同一或不同节点中)的其它位置提出请求。即,HTF 500的表示可包括可跨多个节点分布的较大组构的一部分,例如在所述节点中的每一者处具有一或多个HTF片块或HTF集群。请求可在较大组构的背景下的片块或节点之间提出。
在图5的实例中,HTF集群502中的片块使用同步组构(SF)来耦合。同步组构可提供HTF集群502中的特定片块与其相邻片块之间的通信,如上文所描述。每一HTF集群502可进一步包含异步组构(AF),所述异步组构可提供例如所述集群中的片块、所述集群中的存储器接口与所述集群中的分派接口508当中的通信。
在实例中,同步组构可交换包含数据及控制信息的消息。控制信息可尤其包含指令RAM地址信息或线程识别符。控制信息可被用来设置数据路径,且可选择数据消息字段作为所述路径的源。通常,可更早地提供或接收控制字段,使得它们可被用来配置数据路径。例如,为了帮助最小化通过片块中的同步流流水线的任何延迟,控制信息可比数据字段早几个时钟周期到达片块。可提供各种寄存器来帮助协调流水线中的数据流时序。例如,参见对应于图9到图11的延迟寄存器及输出寄存器的论述。
在实例中,HTF集群502中的每一片块可包含一或多个片块存储器。每一片块存储器可具有与数据路径相同的宽度(例如,512个位)且可具有所指定深度,例如在512到1024个元件的范围内。片块存储器可被用来存储支持数据路径操作的数据。例如,经存储数据可包含作为内核的集群配置的部分加载的常数,或可包含作为数据流的部分计算的变量。在实例中,片块存储器可作为来自另一同步流的数据传送从异步组构写入,或可包含例如由另一同步流启动的加载操作的结果。片块存储器可经由同步流中的同步数据路径指令执行来读取。
在实例中,HTF集群502中的每一片块可具有专用指令RAM(INST RAM)。在具有16个片块的HTF集群502及具有64个条目的相应指令RAM例子的实例中,所述集群可允许用多达1024个乘法-移位及/或ALU运算来映射算法。各种片块可任选地例如使用同步组构流水线化在一起,以允许具有最少存储器存取的数据流计算,从而最小化延时且降低功耗。在实例中,异步组构可允许存储器引用与计算并行进行,由此提供更高效的流内核。在实例中,各种片块可包含对基于循环的结构的内置支持且可支持嵌套循环内核。
同步组构可允许多个片块被流水线化,例如无需数据排队。例如,参与同步域或同步流的片块可充当单个流水线数据路径。同步流的第一或基础片块(例如,在图5的实例中是片块N-2)可通过流水线片块启动工作线程。基础片块或流控制器可负责以预定义节奏(在本文中被称为辐条计数)起始工作。例如,如果辐条计数是3,那么基础片块可每三个时钟周期启动工作或线程。
在实例中,同步域或经配置以执行同步流的元件包括HTF集群502中的一组所连接片块。线程的执行可在所述域的基础片块处开始且可经由同步组构从基础或流控制器前进到作为同一流的一部分或同一域中的其它片块或计算元件。流控制器可提供待对于第一片块执行的指令。在默认情况下,第一片块可提供相同指令以供其它所连接片块执行。然而,在一些实例中,基础片块或后续片块可有条件地指定或使用替代指令。可通过让片块的数据路径产生布尔(Boolean)条件值来选择替代指令,且接着可使用所述布尔值以在当前片块的指令集与替代指令之间进行选择。
异步组构可被用来执行相对于同步流异步地发生的操作。HTF集群502中的每一片块可包含到异步组构的接口。入站接口可包含例如FIFO缓冲区或队列(例如,AF IN QUEUE)以为无法立即处理的消息提供存储。类似地,异步组构的出站接口可包含FIFO缓冲区或队列(例如,AF OUT QUEUE)以为无法立即发出的消息提供存储。
在实例中,异步组构中的消息可被分类为数据消息或控制消息。数据消息可包含写入到片块存储器0(MEM_0)抑或存储器1(MEM_1)的SIMD宽度数据值。控制消息可经配置以控制线程创建、释放资源或发出外部存储器引用。
HTF集群502中的片块可为HTF执行各种计算操作。所述计算操作可通过配置片块及/或其计算元件内的数据路径来执行。在实例中,片块包含为片块执行计算操作的两个功能块:乘法及移位运算块(MS OP)以及算术、逻辑及位运算块(ALB OP)。所述两个块可经配置以执行流水线操作,例如乘法及加法,或移位及加法等等。可在输出寄存器组合件514处存储或处理来自所述功能块中的一或多者的结果或来自异步队列的信息。
在实例中,系统中的存储器计算装置的每一例子可具有用于其运算符块(例如,MSOP及ALB OP)的完整支持指令集。在这种情况下,可跨系统中的所有装置实现二进制兼容性。然而,在一些实例中,维持一组基础功能性及任选指令集类别是有帮助的,例如以满足各种设计折中,例如裸片大小。所述方法可与RISC-V指令集具有基础集及多个任选指令子集的方式类似。
在实例中,实例片块504可包含辐条RAM。辐条RAM可被用来指定哪个输入(例如,来自四个SF片块输入及基础输入当中)是每一时钟周期的主要输入。辐条RAM读取地址输入可源于从零计数到辐条计数减一的计数器。在实例中,可在不同片块(例如在同一HTF集群502内)上使用不同辐条计数,以允许由内循环用于确定特定应用程序或指令集的性能的数个切片或唯一片块例子。在实例中,辐条RAM可指定何时将同步输入写入到片块存储器,例如何时使用特定片块指令的多个输入及所述输入中的一者何时先于其它者到达。较早到达的输入可被写入到片块存储器且稍后可在所有输入都可用时被读取。在这个实例中,片块存储器可作为FIFO存储器来存取,且FIFO读取及写入指针可被存储在片块存储器中的基于寄存器的存储区或结构中。
图6A及图6B大体上说明可被用来实施CNM系统102的一或多个方面的小芯片系统的实例。如上文类似地提及,CNM系统102中的节点或CNM系统102中的节点内的装置可包含基于小芯片的架构或近存储器计算(CNM)小芯片。封装式存储器计算装置可包含例如一个、两个或四个CNM小芯片。所述小芯片可使用高带宽、低延时互连件(例如使用CPI接口)来互连。通常,小芯片系统由集成在中介层上且在许多实例中根据需要通过一或多个所建立网络互连以提供具有所期望功能性的系统的离散模块(各自为“小芯片”)组成。中介层及所包含小芯片可被封装在一起以促进与更大系统的其它组件互连。每一小芯片可包含潜在地与离散电路组件组合的一或多个个别集成电路(IC)或“芯片”,且可耦合到相应衬底以促进附接到中介层。系统中的大多数或所有小芯片可个别地经配置用于通过所建立网络进行通信。
将小芯片配置为系统的个别模块不同于在单个芯片上实施此系统,所述单个芯片含有一个衬底(例如,单个裸片)上的不同装置块(例如,知识产权(IP)块)(例如芯片上系统(SoC))或集成在印刷电路板(PCB)上的离散封装装置。一般来说,小芯片提供比离散封装装置更好的性能(例如,更低的功耗、减少的延时等),且小芯片提供比单裸片芯片更大的生产效益。这些生产效益可包含更高的良率或减少的开发成本及时间。
小芯片系统可包含例如一或多个应用(或处理器)小芯片及一或多个支持小芯片。在此,应用小芯片与支持小芯片之间的区别仅仅是对小芯片系统的可能设计场景的参考。因此,例如,仅举例来说,合成视觉小芯片系统可包含用以产生合成视觉输出的应用小芯片连同支持小芯片,例如存储器控制器小芯片、传感器接口小芯片或通信小芯片。在典型使用案例中,合成视觉设计者可设计应用小芯片且从其它方获得支持小芯片。因此,设计支出(例如,在时间或复杂性方面)减少,因为避免支持小芯片中体现的功能性的设计及生产。
小芯片还支持原本可能难以实现的IP块(例如使用不同处理技术或使用不同特征大小(或使用不同接触技术或间距)制造的IP块)的紧密集成。因此,具有不同物理特性、电特性或通信特性的多个IC或IC组合件可以模块化方式组装以提供具有各种所期望功能性的组合件。小芯片系统还可促进调适以适应小芯片系统将并入到其中的不同更大系统的需求。在实例中,可针对特定功能的功率、速度或发热进行优化—如可能发生在传感器上—的IC或其它组合件可比试图在单个裸片上与其它装置集成更容易地与其它装置集成在一起。另外,通过减小裸片的总体大小,小芯片的良率趋向于高于更复杂的单裸片装置的良率。
图6A及图6B大体上说明根据实施例的小芯片系统的实例。图6A是安装在可例如通过外围组件互连快速(PCIe)连接到更广泛计算机系统的外围板604上的小芯片系统602的表示。小芯片系统602包含封装衬底606、中介层608及四个小芯片:应用小芯片610、主机接口小芯片612、存储器控制器小芯片614及存储器装置小芯片616。其它系统可包含许多额外小芯片以提供额外功能性,如从以下论述将显而易见。小芯片系统602的封装被说明为具有盖子或覆盖物618,但可使用小芯片系统的其它封装技术及结构。图6B是为了清楚起见而标记小芯片系统中的组件的框图。
应用小芯片610被说明为包含小芯片系统NOC 620以支持用于小芯片间通信的小芯片网络622。在实例实施例中,小芯片系统NOC 620可被包含在应用小芯片610上。在实例中,来自图1的实例的第一NOC 118可响应于选定支持小芯片(例如,主机接口小芯片612、存储器控制器小芯片614及存储器装置小芯片616)而定义,从而使设计者能够为小芯片系统NOC 620选择适当数目个小芯片网络连接或交换机。在实例中,小芯片系统NOC 620可位于单独小芯片上,或位于中介层608内。在如本文中所论述的实例中,小芯片系统NOC 620实施小芯片协议接口(CPI)网络。
在实例中,小芯片系统602可包含或包括第一存储器计算节点104或第一存储器计算装置112的一部分。即,第一存储器计算装置112的各种块或组件可包含可安装在外围板604、封装衬底606及中介层608上的小芯片。第一存储器计算装置112的接口组件通常可包括主机接口小芯片612,第一存储器计算装置112的存储器及存储器控制相关组件通常可包括存储器控制器小芯片614,第一存储器计算装置112的各种加速器及处理器组件通常可包括应用小芯片610或其例子等等。
例如可被用于系统中的小芯片之间或当中的通信的CPI接口是支持虚拟信道以实现小芯片之间的灵活且高速交互的基于分组的网络。CPI实现从小芯片内网络到小芯片网络622的桥接。例如,AXI是被广泛地用来设计芯片内通信的规范。然而,高级可扩展接口(AXI)规范涵盖各种各样的物理设计选项,例如物理信道的数目、信号时序、功率等。在单个芯片内,通常选择这些选项来满足设计目标,例如功耗、速度等。然而,为了实现小芯片系统的灵活性,使用适配器(例如CPI)来在可在各种小芯片中实施的各种AXI设计选项之间进行对接。通过实现物理信道到虚拟信道的映射且用分组化协议封装基于时间的信令,CPI跨小芯片网络622桥接小芯片内网络。
CPI可使用多种不同物理层来传输分组。物理层可包含简单的导电连接,或可包含用以增大电压或以其它方式促进在更长距离上传输信号的驱动器。一个此类物理层的实例可包含高级接口总线(AIB),在各种实例中,所述高级接口总线可在中介层608中实施。AIB使用带有经转发时钟的源同步数据传送来传输及接收数据。分组相对于经传输时钟以单倍数据速率(SDR)或双倍数据速率(DDR)跨AIB传送。AIB支持各种信道宽度。所述信道可经配置以具有对称数目个传输(TX)及接收(RX)输入/输出(I/O)或具有非对称数目个传输器及接收器(例如,全传输器抑或全接收器)。取决于哪个小芯片提供主导时钟,所述信道可充当AIB主导信道或从属信道。AIB I/O单元支持三种时控模式:异步(即,非时控)、SDR及DDR。在各种实例中,非时控模式被用于时钟及一些控制信号。SDR模式可使用专用仅SDR I/O单元或两用SDR/DDR I/O单元。
在实例中,CPI分组协议(例如,点对点或可路由)可使用AIB信道内的对称的接收及传输I/O单元。CPI流协议允许更灵活地使用AIB I/O单元。在实例中,用于流模式的AIB信道可将I/O单元配置为全TX、全RX或半TX半RX。CPI分组协议可在SDR抑或DDR操作模式下使用AIB信道。在实例中,AIB信道对于SDR模式以80个I/O单元(即,40TX及40RX)的增量配置且对于DDR模式以40个I/O单元的增量配置。CPI流协议可在SDR抑或DDR操作模式下使用AIB信道。在此,在实例中,AIB信道对于SDR及DDR模式两者以40个I/O单元为增量。在实例中,每一AIB信道被指派唯一接口识别符。在CPI重置及初始化期间使用所述识别符来确定跨邻近小芯片的成对AIB信道。在实例中,接口识别符是包括7位小芯片识别符、7位列识别符及6位链路识别符的20位值。AIB物理层使用AIB带外移位寄存器传输接口识别符。使用移位寄存器的位32到51,跨AIB接口在两个方向上传送20位接口识别符。
AIB将一组堆叠AIB信道定义为AIB信道列。AIB信道列具有某一数目个AIB信道加上一辅助信道。辅助信道含有用于AIB初始化的信号。列内的所有AIB信道(辅助信道除外)具有相同配置(例如,全TX、全RX或半TX及半RX),并且具有相同数目个数据I/O信号。在实例中,AIB信道从邻近于AUX信道的AIB信道开始以连续递增顺序编号。邻近于AUX的AIB信道被定义为AIB信道零。
通常,个别小芯片上的CPI接口可包含串行化-去串行化(SERDES)硬件。SERDES互连件非常适合其中期望具有低信号计数的高速信令的场景。然而,SERDES可能导致复用及解复用、错误检测或校正(例如,使用块级循环冗余校验(CRC))、链路级重试或前向错误校正的额外功耗及更长延时。然而,当低延时或能耗是超短距离的小芯片到小芯片互连的主要关注点时,可利用具有允许以最小延时进行数据传送的时钟速率的并行接口。CPI包含用以最小化这些超短距离小芯片互连件中的延时及能耗两者的元件。
对于流控制,CPI采用基于信用的技术。接收者(例如应用小芯片610)向发送者(例如存储器控制器小芯片614)提供表示可用缓冲区的信用。在实例中,CPI接收者包含在给定传输时间单位内用于每一虚拟信道的缓冲区。因此,如果CPI接收者支持时间上的五个消息及单个虚拟信道,那么接收者具有布置在五行中的五个缓冲区(例如,每单位时间一行)。如果支持四个虚拟信道,那么接收者具有布置在五行中的二十个缓冲区。每一缓冲区保存一个CPI分组的有效负载。
当发送者向接收者传输时,发送者基于所述传输而使可用信用递减。一旦接收者的所有信用被消耗,发送者就停止将分组发送到接收者。这确保接收者总是具有可用缓冲区来存储所述传输。
随着接收者处理经接收分组且释放缓冲区,接收者将可用缓冲区空间传达给发送者。接着,发送者可使用这个信用返回以允许传输额外信息。
图6A的实例包含使用直接的小芯片到小芯片技术而无需小芯片系统NOC 620的小芯片网状网络624。小芯片网状网络624可在CPI或另一小芯片到小芯片协议中实施。小芯片网状网络624通常实现小芯片的流水线,其中一个小芯片充当到流水线的接口,而流水线中的其它小芯片仅与它们本身对接。
另外,专用装置接口(例如一或多个行业标准存储器接口(例如举例来说同步存储器接口,例如DDR5、DDR6))可被用来将装置连接到小芯片。小芯片系统或个别小芯片到外部装置(例如更大系统的连接可通过所期望接口(例如,PCIe接口)进行。在实例中,此外部接口可通过主机接口小芯片612来实施,在所描绘实例中,所述主机接口小芯片提供小芯片系统外部的PCIe接口。当行业中的惯例或标准集中在此接口上时,通常采用此类专用小芯片接口626。将存储器控制器小芯片614连接到动态随机存取存储器(DRAM)存储器装置小芯片616的双倍数据速率(DDR)接口的所说明实例正是此行业惯例。
在多种可能的支持小芯片中,存储器控制器小芯片614可能存在于小芯片系统中,这是因为几乎无所不在地对于计算机处理使用存储以及对于存储器装置使用精湛的尖端技术。因此,使用由他人生产的存储器装置小芯片616及存储器控制器小芯片614使小芯片系统设计者能够获得由成熟生产商生产的稳健产品。通常,存储器控制器小芯片614提供存储器装置特定接口来读取、写入或擦除数据。通常,存储器控制器小芯片614可提供额外特征,例如错误检测、错误校正、维护操作或原子运算符执行。对于一些类型的存储器,维护操作往往特定于存储器装置小芯片616,例如NAND快闪存储器或存储类存储器中的废弃项目收集、NAND快闪存储器中的温度调节(例如,交叉温度管理)。在实例中,维护操作可包含逻辑到物理(L2P)映射或管理以在数据的物理与逻辑表示之间提供间接层级。在其它类型的存储器(例如DRAM)中,一些存储器操作(例如刷新)有时可由主机处理器或存储器控制器来控制,且在其它时候,由DRAM存储器装置或者由与一或多个DRAM装置相关联的逻辑(例如接口芯片(在实例中,缓冲区))来控制。
原子运算符是例如可由存储器控制器小芯片614执行的数据操纵。在其它小芯片系统中,原子运算符可由其它小芯片来执行。例如,“递增”的原子运算符可由应用小芯片610在命令中指定,所述命令包含存储器地址及可能的递增值。在接收到所述命令时,存储器控制器小芯片614从所指定存储器地址检索数字,将所述数字递增所述命令中指定的量,且存储结果。在成功完成时,存储器控制器小芯片614将命令成功的指示提供到应用小芯片610。原子运算符避免跨小芯片网状网络624传输数据,从而实现此类命令的较低延时执行。
原子运算符可被分类为内置原子或可编程(例如,定制)原子。内置原子是在硬件中不变地实施的有限操作集。可编程原子是可在存储器控制器小芯片614的可编程原子单元(PAU)(例如,定制原子单元(CAU))上执行的小程序。
存储器装置小芯片616可为易失性存储器装置或非易失性存储器,或者包含易失性存储器装置或非易失性存储器的任何组合。易失性存储器装置的实例包含但不限于随机存取存储器(RAM)—例如DRAM)、同步DRAM(SDRAM)及图形双倍数据速率类型6SDRAM(GDDR6SDRAM)等等。非易失性存储器装置的实例包含但不限于与非(NAND)型快闪存储器、存储类存储器(例如,相变存储器或基于忆阻器的技术)、铁电RAM(FeRAM)等等。所说明实例包含作为小芯片的存储器装置小芯片616,然而,所述装置可驻留在别处,例如在外围板604上的不同封装中。对于许多应用,可提供多个存储装置小芯片。在实例中,这些存储器装置小芯片可各自实施一或多种存储技术且可包含集成计算主机。在实例中,存储器小芯片可包含不同技术的多个堆叠式存储器裸片,例如一或多个静态随机存取存储器(SRAM)装置与一或多个动态随机存取存储器(DRAM)装置堆叠在一起或者以其它方式与一或多个DRAM装置通信。在实例中,存储器控制器小芯片614可用于协调小芯片系统602中的多个存储器小芯片之间的操作(例如,在高速缓存存储的一或多个层级中使用一或多个存储器小芯片,且使用一或多个额外存储器小芯片作为主存储器)。小芯片系统602可包含如可被用来为单独主机、处理器、传感器、网络等提供存储器控制功能性的多个存储器控制器小芯片614例子。例如所说明系统中的小芯片架构通过经更新小芯片配置(例如在不需要重新设计系统结构的其余部分的情况下),在允许适应不同存储器存储技术及不同存储器接口方面提供优势。
图7大体上说明根据实施例的存储器计算装置的基于小芯片的实施方案的实例。所述实例包含具有四个近存储器计算或CNM小芯片的实施方案,且所述CNM小芯片中的每一者可包含或包括来自图1的实例的第一存储器计算装置112或第一存储器计算节点104的部分。各种部分本身可包含或包括相应小芯片。基于小芯片的实施方案可包含或使用基于CPI的系统内通信,如上文在来自图6A及图6B的实例小芯片系统602中类似地论述。
图7的实例包含包括多个小芯片的第一CNM封装700。第一CNM封装700包含耦合到CNM NOC集线器710的第一小芯片702、第二小芯片704、第三小芯片706及第四小芯片708。第一到第四小芯片中的每一者可包括相同或基本上相同的组件或模块的例子。例如,所述小芯片可各自包含HTP加速器、HTF加速器及用于存取内部或外部存储器的存储器控制器的相应例子。
在图7的实例中,第一小芯片702包含耦合到CNM NOC集线器710的第一NOC集线器边缘714。第一CNM封装700中的其它小芯片类似地包含NOC集线器边缘或端点。NOC集线器边缘中的交换机促进经由CNM NOC集线器710进行小芯片内或小芯片系统内通信。
第一小芯片702可进一步包含一或多个存储器控制器716。存储器控制器716可对应于与第一NOC集线器边缘714对接的相应不同NOC端点交换机。在实例中,存储器控制器716包括存储器控制器小芯片614,或包括存储器控制器130,或包括存储器子系统200或其它存储器计算实施方案。存储器控制器716可耦合到相应不同存储器装置,例如包含第一外部存储器模块712a或第二外部存储器模块712b。所述外部存储器模块可包含例如可由系统中的相应不同小芯片选择性地存取的GDDR6存储器。
第一小芯片702可进一步包含例如经由相应不同NOC端点交换机耦合到第一NOC集线器边缘714的第一HTP小芯片718及第二HTP小芯片720。所述HTP小芯片可对应于HTP加速器,例如来自图1的实例的HTP 140,或来自图4的实例的HTP加速器400。所述HTP小芯片可与HTF小芯片722进行通信。HTF小芯片722可对应于HTF加速器,例如来自图1的实例的HTF142,或来自图5的实例的HTF 500。
CNM NOC集线器710可凭借各种接口及交换机耦合到其它小芯片或其它CNM封装中的NOC集线器例子。例如,CNM NOC集线器710可凭借第一CNM封装700上的多个不同NOC端点耦合到CPI接口。多个不同NOC端点中的每一者可耦合到例如第一CNM封装700外部的不同节点。在实例中,CNM NOC集线器710可使用CTCPI或其它非CPI协议耦合到其它外围装置、节点或装置。例如,第一CNM封装700可包含经配置以将第一CNM封装700与其它装置对接的PCIe缩放组构接口(PCIE/SFI)或CXL接口(CXL)。在实例中,第一CNM封装700使用各种CPI、PCIe、CXL或其它组构所耦合到的装置可组成共同全局地址空间。
在图7的实例中,第一CNM封装700包含主机接口724(HIF)及主机处理器(R5)。主机接口724可对应于例如来自图1的实例的HIF 120。主机处理器或R5可对应于来自图1的实例的内部主机处理器122。主机接口724可包含用于将第一CNM封装700耦合到其它外部装置或系统的PCI接口。在实例中,可由主机接口724在第一CNM封装700上或在第一CNM封装700内的片块集群上启动工作。例如,主机接口724可经配置以命令例如第一CNM封装700中的各种小芯片当中的个别HTF片块集群进入及退出功率/时钟门模式。
图8说明根据实施例的存储器计算装置的实例平铺。在图8中,平铺式小芯片实例800包含小芯片的不同近存储器计算集群的四个例子,其中所述集群耦合在一起。近存储器计算小芯片的每一例子本身可包含一或多个构成小芯片(例如,主机处理器小芯片、存储器装置小芯片、接口小芯片等等)。
平铺式小芯片实例800包含来自图7的实例的第一近存储器计算(CNM)封装700的例子作为其CNM集群中的一或多者。例如,平铺式小芯片实例800可包含第一CNM集群802,所述第一CNM集群包含第一小芯片810(例如,对应于第一小芯片702)、第二小芯片812(例如,对应于第二小芯片704)、第三小芯片814(例如,对应于第三小芯片706)及第四小芯片816(例如,对应于第四小芯片708)。第一CNM集群802中的小芯片可耦合到共同NOC集线器,所述共同NOC集线器又可耦合到邻近集群或若干邻近集群中(例如,第二CNM集群804或第四CNM集群808中)的NOC集线器。
在图8的实例中,平铺式小芯片实例800包含第一CNM集群802、第二CNM集群804、第三CNM集群806及第四CNM集群808。各种不同CNM小芯片可经配置在共同地址空间中使得所述小芯片可跨不同片块分配及共享资源。在实例中,集群中的小芯片可彼此进行通信。例如,第一CNM集群802可经由小芯片间CPI接口818通信地耦合到第二CNM集群804,且第一CNM集群802可经由另一或同一CPI接口通信地耦合到第四CNM集群808。第二CNM集群804可经由同一或其它CPI接口通信地耦合到第三CNM集群806,以此类推。
在实例中,平铺式小芯片实例800中的近存储器计算小芯片中的一者可包含负责跨平铺式小芯片实例800的工作负载平衡的主机接口(例如,对应于来自图7的实例的主机接口724)。主机接口可促进例如从平铺式小芯片实例800外部存取基于主机的命令请求队列及响应队列。主机接口可使用平铺式小芯片实例800中的近存储器计算小芯片中的一或多者中的混合线程处理器及混合线程组构分派新执行线程。
在实例中,可选择性地缓冲基于片块的计算结果而不阻塞片块上的输出寄存器。例如,如图5中及上文论述中类似地说明,特定HTF片块可经配置以例如对MS OP或AL OP或其它功能块执行各种指令。来自一个片块的结果可在若干不同方向上路由,包含路由到组构中的相邻分块或路由到其本身,即,路由到结果源于其的同一片块。在图5的实例中,结果可在五个方向上路由,包含路由到四个相邻片块(例如,路由到位置N-2、N-1、N+1或N+2处的片块)或者可路由到其本身(例如,经由AL IN路径)。在实例中,可为片块片中的每一不同方向提供输出寄存器。因此,在图5的实例中,可提供分别对应于五个不同方向的五个不同输出寄存器。输出寄存器在结果被转发或传输到对应目的地片块之前存储所述结果。然而,如果目的地HTF指令经调度以在产生并存储结果之后执行若干时钟周期,那么输出寄存器可在那几个时钟周期内被阻塞。当输出寄存器被阻塞时,接着可阻止来自其它操作的新结果在对应方向上路由。本发明人已认识到,这种阻塞问题的解决方案可在功能块与输出寄存器之间的输出路径中包含或使用延迟寄存器。
图9A及图9B分别大体上说明可包含在或用于HTF片块中的不同的延迟及输出寄存器。图10的实例大体上说明可包含在图9A及图9B的实例中引入的寄存器的各种例子的寄存器网络1000的实例。所述寄存器可包含用于在同步流中帮助缓冲来自片块上或片块外计算元件的结果的专用延迟寄存器。延迟寄存器可在特定片块上的计算资源等待来自所述组构中其它位置(包含同一特定片块上的位置)的结果或信息时帮助计算组构避免阻塞或占据输出寄存器。在实例中,延迟寄存器可为可被存储达一或多个时钟周期的结果提供缓冲位置。基于延迟寄存器的缓冲又可释放对应输出寄存器,通过所述输出寄存器可路由其它结果或信息,包含来自相同或其它流的结果或信息。
图9A大体上说明例如可包含在或用于HTF片块中的的实例延迟寄存器900a。实例延迟寄存器900a可被用来经由耦合到一个或多个不同源的相应输入接收位信息且基于延迟寄存器控制信号DLY_SEL,在延迟寄存器输出902处提供中间输出信号INT OUT。延迟寄存器控制信号可被用来控制所述输入中的哪一者被路由到延迟寄存器输出902。在实例中,中间输出信号可被提供到输出寄存器(如本文中进一步描述),或可被路由到别处。
实例延迟寄存器900a可包含各种不同输入,包含反馈输入904、运算符结果输入908、片块外输入910或其它输入。一或多个不同源可经配置以将数字信号提供到所述输入中的相应者。例如,反馈输入904可耦合到延迟寄存器输出902以例如在后续辐条计数或时钟周期接收INT OUT信号。运算符结果输入908可耦合到片块上运算符块,例如算术运算符或者其它逻辑或处理块(例如,来自图5的实例的ALB OP、MS OP等)。片块外输入910可耦合到经配置以接收来自邻近片块的信息的数据路径。
图9B大体上说明例如可包含在或用于HTF片块中的实例输出寄存器900b。实例输出寄存器900b可被用来从一个或多个不同源接收位信息且基于输出寄存器控制信号OUT_SEL,可在输出寄存器输出912处提供片块输出信号TILE OUT。在实例中,片块输出信号可被提供到包含多个HTF片块的计算组构中的不同片块,或者可被路由到提供片块输出信号的同一片块的输入或缓冲器。可为每一辐条计数或时钟周期选择不同目的地。
实例输出寄存器900b可包含各种不同输入,包含反馈输入914、运算符结果输入918、源自延迟输入922、片块外输入920或其它输入。一个或多个不同源可经配置以将数字信号提供到所述输入中的相应者。例如,反馈输入914可耦合到输出寄存器输出912以在后续辐条计数或时钟周期接收TILE OUT信号。运算符结果输入918可耦合到片块上运算符块。片块外输入920可耦合到经配置以接收来自邻近片块的信息的数据路径。源自延迟输入922可经配置以接收来自延迟寄存器的信号,例如来自实例延迟寄存器900a的中间输出信号INT OUT。
在实例中,实例延迟寄存器900a的例子可包含实例输出寄存器900b的例子的物理复制品或副本,或反之亦然。换句话说,不同寄存器可在物理上类似,然而,取决于寄存器在系统或HTF片块中的位置,可任选地使用不同数目个输入,且可使用相应不同控制信号控制寄存器。
图10大体上说明寄存器网络1000的实例。寄存器网络1000可被设置在HTF片块(例如HTF集群502的第N片块)中或包括所述片块的一部分。在实例中,图10的寄存器网络1000可包含或包括来自图5的实例的输出寄存器组合件514的一部分。
寄存器网络1000可经配置以例如作为同步流的部分而帮助控制片块之间或片块内的信息传送时序及协调。在实例中,寄存器网络1000中的寄存器可经配置以接收来自片块中的一或多个功能块(例如MS OP或ALB OP)(例如运算块1002)的信息。各种寄存器可经配置以选择性地将来自运算块1002的信息保存或传输到后续寄存器、不同片块或者同一片块上的不同输入或缓冲器。在实例中,寄存器网络1000中的寄存器可经配置以例如使用同步流控制器1004接收来自一或多个其它片块的信息。同步流控制器1004可经配置以调节对应于HTF集群502中的一个或多个不同片块的一个或多个不同信道上的位流量。
寄存器网络1000包含实例延迟寄存器900a的多个例子,包含返回延迟寄存器1006、第一延迟寄存器1010、第二延迟寄存器1014、第三延迟寄存器1018及第四延迟寄存器1022。即,来自图10的实例的各种延迟寄存器可各自与来自图9A的实例延迟寄存器900a类似地配置,然而,可不同地路由相应各种延迟寄存器的输入及输出。延迟寄存器可经配置以接收例如可被所述寄存器用来从多个不同输入当中选择特定输入的相应延迟寄存器控制信号。图10的实例中省略延迟寄存器控制信号的图形表示。
寄存器网络1000的实例包含实例输出寄存器900b的多个例子,包含返回输出寄存器1008、第一输出寄存器1012、第二输出寄存器1016、第三输出寄存器1020及第四输出寄存器1024。即,来自图10的实例的各种输出寄存器可各自与来自图9B的实例输出寄存器900b类似地配置,然而,可不同地路由所述输出寄存器的输入及输出。各种输出寄存器可经配置以接收例如可被所述寄存器用来从多个不同输入当中选择特定输入的的相应输出寄存器控制信号。图10的实例中省略输出寄存器控制信号的图形表示。
图10的实例中的延迟及输出寄存器呈对应对提供以控制同步流的不同部分。例如,包括返回延迟寄存器1006及返回输出寄存器1008的返回路径对可经配置以当来自运算块1002的信息随后将被同一片块上的资源使用时接收此信息,且任选地延迟所述信息。例如,返回延迟寄存器1006可经配置以接收来自运算块1002的信息且任选地将所述信息到输出寄存器的传输延迟达所指定数目个时钟周期或时间切片(例如,对应于不同辐条计数)。当所指定数目个时间切片或时钟周期过去时,返回输出寄存器1008接着可经配置以传输所述信息,所述信息又可被路由到同一片块上别处的另一输入或缓冲器(例如,参见图5的实例)。如果需要最小延迟,那么来自运算块1002的信息可绕过返回延迟寄存器1006且代替地可由返回输出寄存器1008例如经由耦合到运算块1002的寄存器输入(例如,使用对应于来自实例输出寄存器900b的运算符结果输入918的输入)来读取。
其它延迟及输出寄存器对可被用来将信息路由到HTF中的其它片块。例如,包括第一延迟寄存器1010及第一输出寄存器1012的第一对可经配置以选择性地接收来自运算块1002的信息或来自同步流控制器1004的信息且任选地延迟所述信息的传输。第一延迟寄存器1010可进一步经配置以经由反馈路径选择性地接收来自第一延迟寄存器1010的输出的信息,且第一输出寄存器1012可经配置以经由不同反馈路径选择性地接收来自第一输出寄存器1012的输出的信息。在实例中,第一延迟寄存器1010可使用来自第一延迟寄存器控制信号DLY_SEL_1的信息以从可用于第一延迟寄存器1010的各种输入进行选择,且第一输出寄存器1012可使用来自第一输出寄存器控制信号OUT_SEL_1的信息以从可用于第一输出寄存器1012的各种输入当中进行选择。在图10的实例中,第一输出寄存器1012可经配置以将输出信号OUT_N-2提供到相对于第N片块对应于N-2片块位置的片块。
在实例中,来自第N片块上的运算块1002的特定计算结果可在N-2片块上具有目的地。在第一辐条计数,可使特定计算结果可用于第一延迟寄存器1010及第一输出寄存器1012中的每一者。取决于第一延迟寄存器控制信号及第一输出寄存器控制信号中的值,特定计算结果可被保存在第一延迟寄存器1010处或可被保存在第一输出寄存器1012处。在实例中,特定计算结果可被保存在第一延迟寄存器1010处达一或多个后续辐条计数。当M个辐条计数过去时,第一输出寄存器1012可从第一延迟寄存器1010的输出接收特定计算结果。在第一辐条计数与M-1辐条计数之间的同时,第一输出寄存器1012因此可用于处置第N片块与N-2片块之间的其它信息流。即,第一输出寄存器1012可被用来在(例如,从运算块1002或同步流控制器1004)接收到此信息时循序地或非循序地将信息提供到N-2片块。换句话说,第一输出寄存器1012可选择性地使用或接收来自第一延迟寄存器1010或来自第N个片块的其它部分的在不同时间切片处理的信息。
其它延迟寄存器及输出寄存器对可与上文所描述的第一延迟寄存器1010及第一输出寄存器1012类似地配置,但此类其它对可将信号路由到相应不同目的地。例如,包括第二延迟寄存器1014及第二输出寄存器1016的第二对可经配置以选择性地延迟信息且将信息路由到N-1片块。包括第三延迟寄存器1018及第三输出寄存器1020的第三对可经配置以选择性地延迟信息且将信息路由到N+1片块。包括第四延迟寄存器1022及第四输出寄存器1024的第四对可经配置以选择性地延迟信息且将信息路由到N+2片块。寄存器网络1000的实例因此对应于其中第N HTF片块例如以图5的实例中所描绘的线性方式耦合到四个相邻片块N-2、N-1、N+1及N+2的组构。在其它实例中,寄存器网络可经配置用于不同拓扑,例如其中计算组构中的特定片块耦合到少于四个或多于四个不同片块。
图11大体上说明可包含或使用寄存器网络1000的一部分的第一方法1100的实例。第一方法1100可包含使用延迟及输出寄存器来帮助控制同步流中(例如HTF或可重配置计算组构中的一个片块中或多个片块当中)的信息。第一方法1100的说明展示相对于共同时间轴的不同或并行操作的时间序列。图表顶部处或附近的较早操作为下文后期操作提供信息。
例如,第一方法1100可在框1102处开始,其中在第一片块中的位置处接收来自同一第一片块上或所述第一片块外但在HTF中别处的源的第一信息。第一信息可包含例如来自第一片块上的算术或逻辑运算符的计算结果。类似地,第一信息可包含来自存储器(例如在不同片块上)的计算结果或读取结果。
在时间上在框1102之后,第一方法1100可包含在框1112处,在同一第一片块中的位置处接收第二信息。第二信息可来自与第一信息相同的源或者可来自第一片块上或外别处。在框1102处接收第一信息与接收关于框1112的第二信息之间可存在零个、一个或多个时间切片、辐条计数或者时钟周期。即,框1102及框1112的操作可在时间上为邻近操作或者存在一或多个中介操作。
此外,在框1102之后,框1104可包含将第一信息提供到第一延迟寄存器及第一输出寄存器。在实例中,框1104可包含将第一信息提供到共同数据路径或使第一信息可用于共同数据路径,所述共同数据路径延伸到第一延迟寄存器及第一输出寄存器的相应输入。在实例中,第一延迟寄存器及第一输出寄存器中的一者但不是两者在对应于框1104的相同时间切片期间从数据路径读取第一信息。在框1106处,第一延迟寄存器可读取、保存或维持第一信息。例如,框1106可包含或使用从第一延迟寄存器的输出到第一延迟寄存器的输入的反馈路径以在一或多个时间切片内将第一信息保存在第一延迟寄存器中。
在实例中,在第一延迟寄存器保存或维持第一信息的同时,第一方法1100可包含在框1114处将第二信息提供到第一延迟寄存器及第一输出寄存器。在这个实例中,第一延迟寄存器可被第一信息占据且可忽略第二信息。在框1116处,第一方法1100可包含使用第一输出寄存器来将第二信息提供到第一目的地。在实例中,框1116可包含在对应于特定时间切片的时间将第二信息提供到第一目的地。第一目的地可包含例如与第一输出寄存器相同的片块上的位置,或不同片块上(例如同一可重新配置计算组构中)的位置。
在框1116之后,第一方法1100可在框1108处继续。在框1108处,所述方法可包含将第一信息从第一延迟寄存器提供到第一输出寄存器。例如,在框1116之后,可清除第一输出寄存器中的第二信息且可使第一输出寄存器可用于接收其它信息,例如第一信息。在框1110处,第一方法1100可包含使用第一输出寄存器来将第一信息提供到第一目的地。框1110可包含在对应于在来自框1116的特定时间切片之后的时间切片的时间将第一信息提供到第一目的地。
在实例中,来自第一方法1100的延迟及输出寄存器可对应于来自寄存器网络1000的实例的延迟及输出寄存器对中的任一者。例如,来自第一方法1100的延迟及输出寄存器可包括返回延迟寄存器1006及返回输出寄存器1008。在这个实例中,第一目的地可包括到包括返回延迟寄存器1006及返回输出寄存器1008的同一片块的输入。在另一实例中,来自第一方法1100的延迟及输出寄存器可包括第一延迟寄存器1010及第一输出寄存器1012。在这个实例中,第一目的地可包含N-2片块。
图12说明实例机器1200的框图,利用所述机器、在所述机器中或通过所述机器可实施本文中所论述的任何一或多种技术(例如,方法论)。如本文中所论述,实例可包含机器1200中的逻辑或数个组件或机制,或者可由其来操作。电路系统(例如,处理电路系统)是在包含硬件(例如,简单电路、门、逻辑等)的机器1200的有形实体中实施的电路的集合。电路系统成员资格可随时间推移而变化。电路系统包含可在操作时独自地或组合地执行所指定操作的成员。在实例中,电路系统的硬件可不变地经设计以执行特定操作(例如,硬连线)。在实例中,电路系统的硬件可包含可变连接的物理组件(例如,执行单元、晶体管、简单电路等)(包含物理修改(例如,磁性地、电地、不变聚集粒子的可移动放置等)的机器可读媒体)以对特定操作的指令进行编码。在连接物理组件时,硬件构成的基础电性质例如从绝缘体变为导体,或反之亦然。所述指令使嵌入式硬件(例如,执行单元或加载机构)能够经由可变连接在硬件中创建电路系统的成员以在操作时实行特定操作的部分。因此,在实例中,机器可读媒体元件是电路系统的部分或当装置操作时通信地耦合到电路系统的其它组件。在实例中,所述物理组件中的任一者可被用于多于一个电路系统的多于一个成员中。例如,在操作中,执行单元可在一个时间点被用于第一电路系统的第一电路中且在不同时间由第一电路系统中的第二电路或第二电路系统中的第三电路重用。这些组件关于机器1200的额外实例。
在替代实施例中,机器1200可作为独立装置操作或可连接(例如,联网)到其它机器。在联网部署中,机器1200可在服务器-客户端网络环境中以服务器机器、客户端机器或两者的身份操作。在实例中,机器1200可充当对等(P2P)(或其它分布式)网络环境中的对等机器。机器1200可为个人计算机(PC)、平板PC、机顶盒(STB)、个人数字助理(PDA)、移动电话、网络器具、网络路由器、交换机或网桥,或者能够执行指令(循序或以其它方式)的任何机器,所述指令指定待由那个机器采取的动作。此外,虽然仅说明单个机器,但术语“机器”也应被理解为包含个别地或联合地执行一组(或多组)指令以执行本文中论述的任何一或多种方法论(例如云计算、软件即服务(SaaS)、其它计算机集群配置)的任何机器集合。
机器1200(例如,计算机系统)可包含硬件处理器1202(例如,中央处理单元(CPU)、图形处理单元(GPU)、硬件处理器核心或其任何组合)、主存储器1204、静态存储器1206(例如,用于固件、微码、基本输入输出(BIOS)、统一可扩展固件接口(UEFI)等的存储器或存储装置)及大容量存储装置1208(例如,硬盘驱动器、磁带驱动器、快闪存储装置或其它块装置),其中的一些或全部可经由互连链路1230(例如,总线)彼此进行通信。机器1200可进一步包含显示装置1210、字母数字输入装置1212(例如,键盘)及用户接口(UI)导航装置1214(例如,鼠标)。在实例中,显示装置1210、输入装置1212及UI导航装置1214可为触摸屏显示器。机器1200可另外包含大容量存储装置1208(例如,驱动单元)、信号产生装置1218(例如,扬声器)、网络接口装置1220及一或多个传感器1216,例如全球定位系统(GPS)传感器、指南针、加速度计或其它传感器。机器1200可包含输出控制器1228,例如串行(例如,通用串行总线(USB)、并行或者其它有线或无线(例如,红外线(IR)、近场通信(NFC)等)连接以与一或多个外围装置(例如,打印机、读卡器等)进行通信或者对其进行控制。
硬件处理器1202、主存储器1204、静态存储器1206或大容量存储装置1208的寄存器可为或包含机器可读媒体1222,所述机器可读媒体上存储有体现本文中所论述的任何一或多种技术或功能或者由其使用的一或多组数据结构或指令1224(例如,软件)。指令1224在由机器1200执行期间还可完全或至少部分地驻留在硬件处理器1202、主存储器1204、静态存储器1206或大容量存储装置1208的寄存器中的任一者内。在实例中,硬件处理器1202、主存储器1204、静态存储器1206或大容量存储装置1208中的一者或任何组合可构成机器可读媒体1222。虽然机器可读媒体1222被说明为单个媒体,但术语“机器可读媒体”可包含经配置以存储一或多个指令1224的单个媒体或多个媒体(例如,集中式或分布式数据库,或者相关联的高速缓存及服务器)。
术语“机器可读媒体”可包含能够存储、编码或携载用于由机器1200执行且致使机器1200执行本公开的任何一或多种技术的指令,或者能够存储、编码或携载由此类指令使用或与此类指令相关联的数据结构的任何媒体。非限制性机器可读媒体实例可包含固态存储器、光学媒体、磁性媒体及信号(例如,射频信号、其它基于光子的信号、声音信号等)。在实例中,非暂时性机器可读媒体包括带有具有不变(例如,静止)质量的多个粒子的机器可读媒体,且因此是物质的组合物。因此,非暂时性机器可读媒体是不包含暂时性传播信号的机器可读媒体。非暂时性机器可读媒体的具体实例可包含:非易失性存储器,例如半导体存储器装置(例如,电可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM))及快闪存储器装置;磁盘,例如内部硬盘及可卸除磁盘;磁光盘;以及CD-ROM及DVD-ROM盘。
在实例中,存储或以其它方式提供在机器可读媒体1222上的信息可代表指令1224,例如指令1224本身或可从其导出指令1224的格式。可从其导出指令1224的这种格式可包含源代码、经编码指令(例如,以经压缩或经加密形式)、经打包指令(例如,分成多个包)等。机器可读媒体1222中代表指令1224的信息可由处理电路系统处理成指令以实施本文中所论述的操作中的任一者。例如,从信息导出指令1224(例如,由处理电路处理)可包含:编译(例如,从源代码、目标代码等)、解译、加载、组织(例如,动态地或静态地链接)、编码、解码、加密、解密、打包、解包信息或以其它方式将信息操纵到指令1224中。
在实例中,指令1224的导出可包含(例如,由处理电路系统)汇编、编译或解译信息以从由机器可读媒体1222提供的一些中间或预处理格式创建指令1224。信息在以多个部分提供时可被组合、解包及修改以创建指令1224。例如,信息可在一或若干远程服务器上呈多个压缩源代码包(或目标代码,或二进制可执行代码等)。源代码包在通过网络传输时可被加密,且在必要时可被解密、解压缩、汇编(例如,链接),及在本地机器处被编译或解译(例如,成库、独立可执行文件等),且由本地机器来执行。
指令1224可利用数种传送协议(例如,帧中继、因特网协议(IP)、传输控制协议(TCP)、用户数据报协议(UDP)、超文本传送协议(HTTP)等)中的一者,经由网络接口装置1220通过使用传输媒体的通信网络1226进一步传输或接收。实例通信网络可包含局域网(LAN)、广域网(WAN)、分组数据网络(例如,因特网)、移动电话网络(例如,蜂窝网络)、普通老式电话(POTS)网络及无线数据网络(例如,被称为的电气及电子工程师协会(IEEE)802.12标准族、被称为/>的IEEE 802.16标准族)、IEEE 802.15.4标准族、对等(P2P)网络等等。在实例中,网络接口装置1220可包含一或多个物理插孔(例如,以太网、同轴或电话插孔)或者一或多根天线以连接到网络1226。在实例中,网络接口装置1220可包含多根天线以使用单输入多输出(SIMO)、多输入多输出(MIMO)或多输入单输出(MISO)技术中的至少一者进行无线通信。术语“传输媒体”应被理解为包含能够存储、编码或携载用于由机器1200执行的指令的任何无形媒体,且包含数字或模拟通信信号或其它无形媒体以促进此软件的通信。传输媒体是机器可读媒体。
为了更好地说明本文中所论述的方法及设备,下文陈述一组非限制性实例实施例作为数字识别实例。
实例1可包含或使用标的物(例如用于执行动作的设备、系统、装置、方法、构件,或包含在由所述装置执行时可致使所述装置执行动作的指令的装置可读媒体,或制品),例如可包含或使用一种系统,其包括:多个存储器计算节点,其耦合在可重新配置计算组构中,其中所述节点中的每一者包括混合线程处理器及混合线程组构,且其中每一节点的所述混合线程组构包括多个片块;及所述多个存储器计算节点中的第一节点的第一存储器计算片块,所述第一存储器计算片块耦合到所述第一节点中的多个其它片块,且所述第一节点中的所述片块中的每一者包含相应处理及存储元件。在实例1中,所述第一存储器计算片块包括:第一处理器,其具有处理器输出;及第一寄存器网络,其经配置以:接收来自所述处理器输出的信息及来自所述第一节点中的所述多个其它片块中的一或多者的信息;接收输出指令及延迟指令;及将输出信号提供到所述第一节点中的所述多个其它片块中的一者。在实例1中,根据所述输出指令,所述输出信号包含来自所述处理器输出的所述信息及来自所述第一节点中的所述多个其它片块中的一或多者的所述信息中的一者或另一者,且所述输出信号的时序特性取决于所述延迟指令。
实例2可包含或使用根据实例1所述的标的物,或者可任选地与根据实例1所述的标的物组合,以任选地包含所述第一处理器,所述第一处理器包含乘法/移位处理器及算术/逻辑处理器。
实施例3可包含或使用根据实例2所述的标的物,或者可任选地与根据实例2所述的标的物组合,以任选地包含:所述乘法/移位处理器,其包含第一及第二乘法/移位输入以及乘法/移位输出;及所述算术/逻辑处理器,其包含第一及第二算术/逻辑输入以及算术/逻辑输出,且所述乘法/移位输出耦合到所述第一算术/逻辑输入。
实例4可包含或使用根据实例1至3中任一实例所述的标的物,或者可任选地与根据实例1至3中任一实例所述的标的物组合,以任选地包含所述第一寄存器网络,所述所述第一寄存器网络包括:N个延迟寄存器,其分别对应于所述第一节点中所述第一存储器计算片块耦合到的所述多个其它片块,其中所述延迟寄存器响应于所述延迟指令;及N个输出寄存器,其分别对应于所述延迟寄存器中的每一者,其中所述输出寄存器响应于所述输出指令。
实例5可包含或使用根据实例4所述的标的物,或者可任选地与根据实例4所述的标的物组合,以任选地包含N=4个延迟寄存器及N=4个输出寄存器。
实施例6可包含或使用根据实例5所述的标的物,或者可任选地与根据实例5所述的标的物组合,以任选地包含:直通延迟寄存器,其包括耦合到所述处理器输出的第一输入及耦合到所述直通延迟寄存器的输出的第一反馈输入;及直通输出寄存器,其包括耦合到所述处理器输出的第二输入、耦合到所述直通延迟寄存器的所述输出的第三输入及耦合到所述直通输出寄存器的输出的第二反馈输入。
实施例7可包含或使用根据实例6所述的标的物,或者可任选地与根据实例6所述的标的物组合,以任选地包含寄存器控制器,所述寄存器控制器经配置以将流控制信号提供到所述N个延迟寄存器、所述N个输出寄存器、所述直通延迟寄存器及所述直通输出寄存器中的每一者。
实施例8可包含或使用根据实例4至7中任一实例所述的标的物,或者可任选地与根据实例4至7中任一实例所述的标的物组合,以任选地包含:所述N个延迟寄存器中的第一延迟寄存器,其经配置以将来自当前时间切片或先前时间切片的所述处理器输出的信息提供到所述N个输出寄存器中的对应第一输出寄存器;所述N个延迟寄存器中的第二延迟寄存器,其经配置以将以下中的一者提供到所述N个输出寄存器中的对应第二输出寄存器:(1)来自所述多个其它片块中的所述一或多者的所述信息,(2)来自当前时间切片的所述处理器输出的所述信息,或(3)来自所述先前时间切片的所述处理器输出的所述信息。
实例9可包含或使用根据实例8所述的标的物,或者可任选地与根据实例8所述的标的物组合,以任选地包含时间切片,所述时间切片包括时钟周期的一小部分。
实例10可包含或使用根据实例4至9中任一实例所述的标的物,或者可任选地与根据实例4至9中任一实例所述的标的物组合,以任选地包含,所述N个延迟寄存器中的第一延迟寄存器包含耦合到所述处理器输出及所述第一延迟寄存器的输出的相应输入,且所述N个延迟寄存器中的第二延迟寄存器包含耦合到所述处理器输出、所述第二延迟寄存器的输出及所述第一节点中的所述多个其它片块中的一或多者的相应输入。
实例11可包含或使用根据实例10所述的标的物,或者可任选地与根据实例10所述的标的物组合,以任选地包含与所述第一节点中的所述其它片块的输出解耦的所述第一延迟寄存器的所述输入。
实例12可包含或使用根据前述实例中任一实例所述的标的物,或者可任选地根据前述实例中任一实例所述的标的物组合,以任选地包含一种方法,其包括在第一存储器计算片块中的第一寄存器网络处:接收包括第一计算结果的第一信息;将所述第一信息提供到第一延迟寄存器及第一输出寄存器;将所述第一信息维持在所述第一延迟寄存器处;接收包括第二计算结果的第二信息,所述第二计算结果出现在所述第一计算结果之后;将所述第二信息提供到所述第一延迟寄存器及所述第一输出寄存器;及使用所述第一输出寄存器,将所述第二信息提供到第二存储器计算片块且随后将所述第一信息提供到所述相同的第二存储器计算片块。在实例12中,所述第一存储器计算片块及所述第二存储器计算片块凸轮包括可重新配置计算组构。
实例13可包含或使用根据实例12所述的标的物,或者可任选地与根据实例12所述的标的物组合,以任选地包含接收来自所述第一存储器计算片块上的处理器的信息作为所述第一信息。
实例14可包含或使用根据实例13所述的标的物,或者可任选地与根据实例13所述的标的物组合,以任选地包含接收所述第二信息,其包含接收来自所述第一存储器计算片块上的所述处理器的信息。
实例15可包含或使用根据实例13所述的标的物,或者可任选地与根据实例13所述的标的物组合,以任选地包含接收所述第二信息,其包含接收来自所述可重新配置计算组构的不同存储器计算片块上的不同处理器的信息。
实施例16可包含或使用根据实例12至15中任一实例所述的标的物,或者可任选地与根据实例12至15中任一实例所述的标的物组合,以任选地包含在第一时间切片处或期间将所述第二信息提供到所述第二存储器计算片块,且将所述第一信息提供到所述相同的第二存储器计算片块可对应于所述第一时间切片之后的第二时间切片,且时间切片可包括时钟周期的一部分。
实例17可包含或使用根据实例12至16中任一实例所述的标的物,或可任选地与根据实例12至16中任一实例所述的标的物组合,以任选地包含通过在一或多个时间切片内在所述第一延迟寄存器的输入处接收来自所述第一延迟寄存器的输出信息来将所述第一信息维持在所述第一延迟寄存器处。
实施例18可包含或使用根据实例12至17中任一实例所述的标的物,或者可任选地与根据实例12至17中任一实例所述的标的物组合,以任选地包括在所述第一存储器计算片块中的所述第一寄存器网络处:在第一时间切片,将包括第三计算结果的第三信息提供到第二输出寄存器;在后续时间切片,在所述第一存储器计算片块的输入缓冲器处接收所述第三信息,且所述输入缓冲器可耦合到所述第二输出寄存器的输出。
实施例19可包含或使用根据实例12至18中任一实例所述的标的物,或者可任选地与根据实例12至18中任一实例所述的标的物组合,以任选地包含使用用于同步流的控制器,产生相应寄存器控制信号以控制所述第一延迟寄存器及所述第一输出寄存器。
实例20可包含或使用根据前述实例中任一实例所述的标的物,或者可任选地与根据前述实例中任一实例所述的标的物组合,以任选地包含一种其上包括指令的机器可读媒体,所述指令在由计算架构执行时致使所述计算机架构执行包括以下者的操作:在第一存储器计算片块中的第一寄存器网络处:确定第一计算结果且随后确定第二计算结果;将所述第一计算结果提供到第一延迟寄存器及第一输出寄存器;将所述第一计算结果维持在所述第一延迟寄存器处;将所述第二计算结果提供到所述第一延迟寄存器及所述第一输出寄存器;及使用所述第一输出寄存器且对应于第一时间切片,将所述第二计算结果提供到第一目的地;将所述第一计算结果从所述第一延迟寄存器提供到所述第一输出寄存器;及使用所述第一输出寄存器且对应于后续时间切片,将所述第一计算结果提供到所述第一目的地。
实例21可包含或使用根据实例20所述的标的物,或者可任选地与根据实例20所述的标的物组合,以任选地包含进一步包括将所述第二计算结果提供到不同的第二存储器计算片块的输入的操作。
这些非限制性实例中的每一者可独立存在,或者可与一或多个其它实例以各种排列或组合方式进行组合。
上述详细描述包含对附图的参考,所述附图形成所述详细描述的一部分。附图以说明的方式展示其中可实践本发明的具体实施例。这些实施例在本文中也被称为“实例”。此类实例可包含除所展示或描述元件之外的元件。然而,本发明人也考虑其中仅提供那些所展示或描述元件的实例。此外,对于特定实例(或者其一或多个方面),抑或对于本文中所展示或描述的其它实例(或者其一或多个方面),本发明人还考虑使用那些所展示或描述元件(或者其一或多个方面)的任何组合或排列的实例。
在本文献中,如专利文献中常用,术语“一(a)”或“一(an)”被用来包含一或多于一个,而与“至少一个”或“一或多个”的任何其它例子或用法无关。在本文献中,术语“或”被用指代非排他性“或”,使得“A或B”可包含“A而非B”、“B而非A”以及“A及B”,除非另有指示。在所附权利要求书中,术语“包含”及“其中(in which)”被用作相应术语“包括”及“其中(wherein)”的简明英语等效词。而且,在所附权利要求书中,术语“包含”及“包括”是开放式的,即,包含除在一权利要求中在此术语之后列出的元件之外的元件的系统、装置、物品或过程仍然被认为落入那个权利要求的范围内。此外,在所附权利要求书中,术语“第一”、“第二”及“第三”等仅仅被用作标签且并不意在对它们的对象施加数值要求。
上述描述意在说明性的而非限制性的。例如,上述实例(或者其一或多个方面)可彼此组合地使用。例如,所属领域的一般技术人员在审阅上述描述后可使用其它实施例。提交时应理解是,其将不被用来解释或限制权利要求书的范围或含义。而且,在上述详细描述中,各种特征可被分组在一起以简化本公开。这不应被解释为意指非要求的所公开特征对于任何权利要求是必不可少的。相反,发明标的物可在于少于特定所公开实施例的所有特征。因此,所附权利要求书由此并入到所述详细描述中,其中每一权利要求自身要求作为单独实施例,且经考虑,此类实施例可以各种组合或排列彼此组合。本发明的范围应参考所附权利要求书连同此权利要求书所授权的等效物的全范围来确定。
Claims (20)
1.一种系统,其包括:
多个存储器计算节点,其耦合在可重新配置计算组构中,其中所述节点中的每一者包括混合线程处理器及混合线程组构,且其中每一节点的所述混合线程组构包括多个片块;及
所述多个存储器计算节点中的第一节点的第一存储器计算片块,所述第一存储器计算片块耦合到所述第一节点中的多个其它片块,其中所述第一节点中的所述片块中的每一者包含相应处理及存储元件,且其中所述第一存储器计算片块包括:
第一处理器,其具有处理器输出;及
第一寄存器网络,其经配置以:
接收来自所述处理器输出的信息及来自所述第一节点中的所述多个其它片块中的一或多者的信息;
接收输出指令及延迟指令;及
将输出信号提供到所述第一节点中的所述多个其它片块中的一者;
其中根据所述输出指令,所述输出信号包含来自所述处理器输出的所述信息及来自所述第一节点中的所述多个其它片块中的一或多者的所述信息中的一者或另一者;且
其中所述输出信号的时序特性取决于所述延迟指令。
2.根据权利要求1所述的系统,其中所述第一处理器包含乘法/移位处理器及算术/逻辑处理器。
3.根据权利要求2所述的系统,其中:
所述乘法/移位处理器包含第一及第二乘法/移位输入以及乘法/移位输出;
所述算术/逻辑处理器包含第一及第二算术/逻辑输入以及算术/逻辑输出;且
所述乘法/移位输出耦合到所述第一算术/逻辑输入。
4.根据权利要求1所述的系统,其中所述第一寄存器网络包括:
N个延迟寄存器,其分别对应于所述第一节点中所述第一存储器计算片块耦合到的所述多个其它片块,其中所述延迟寄存器响应于所述延迟指令;及
N个输出寄存器,其分别对应于所述延迟寄存器中的每一者,其中所述输出寄存器响应于所述输出指令。
5.根据权利要求4所述的系统,其进一步包括:
直通延迟寄存器,其包括耦合到所述处理器输出的第一输入及耦合到所述直通延迟寄存器的输出的第一反馈输入;及
直通输出寄存器,其包括耦合到所述处理器输出的第二输入、耦合到所述直通延迟寄存器的所述输出的第三输入及耦合到所述直通输出寄存器的输出的第二反馈输入。
6.根据权利要求5所述的系统,其进一步包括寄存器控制器,所述寄存器控制器经配置以将流控制信号提供到所述N个延迟寄存器、所述N个输出寄存器、所述直通延迟寄存器及所述直通输出寄存器中的每一者。
7.根据权利要求4所述的系统,其中所述N个延迟寄存器中的第一延迟寄存器经配置以将来自当前时间切片或先前时间切片的所述处理器输出的信息提供到所述N个输出寄存器中的对应第一输出寄存器;且
其中所述N个延迟寄存器中的第二延迟寄存器经配置以将以下中的一者提供到所述N个输出寄存器中的对应第二输出寄存器:(1)来自所述多个其它片块中的所述一或多者的所述信息,(2)来自当前时间切片的所述处理器输出的所述信息,或(3)来自所述先前时间切片的所述处理器输出的所述信息。
8.根据权利要求7所述的系统,其中时间切片包括时钟周期的一小部分。
9.根据权利要求4所述的系统,其中所述N个延迟寄存器中的第一延迟寄存器包含耦合到所述处理器输出及所述第一延迟寄存器的输出的相应输入;且
其中所述N个延迟寄存器中的第二延迟寄存器包含耦合到所述处理器输出、所述第二延迟寄存器的输出及所述第一节点中的所述多个其它片块中的一或多者的相应输入。
10.根据权利要求9所述的系统,其中所述第一延迟寄存器的所述输入与所述第一节点中的所述其它片块的输出解耦。
11.一种方法,其包括:
在第一存储器计算片块中的第一寄存器网络处:
接收包括第一计算结果的第一信息;
将所述第一信息提供到第一延迟寄存器及第一输出寄存器;
将所述第一信息维持在所述第一延迟寄存器处;
接收包括第二计算结果的第二信息,所述第二计算结果出现在所述第一计算结果之后;
将所述第二信息提供到所述第一延迟寄存器及所述第一输出寄存器;及
使用所述第一输出寄存器,将所述第二信息提供到第二存储器计算片块且随后将所述第一信息提供到所述相同的第二存储器计算片块;
其中所述第一存储器计算片块及所述第二存储器计算片块包括可重新配置计算组构。
12.根据权利要求11所述的方法,其中接收所述第一信息包含接收来自所述第一存储器计算片块上的处理器的信息。
13.根据权利要求12所述的方法,其中接收所述第二信息包含接收来自所述第一存储器计算片块上的所述处理器的信息。
14.根据权利要求12所述的方法,其中接收所述第二信息包含接收来自所述可重新配置计算组构的不同存储器计算片块上的不同处理器的信息。
15.根据权利要求11所述的方法,其中将所述第二信息提供到所述第二存储器计算片块对应于第一时间切片,其中将所述第一信息提供到所述相同的第二存储器计算片块对应于所述第一时间切片之后的第二时间切片,且其中时间切片包括时钟周期的一部分。
16.根据权利要求11所述的方法,其中将所述第一信息维持在所述第一延迟寄存器处包括在一或多个时间切片内在所述第一延迟寄存器的输入处接收来自所述第一延迟寄存器的输出信息。
17.根据权利要求11所述的方法,其进一步包括在所述第一存储器计算片块中的所述第一寄存器网络处:
在第一时间切片,将包括第三计算结果的第三信息提供到第二输出寄存器;
在后续时间切片,在所述第一存储器计算片块的输入缓冲器处接收所述第三信息,所述输入缓冲器耦合到所述第二输出寄存器的输出。
18.根据权利要求11所述的方法,其进一步包括使用用于同步流的控制器,产生相应寄存器控制信号以控制所述第一延迟寄存器及所述第一输出寄存器。
19.一种上面包括指令的机器可读媒体,所述指令在由计算架构执行时致使所述计算机架构执行包括以下者的操作:
在第一存储器计算片块中的第一寄存器网络处:
确定第一计算结果且随后确定第二计算结果;
将所述第一计算结果提供到第一延迟寄存器及第一输出寄存器;
将所述第一计算结果维持在所述第一延迟寄存器处;
将所述第二计算结果提供到所述第一延迟寄存器及所述第一输出寄存器;及
使用所述第一输出寄存器且对应于第一时间切片,将所述第二计算结果提供到第一目的地;
将所述第一计算结果从所述第一延迟寄存器提供到所述第一输出寄存器;及
使用所述第一输出寄存器且对应于后续时间切片,将所述第一计算结果提供到所述第一目的地。
20.根据权利要求19所述的机器可读媒体,所述操作进一步包括:
将所述第二计算结果提供到不同的第二存储器计算片块的输入。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US17/407,502 | 2021-08-20 | ||
US17/407,502 US11675588B2 (en) | 2021-08-20 | 2021-08-20 | Tile-based result buffering in memory-compute systems |
PCT/US2022/039863 WO2023022906A1 (en) | 2021-08-20 | 2022-08-09 | Tile-based result buffering in memory-compute systems |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118043796A true CN118043796A (zh) | 2024-05-14 |
Family
ID=85239742
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202280065245.5A Pending CN118043796A (zh) | 2021-08-20 | 2022-08-09 | 存储器计算系统中的基于片块的结果缓冲 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11675588B2 (zh) |
CN (1) | CN118043796A (zh) |
WO (1) | WO2023022906A1 (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114223000B (zh) * | 2019-08-14 | 2023-06-06 | 谷歌有限责任公司 | 专用集成电路的双模操作 |
US12066969B2 (en) * | 2022-01-31 | 2024-08-20 | Xilinx, Inc. | IC with adaptive chip-to-chip interface to support different chip-to-chip |
Family Cites Families (42)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080270708A1 (en) | 2007-04-30 | 2008-10-30 | Craig Warner | System and Method for Achieving Cache Coherency Within Multiprocessor Computer System |
US8156307B2 (en) | 2007-08-20 | 2012-04-10 | Convey Computer | Multi-processor system having at least one processor that comprises a dynamically reconfigurable instruction set |
US8122229B2 (en) | 2007-09-12 | 2012-02-21 | Convey Computer | Dispatch mechanism for dispatching instructions from a host processor to a co-processor |
US8561037B2 (en) | 2007-08-29 | 2013-10-15 | Convey Computer | Compiler for generating an executable comprising instructions for a plurality of different instruction sets |
US9710384B2 (en) | 2008-01-04 | 2017-07-18 | Micron Technology, Inc. | Microprocessor architecture having alternative memory access paths |
US9015399B2 (en) | 2007-08-20 | 2015-04-21 | Convey Computer | Multiple data channel memory module architecture |
US8095735B2 (en) | 2008-08-05 | 2012-01-10 | Convey Computer | Memory interleave for heterogeneous computing |
US8972958B1 (en) | 2012-10-23 | 2015-03-03 | Convey Computer | Multistage development workflow for generating a custom instruction set reconfigurable processor |
US8205066B2 (en) | 2008-10-31 | 2012-06-19 | Convey Computer | Dynamically configured coprocessor for different extended instruction set personality specific to application program with shared memory storing instructions invisibly dispatched from host processor |
US20100115233A1 (en) | 2008-10-31 | 2010-05-06 | Convey Computer | Dynamically-selectable vector register partitioning |
US8423745B1 (en) | 2009-11-16 | 2013-04-16 | Convey Computer | Systems and methods for mapping a neighborhood of data to general registers of a processing element |
US10430190B2 (en) | 2012-06-07 | 2019-10-01 | Micron Technology, Inc. | Systems and methods for selectively controlling multithreaded execution of executable code segments |
US9411750B2 (en) * | 2012-07-30 | 2016-08-09 | International Business Machines Corporation | Efficient calibration of a low power parallel data communications channel |
KR102032895B1 (ko) * | 2013-01-28 | 2019-11-08 | 삼성전자주식회사 | 기능 유닛들 간의 기능 로직 공유 장치, 방법 및 재구성 가능 프로세서 |
GB2569775B (en) | 2017-10-20 | 2020-02-26 | Graphcore Ltd | Synchronization in a multi-tile, multi-chip processing arrangement |
US11093251B2 (en) | 2017-10-31 | 2021-08-17 | Micron Technology, Inc. | System having a hybrid threading processor, a hybrid threading fabric having configurable computing elements, and a hybrid interconnection network |
EP4276625A3 (en) | 2018-01-29 | 2024-01-24 | Micron Technology, Inc. | Memory controller |
US11461527B2 (en) | 2018-02-02 | 2022-10-04 | Micron Technology, Inc. | Interface for data communication between chiplets or other integrated circuits on an interposer |
WO2019191738A1 (en) | 2018-03-31 | 2019-10-03 | Micron Technology, Inc. | Backpressure control using a stop signal for a multi-threaded, self-scheduling reconfigurable computing fabric |
KR102447816B1 (ko) | 2018-03-31 | 2022-09-27 | 마이크론 테크놀로지, 인크. | 멀티 스레드, 자체 스케줄링 재구성 가능한 컴퓨팅 패브릭에 대한 다수의 유형의 스레드 식별자 |
EP3776239A1 (en) | 2018-03-31 | 2021-02-17 | Micron Technology, Inc. | Loop execution control for a multi-threaded, self-scheduling reconfigurable computing fabric using a reenter queue |
CN111971652B (zh) * | 2018-03-31 | 2024-06-04 | 美光科技公司 | 多线程自调度可重新配置计算架构的条件分支控制 |
KR102454405B1 (ko) | 2018-03-31 | 2022-10-17 | 마이크론 테크놀로지, 인크. | 멀티 스레드, 자체 스케줄링 재구성 가능한 컴퓨팅 패브릭에 대한 효율적인 루프 실행 |
CN111919205B (zh) | 2018-03-31 | 2024-04-12 | 美光科技公司 | 多线程自调度可重新配置计算架构的循环线程顺序执行控制 |
US11119972B2 (en) | 2018-05-07 | 2021-09-14 | Micron Technology, Inc. | Multi-threaded, self-scheduling processor |
US11126587B2 (en) | 2018-05-07 | 2021-09-21 | Micron Technology, Inc. | Event messaging in a system having a self-scheduling processor and a hybrid threading fabric |
US11132233B2 (en) | 2018-05-07 | 2021-09-28 | Micron Technology, Inc. | Thread priority management in a multi-threaded, self-scheduling processor |
US11513838B2 (en) | 2018-05-07 | 2022-11-29 | Micron Technology, Inc. | Thread state monitoring in a system having a multi-threaded, self-scheduling processor |
US11513837B2 (en) | 2018-05-07 | 2022-11-29 | Micron Technology, Inc. | Thread commencement and completion using work descriptor packets in a system having a self-scheduling processor and a hybrid threading fabric |
US11119782B2 (en) | 2018-05-07 | 2021-09-14 | Micron Technology, Inc. | Thread commencement using a work descriptor packet in a self-scheduling processor |
US11074078B2 (en) | 2018-05-07 | 2021-07-27 | Micron Technology, Inc. | Adjustment of load access size by a multi-threaded, self-scheduling processor to manage network congestion |
US11068305B2 (en) | 2018-05-07 | 2021-07-20 | Micron Technology, Inc. | System call management in a user-mode, multi-threaded, self-scheduling processor |
US11513840B2 (en) | 2018-05-07 | 2022-11-29 | Micron Technology, Inc. | Thread creation on local or remote compute elements by a multi-threaded, self-scheduling processor |
US11513839B2 (en) | 2018-05-07 | 2022-11-29 | Micron Technology, Inc. | Memory request size management in a multi-threaded, self-scheduling processor |
US11144228B2 (en) | 2019-07-11 | 2021-10-12 | Micron Technology, Inc. | Circuit partitioning for a memory device |
US11256476B2 (en) | 2019-08-08 | 2022-02-22 | Achronix Semiconductor Corporation | Multiple mode arithmetic circuit |
US11573834B2 (en) | 2019-08-22 | 2023-02-07 | Micron Technology, Inc. | Computational partition for a multi-threaded, self-scheduling reconfigurable computing fabric |
US11150900B2 (en) | 2019-08-28 | 2021-10-19 | Micron Technology, Inc. | Execution or write mask generation for data selection in a multi-threaded, self-scheduling reconfigurable computing fabric |
US11836524B2 (en) | 2019-08-29 | 2023-12-05 | Micron Technology, Inc. | Memory interface for a multi-threaded, self-scheduling reconfigurable computing fabric |
US11093429B1 (en) | 2020-01-30 | 2021-08-17 | International Business Machines Corporation | Daisy-chained serial bus for multiple small footprint devices |
US11561798B2 (en) * | 2020-07-30 | 2023-01-24 | International Business Machines Corporation | On-the-fly adjustment of issue-write back latency to avoid write back collisions using a result buffer |
US11556342B1 (en) * | 2020-09-24 | 2023-01-17 | Amazon Technologies, Inc. | Configurable delay insertion in compiled instructions |
-
2021
- 2021-08-20 US US17/407,502 patent/US11675588B2/en active Active
-
2022
- 2022-08-09 CN CN202280065245.5A patent/CN118043796A/zh active Pending
- 2022-08-09 WO PCT/US2022/039863 patent/WO2023022906A1/en active Application Filing
Also Published As
Publication number | Publication date |
---|---|
US11675588B2 (en) | 2023-06-13 |
US20230067771A1 (en) | 2023-03-02 |
WO2023022906A1 (en) | 2023-02-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114691317A (zh) | 可重新配置的计算结构中的循环执行 | |
CN118043796A (zh) | 存储器计算系统中的基于片块的结果缓冲 | |
CN117296048A (zh) | 传输具有不同延时的请求类型 | |
CN118043815A (zh) | 调试数据流计算机架构 | |
CN118076944A (zh) | 可重新配置计算组构中的循环执行期间的数据存储 | |
CN117795496A (zh) | 可重新配置计算组构中的并行矩阵运算 | |
CN114691354A (zh) | 动态分解及线程分配 | |
CN117581200A (zh) | 在分派期间从存储器加载数据 | |
CN118043795A (zh) | 用于粗粒度可重新配置架构的掩蔽 | |
CN118119933A (zh) | 用于触发协作进程的提前终止的机制 | |
CN115686638A (zh) | 无阻挡外部装置调用 | |
US20240086324A1 (en) | High bandwidth gather cache | |
CN117632256A (zh) | 用于处置多元件处理器中的断点的装置及方法 | |
CN117435545A (zh) | 用于请求计算系统中的原子操作的方法和系统 | |
CN117435549A (zh) | 用于硬件组件之间的通信的方法和系统 | |
CN118140209A (zh) | 可重新配置计算组构中的循环执行 | |
CN118056181A (zh) | 链式资源锁定 | |
CN118043792A (zh) | 提供事件消息的可靠接收的机制 | |
CN115705167A (zh) | 在可重新配置计算结构中对外部存储器进行索引 | |
CN118647984A (zh) | 到计算组构中的节点的内核映射 | |
CN117546133A (zh) | 缓解具有多个存储器控制器的系统上的存储器热点 | |
CN117280332A (zh) | 通过具有多个片上系统的结构避免死锁 | |
CN117677927A (zh) | 高效复数乘法及累加 | |
US11861366B2 (en) | Efficient processing of nested loops for computing device with multiple configurable processing elements using multiple spoke counts | |
CN117435548A (zh) | 用于硬件组件之间的通信的方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |