CN116529721A - 按需可编程原子内核加载 - Google Patents
按需可编程原子内核加载 Download PDFInfo
- Publication number
- CN116529721A CN116529721A CN202180079654.6A CN202180079654A CN116529721A CN 116529721 A CN116529721 A CN 116529721A CN 202180079654 A CN202180079654 A CN 202180079654A CN 116529721 A CN116529721 A CN 116529721A
- Authority
- CN
- China
- Prior art keywords
- programmable atomic
- partition
- operator
- atomic operator
- programmable
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/4401—Bootstrapping
- G06F9/4403—Processor initialisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F12/00—Accessing, addressing or allocating within memory systems or architectures
- G06F12/14—Protection against unauthorised use of memory or access to memory
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F12/00—Accessing, addressing or allocating within memory systems or architectures
- G06F12/14—Protection against unauthorised use of memory or access to memory
- G06F12/1458—Protection against unauthorised use of memory or access to memory by checking the subject access rights
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2212/00—Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
- G06F2212/10—Providing a specific technical effect
- G06F2212/1052—Security improvement
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本文中描述了用于按需可编程原子内核加载的装置和技术。存储器控制器的可编程原子单元(PAU)可接收所述存储器控制器对可编程原子运算符的调用。所述PAU可随后对所述可编程原子运算符的可编程原子运算符分区执行验证。在此,所述可编程原子运算符分区位于所述PAU的存储器中。所述PAU可随后响应于所述验证指示未准备所述可编程原子运算符分区而用信号发送陷阱。
Description
优先权申请
本申请要求2020年10月20日提交的美国申请序列号17/075,055的优先权权益,所述美国申请以全文引用的方式并入本文中。
关于政府支持的声明
本发明是在美国政府支持下依据DARPA授予的合同第HR00111890003号完成的。美国政府享有本发明的某些权利。
背景技术
小芯片是一种用于集成各种处理功能的新兴技术。通常,小芯片系统由离散模块(各自被称为“小芯片”)构成,所述离散模块集成在中介层上,并且在许多实例中视需要通过一或多个已建立的网络互连,以向系统提供所要功能。中介层和所包含的小芯片可封装在一起,以便于与较大系统的其它部件互连。每一小芯片可包含一或多个个别集成电路(IC)或“芯片”,其可能与离散电路部件组合,且通常耦合到相应衬底以便于附接到中介层。系统中的大多数或所有小芯片将个别地配置以用于通过一或多个已建立的网络进行通信。
小芯片作为系统的个别模块的配置不同于在单芯片上实施的此类系统,所述芯片在一个衬底(例如,单个裸片)上含有不同装置块(例如,知识产权(IP)块),例如片上系统(SoC),或集成在印刷电路板(PCB)上的多个离散封装装置。一般来说,小芯片提供比离散封装装置更好的性能(例如,更低的功耗、更少的等待时间等),并且小芯片提供比单裸片芯片更高的生产效益。这些生产效益可包含良率提高或者开发成本和时间减少。
小芯片系统可包含例如一或多个应用程序(或处理器)小芯片和一或多个支持小芯片。在此,应用程序小芯片与支持小芯片之间的区别只是对小芯片系统可能的设计场景的参考。因此,举例来说,合成视觉小芯片系统可包含(仅借助于实例)用于产生合成视觉输出的应用程序小芯片,以及支持小芯片,例如存储器控制器小芯片、传感器接口小芯片或通信小芯片。在典型的用例中,合成视觉设计者可设计应用程序小芯片并从其它方获取支持小芯片。因此,由于不再设计和生产支持小芯片中所包含的功能,因此减少了设计支出(例如,在时间或复杂性方面)。小芯片还支持原本可能很困难的IP块紧密集成,例如使用不同的处理技术或使用不同的特征大小(或利用不同的接触技术或间距)制造的IP块。因此,可以模块化方式组装具有不同物理、电气或通信特性的多个IC或IC组件,以提供实现所需功能的组件。小芯片系统还可促进调适以适应将并入有小芯片系统的不同较大系统的需求。在实例中,IC或其它组件可针对特定功能的功率、速度或发热进行优化,如同传感器可能发生的情况一样,相比于在单个裸片上尝试与其它装置集成,所述IC或其它组件可更容易地与其它装置集成。此外,通过减小裸片的整体大小,小芯片的良率往往高于更复杂的单裸片装置的良率。
附图说明
根据下文给出的详细描述和本公开的各个实施例的附图,将更充分地理解本公开。然而,图式不应被视为将本公开限于特定实施例,而是仅用于解释和理解。
图1A和1B说明根据实施例的小芯片系统的实例。
图2说明根据实施例的存储器控制器小芯片的实例的部件。
图3说明根据实施例的可编程原子单元(PAU)的实例中的部件。
图4说明根据实施例的可编程原子单元配置流程。
图5说明根据实施例的实例小芯片协议接口可编程原子陷阱响应包。
图6是根据实施例的用于按需可编程原子内核加载的方法的实例的流程图。
图7是机器的实例的框图,本公开的实施例可利用所述机器、在所述机器中或通过所述机器进行操作。
具体实施方式
下文所描述的图1提供小芯片系统和在其中操作的部件的实例。所说明的小芯片系统包含存储器控制器。小芯片系统包含用于在小芯片之间通信的基于包的网络。存储器控制器包含具有处理器的可编程原子单元(PAU),所述处理器用于响应于对可编程原子运算符的存储器请求而执行自定义程序,即可编程原子运算符(PAO)。下文关于图2和4描述关于PAU的额外细节。
因为PAO是非内置的小型软件程序,所以在某些时候它们必须利用PAU进行加载(例如,注册)才能运行。实现这一点的一种简单方式可包含(例如,在应用程序小芯片上运行的)程序在小芯片系统的初始化期间向PAU提供PAO的代码(例如,PAO内核或简称为内核)。因此,初始化PAU指令存储器的典型进程将涉及软件在开始执行使用给定PAO内核的线程之前加载所有PAU指令存储器。这种方法存在效率问题。具体来说,系统可支持的PAO比将要使用的PAO更多。此外,系统可在许多存储器控制器中包含许多PAU。在这两种情况下,不能保证给定PAO内核将在给定PAU上使用。因此,初始化所有PAU指令存储器以包含所有PAO内核可能会在将PAO内核传送到PAU时浪费带宽,并且可能会使等待时间和功耗增加。
为了解决在所有PAU中预加载所有PAO内核时效率低下的问题,本文描述了一种用于加载PAO内核的按需机制。在初始化期间,向小芯片系统的各种PAU注册给定PAO。然而,此注册不包含PAO的内核。实际上,注册使PAU能够识别对PAO的请求,并且在实例中,在本地指令存储器中保留空间以存储内核。当PAU接收到对PAO的第一请求时,PAU确定PAO内核不存在,并(例如,以陷阱、异常、故障等形式)用信号发送此条件。然后,信号的接收器(例如,陷阱处理程序)发起PAO内核到PAU的传送。一旦PAU具有PAO内核,PAU就可为未来的PAO请求提供服务。
举例来说,如果执行线程向存储器控制器发送PAU执行PAO的存储器请求,那么PAU可检查PAO的指令存储器分区是否有效。如果分区有效,那么PAU将以原子方式执行PAO内核。然而,如果此存储器请求使得此线程第一次存取所述PAO分区,并且分区无效(例如,PAO内核尚未存储在分区中),那么PAU可将陷阱响应发送回请求处理器。陷阱响应可指示线程尝试存取返回的存储器地址处的无效PAO分区。然后,陷阱处理程序(例如,软件陷阱处理程序)可识别正在被存取的PAU,且可以将PAO内核加载到所述PAU的PAO分区中。然后,请求处理器可从PAO的已捕获存储器请求指令开始恢复执行线程,然后所述线程将正常执行。在实例中,一旦应用程序已完成,应用程序在其执行期间加载的所有PAU分区都可能会失效(例如,被清除)。
本文所描述的按需PAO内核加载解决了当可能未使用的PAO内核在小芯片系统中的可能多个PAU上加载时可能出现的效率低下问题。通过等待安装PAO内核直到作出对PAO的请求,可减少应用程序初始化等待时间,且可保留系统资源,例如带宽或功率。下文提供额外细节和实例。
图1A和1B说明根据实施例的小芯片系统110的实例。图1A是安装在外围板105上的小芯片系统110的图示,所述外围板可例如通过外围部件互连高速(PCIe)连接到更广泛的计算机系统。小芯片系统110包含封装衬底115、中介层120和四个小芯片,即应用程序小芯片125、主机接口小芯片135、存储器控制器小芯片140和存储器装置小芯片150。其它系统可包含许多额外小芯片以提供额外功能,如将从以下论述中显而易见。小芯片系统110的封装以封盖或盖板165说明,但可使用用于小芯片系统的其它封装技术和结构。图1B是为了清楚起见标记小芯片系统中的部件的框图。
应用程序小芯片125说明为包含片上网络(NOC)130以支持用于小芯片间通信的小芯片网络155。在实例实施例中,NOC 130可包含在应用程序小芯片125上。在实例中,可响应于所选择的支持小芯片(例如,小芯片135、140和150)而定义NOC 130,从而使设计者能够为NOC 130选择适当数目或小芯片网络连接或交换机。在实例中,NOC 130可位于单独小芯片上,或甚至位于中介层120内。在如本文中所论述的实例中,NOC 130实施小芯片协议接口(CPI)网络。
CPI是基于包的网络,其支持虚拟信道,以实现小芯片之间灵活、高速的交互。CPI实现了从小芯片内网络桥接到小芯片网络155。举例来说,高级可扩展接口(AXI)是广泛用于设计芯片内通信的规范。然而,AXI规范涵盖大量的物理设计选项,例如物理信道的数目、信号定时、功率等。在单个芯片内,选择这些选项通常是为了满足设计目标,例如功耗、速度等。然而,为了实现小芯片系统的灵活性,使用例如CPI的适配器在可在各种小芯片中实施的各种AXI设计选项之间进行介接。通过实现物理信道到虚拟信道的映射且利用分组化协议封装基于时间的信令,CPI跨小芯片网络155桥接小芯片内网络。
CPI可利用多种不同的物理层来传输包。物理层可包含简单的导电连接,或可包含驱动器以增大电压,或以其它方式促进在更长距离内传输信号。此类物理层的实例可包含高级接口总线(AIB),其在各种实例中可在中介层120中实施。AIB使用具有转发时钟的源同步数据传送来传输和接收数据。以单数据速率(SDR)或双数据速率(DDR)相对于所传输的时钟跨AIB传送包。AIB支持各种信道宽度。当在SDR模式下操作时,AIB信道宽度为20位的倍数(20、40、60……),并且对于DDR模式,AIB信道宽度为40位的倍数:(40、80、120……)。AIB信道宽度包含传输和接收信号。信道可经配置以具有对称数目的传输(TX)和接收(RX)输入/输出(I/O),或者具有非对称数目的发射器和接收器(例如,要么是所有发射器,要么是所有接收器)。信道可取决于哪一个小芯片提供主时钟而充当AIB主体或从属。AIB I/O单元支持三个时钟模式:异步(即,非时控)、SDR和DDR。在各种实例中,非时控模式被用于时钟和一些控制信号。SDR模式可使用专用的仅SDR I/O单元,或双重使用SDR/DDR I/O单元。
在实例中,CPI包协议(例如,点到点或可路由)可在AIB信道内使用对称的接收和传输I/O单元。CPI流协议允许更灵活地使用AIB I/O单元。在实例中,流模式的AIB信道可将I/O单元配置为全部为TX、全部为RX或者一半为TX且一半为RX。CPI包协议可在SDR或DDR操作模式中使用AIB信道。在实例中,AIB信道针对SDR模式以80个I/O单元(即,40个TX和40个RX)的增量配置,并且针对DDR模式以40个I/O单元的增量配置。CPI流协议可在SDR或DDR操作模式中使用AIB信道。此处,在实例中,AIB信道针对SDR和DDR模式两者以40个I/O单元为增量。在实例中,向每一AIB信道指派唯一的接口标识符。所述标识符在CPI复位和初始化期间用于确定跨邻近小芯片的成对AIB信道。在实例中,接口标识符是包括七位小芯片标识符、七位列标识符和六位链路标识符的20位值。AIB物理层使用AIB带外移位寄存器来传输接口标识符。使用移位寄存器的位32到51跨AIB接口在两个方向上传送20位接口标识符。
AIB将堆叠的一组AIB信道定义为AIB信道列。AIB信道列具有一定数目的AIB信道,外加辅助信道。辅助信道含有用于AIB初始化的信号。列内的所有AIB信道(辅助信道除外)具有相同配置(例如,全部为TX、全部为RX或者一半为TX且一半为RX,并且具有相同数目的数据I/O信号)。在实例中,从邻近于AUX信道的AIB信道开始,以连续增大次序对AIB信道编号。邻近于AUX的AIB信道被定义为AIB信道零。
通常,个别小芯片的CPI接口可包含串行化-反串行化(SERDES)硬件。SERDES互连非常适用于需要高速信令和低信号计数的情况。然而,对于多路复用和解复用、错误检测或校正(例如,使用块级循环冗余校验(CRC))、链路级重试或前向错误校正,SERDES可能会引起额外的功耗和更长的等待时间。然而,当低等待时间或能耗是超短距离小芯片到小芯片互连的主要关注点时,可利用时钟速率允许以最少等待时间进行数据传送的并行接口。CPI包含用于使这些超短距离小芯片互连的等待时间和能耗两者减到最少的元件。
对于流量控制,CPI采用基于信用的技术。例如应用程序小芯片125的接收方向例如存储器控制器小芯片140的发送方提供表示可用缓冲器的信用。在实例中,CPI接收方包含用于给定传输时间单位的每一虚拟信道的缓冲器。因此,如果CPI接收方在时间上支持五个消息和单个虚拟信道,那么接收方具有布置成五列的五个缓冲器(例如,每一单位时间一行)。如果支持四个虚拟信道,那么接收方具有布置成五列的二十个缓冲器。每一缓冲器保持一个CPI包的有效负载。
当发送方向接收方进行传输时,发送方基于传输而使可用信用递减。一旦接收方的所有信用都用完,发送方就停止向接收方发送包。这确保了接收方始终具有可用的缓冲器来存储传输。
当接收方处理接收到的包并释放缓冲器时,接收方将可用缓冲空间传达回发送方。随后,发送方可使用此信用返回以允许传输额外信息。
还说明了小芯片网状网络160,其使用直接小芯片到小芯片技术,而不需要NOC130。小芯片网状网络160可在CPI或另一小芯片到小芯片协议中实施。小芯片网状网络160通常启用小芯片流水线,其中一个小芯片充当到流水线的接口,而流水线接口中的其它小芯片仅与自身相连。
此外,还可使用专用装置接口来互连小芯片,所述专用装置接口例如一或多个工业标准存储器接口145(例如,同步存储器接口,例如DDR5、DDR 6)。小芯片系统或个别小芯片到外部装置的连接(例如,较大系统可通过所要接口(例如,PCIE接口)。在实例中,例如,可通过主机接口小芯片135实施外部接口,在所描绘的实例中,所述主机接口小芯片提供小芯片系统110外部的PCIE接口。当行业中的惯例或标准已经汇聚在此类专用接口145上时,通常采用此类接口。将存储器控制器小芯片140连接到动态随机存取存储器(DRAM)存储器装置150的双数据速率(DDR)接口145的所说明实例就是此类行业惯例。
在多种可能的支持小芯片中,存储器控制器小芯片140可能存在于小芯片系统110中,这是因为几乎无所不在地使用存储来进行计算机处理以及对存储器装置使用先进技术。因此,使用通过其它技术产生的存储器装置小芯片150和存储器控制器小芯片140使小芯片系统设计者能够获得由成熟生产商生产的稳健产品。通常,存储器控制器小芯片140提供存储器装置特定接口来读取、写入或擦除数据。通常,存储器控制器小芯片140可提供额外功能,例如错误检测、错误校正、维护操作或原子运算符执行。对于一些类型的存储器,维护操作往往特定于存储器装置150,例如NAND快闪或存储类存储器中的垃圾收集、NAND快闪存储器中的温度调整(例如,交叉温度管理)。在实例中,维护操作可包含逻辑到物理(L2P)映射或管理,以在数据的物理与逻辑表示之间提供间接层级。在例如DRAM的其它类型的存储器中,例如刷新等一些存储器操作可在某些时间由主机处理器或存储器控制器控制,并且在其它时间由DRAM存储器装置或与一或多个DRAM装置相关联的逻辑控制,所述逻辑例如接口芯片(在实例中,缓冲器)。
原子运算符是例如可由存储器控制器小芯片140执行的数据操纵。在其它小芯片系统中,可由其它小芯片执行原子运算符。举例来说,可由应用程序小芯片125在命令中指定“增量”的原子运算符,所述命令包含存储器地址并且可能包含增量值。在接收到命令后,存储器控制器小芯片140从指定存储器地址检索数字,使所述数字递增命令中所指定的量,并存储结果。在成功完成后,存储器控制器小芯片140向应用程序小芯片125提供命令成功的指示。原子运算符避免了跨小芯片网络160传输数据,从而减少执行此类命令的等待时间。
原子运算符可分为内置原子或可编程(例如,自定义)原子。内置原子是在硬件中不变地实施的一组有限的操作。可编程原子是可在存储器控制器小芯片140的可编程原子单元(PAU)(例如,自定义原子单元(CAU))上执行的小程序。图1说明论述PAU的存储器控制器小芯片的实例。
存储器装置小芯片150可为或包含易失性存储器装置或非易失性存储器的任何组合。易失性存储器装置的实例包含但不限于随机存取存储器(RAM),例如DRAM、同步DRAM(SDRAM)、图形双数据速率类型6SDRAM(GDDR6 SDRAM)等等。非易失性存储器装置的实例包含但不限于与非(NAND)型快闪存储器、存储类存储器(例如,相变存储器或基于忆阻器的技术)、铁电RAM(FeRAM)等等。所说明的实例包含作为小芯片的存储器装置150,然而,存储器装置150可驻留在别处,例如在外围板105上的不同封装中。对于许多应用程序,可提供多个存储器装置小芯片。在实例中,这些存储器装置小芯片可各自实施一或多种存储技术。在实例中,存储器小芯片可包含不同技术的多个堆叠存储器裸片,例如与一或多个动态随机存取存储器(DRAM)装置堆叠或以其它方式通信的一或多个静态随机存取存储器(SRAM)装置。存储器控制器140还可用于协调小芯片系统110中的多个存储器小芯片之间的操作;例如,在一或多个层级的高速缓冲存储装置中利用一或多个存储器小芯片,并使用一或多个额外存储器小芯片作为主存储器。小芯片系统110还可包含多个存储器控制器140,其可用于为单独的处理器、传感器、网络等提供存储器控制功能。例如小芯片系统110的小芯片架构在允许适应不同的存储器存储技术方面提供优点;并且通过更新的小芯片配置提供不同的存储器接口,而无需重新设计系统结构的其余部分。
图2说明根据实施例的存储器控制器小芯片205的实例的部件。存储器控制器小芯片205包含高速缓冲存储器210、高速缓冲存储器控制器215、裸片外存储器控制器220(例如,用于与裸片外存储器275通信)、网络通信接口225(例如,用于与小芯片网络285介接且与其它小芯片通信),以及一组原子和合并单元250。此组的构件可包含例如写入合并单元255、存储器危险单元260、内置原子单元265或PAU 270。各个部件是按逻辑说明的,并且它们未必会被实施。举例来说,内置原子单元265可能包括沿着通往裸片外存储器的路径的不同装置。举例来说,内置原子单元265可处于存储器小芯片上的接口装置/缓冲器中,如上文所论述。相比之下,可编程原子单元270可在存储器控制器小芯片205上的单独处理器中实施(但在各种实例中,可在其它位置中实施,例如在存储器小芯片上实施)。
裸片外存储器控制器220直接耦合到裸片外存储器275(例如,经由总线或其它通信连接),以向以及从例如裸片外存储器275和裸片外存储器280等一或多个裸片外存储器提供写入操作和读取操作。在所描绘的实例中,裸片外存储器控制器220还针对输出耦合到原子和合并单元250,并且针对输入耦合到高速缓冲存储器控制器215(例如,存储器侧高速缓冲存储器控制器)。
在实例配置中,高速缓冲存储器控制器215直接耦合到高速缓冲存储器210,且可耦合到网络通信接口225以进行输入(例如传入读取或写入请求),且针对输出耦合到裸片外存储器控制器220。
网络通信接口225包含包解码器230、网络输入队列235、包编码器240和网络输出队列245以支持基于包的小芯片网络285,例如CPI。小芯片网络285可在处理器、存储器控制器、混合线程处理器、可配置处理电路或通信接口之间提供包路由。在此类基于包的通信系统中,每一包通常包含目的地和源寻址,以及任何数据有效负载或指令。在实例中,取决于配置,小芯片网络285可被实施为具有折叠Clos配置的纵横交换机的集合,或提供额外连接的网状网络。
在各种实例中,小芯片网络285可以是异步交换结构的一部分。在此,数据包可沿着各种路径中的任一个路由,使得任何所选择的数据包可在多个不同时间中的任何时间到达寻址的目的地,这取决于路由。另外,小芯片网络285可至少部分地实施为同步通信网络,例如同步网状通信网络。预期通信网络的两种配置均用于根据本公开的实例。
存储器控制器小芯片205可接收具有例如源地址、读取请求和物理地址的包。作为响应,裸片外存储器控制器220或高速缓冲存储器控制器215将从指定的物理地址(其可在裸片外存储器275或高速缓冲存储器210中)读取数据,并将响应包汇编成含有所请求数据的源地址。类似地,存储器控制器小芯片205可接收具有源地址、写入请求和物理地址的包。作为响应,存储器控制器小芯片205将数据写入到指定的物理地址(其可在高速缓冲存储器210或裸片外存储器275或280中),并将响应包汇编成含有数据被存储到存储器的确认的源地址。
因此,在可能的情况下,存储器控制器小芯片205可经由小芯片网络285接收读取和写入请求,且使用与高速缓冲存储器210介接的高速缓冲存储器控制器215来处理所述请求。如果高速缓冲存储器控制器215无法处理所述请求,那么裸片外存储器控制器220通过与裸片外存储器275或280、原子和合并单元250或这两者通信来处理所述请求。如上所述,一或多个层级的高速缓冲存储器还可在裸片外存储器275或280中实施;且在一些此类实例中可由高速缓冲存储器控制器215直接存取。由裸片外存储器控制器220读取的数据可由高速缓冲存储器控制器215高速缓存在高速缓冲存储器210中以供后续使用。
原子和合并单元250被耦合以接收(作为输入)裸片外存储器控制器220的输出,并将输出提供到高速缓冲存储器210、网络通信接口225或直接提供到小芯片网络285。存储器危险单元260、写入合并单元255和内置(例如,预定)原子单元265可各自被实施为具有其它组合逻辑电路系统(例如加法器、移位器、比较器、与门、或门、异或门或其任何合适的组合)或其它逻辑电路系统的状态机。这些部件还可包含一或多个寄存器或缓冲器以存储操作数或其它数据。PAU 270可被实施为一或多个处理器核心或控制电路系统,以及具有其它组合逻辑电路系统或其它逻辑电路系统的各种状态机,且还可包含一或多个寄存器、缓冲器或存储器以存储地址、可执行指令、操作数和其它数据,或可被实施为处理器。
写入合并单元255接收读取数据和请求数据,且合并请求数据和读取数据以创建具有读取数据和将在响应或返回数据包中使用的源地址的单个单元。写入合并单元255将合并后的数据提供到高速缓冲存储器210的写入端口(或等效地,提供到高速缓冲存储器控制器215以写入到高速缓冲存储器210)。任选地,写入合并单元255将合并后的数据提供到网络通信接口225以编码并准备响应或返回数据包以在小芯片网络285上传输。
当请求数据是针对内置原子运算符时,内置原子单元265从写入合并单元255或直接从裸片外存储器控制器220接收请求并读取数据。执行原子运算符,且使用写入合并单元255将所得数据写入到高速缓冲存储器210,或提供到网络通信接口225以编码并准备响应或返回数据包以在小芯片网络285上传输。
内置原子单元265处理预定义原子运算符,例如提取并递增或者比较并交换。在实例中,这些操作对大小为32字节或更小的单个存储器位置执行简单的读取-修改-写入操作。从经由小芯片网络285传输的请求包发起原子存储器操作。请求包具有物理地址、原子运算符类型、操作数大小,且任选地具有至多32字节的数据。原子运算符对高速缓冲存储器210的高速缓冲存储器行执行读取-修改-写入,从而在必要时填充所述高速缓冲存储器。原子运算符响应可为简单的完成响应,或具有至多32字节的数据的响应。实例原子存储器运算符包含提取并与、提取并或、提取并异或、提取并加、提取并减、提取并递增、提取并递减、提取并最小、提取并最大、提取并交换和比较并交换。在各种实例实施例中,支持32位和64位操作,以及对16或32字节的数据的操作。本文中所公开的方法还与支持较大或较小操作和较多或较少数据的硬件兼容。
内置原子运算符还可涉及对关于所请求数据的“标准”原子运算符的请求,例如相对简单的单周期整数原子,例如提取并递增或比较并交换,其吞吐量将与不涉及原子运算符的常规存储器读取或写入操作相同。对于这些操作,高速缓冲存储器控制器215通常可通过(在硬件中)设置危险位来保留高速缓冲存储器210中的高速缓冲存储器行,使得高速缓冲存储器行在转换时无法被另一进程读取。从裸片外存储器275或高速缓冲存储器210获得数据,并将所述数据提供到内置原子单元265以执行所请求的原子运算符。在原子运算符之后,除了将所得数据提供到包编码器240以对传出数据包进行编码以在小芯片网络285上传输之外,内置原子单元265还将所得数据提供到写入合并单元255,所述写入合并单元还将所得数据写入到高速缓冲存储器210。在将所得数据写入到高速缓冲存储器210之后,存储器危险单元260将清除所设置的任何对应危险位。
PAU 270实现了可编程原子运算符(也称为“自定义原子事务”或“自定义原子运算符”)的高性能(高吞吐量和低等待时间),其与内置原子运算符的性能相当。代替执行多个存储器存取,响应于原子运算符请求指定可编程原子运算符和存储器地址,存储器控制器小芯片205中的电路系统将原子运算符请求传送到PAU 270,并设置存储在存储器危险寄存器中的对应于原子运算符中所使用的存储器行的存储器地址的危险位,以确保不对所述存储器行执行其它操作(读取、写入或原子),然后在原子运算符完成后清除所述危险位。为执行可编程原子运算符的PAU 270提供的额外、直接数据路径允许额外的写入操作,而不会受到通信网络带宽的任何限制,并且不会增加通信网络的任何拥塞。
PAU 270包含具有一或多个处理器核心的多线程处理器,例如基于RISC-V ISA的多线程处理器,且进一步具有用于执行可编程原子运算符的扩展指令集。当提供用于执行可编程原子运算符的扩展指令集时,PAU 270可体现为一或多个混合线程处理器。在一些实例实施例中,PAU 270提供桶式轮循瞬时线程交换以维持较高的每时钟指令速率。
可编程原子运算符可由PAU 270执行,所述可编程原子运算符涉及对关于所请求数据的可编程原子运算符的请求。用户可准备编程代码以提供此类可编程原子运算符。举例来说,可编程原子运算符可以是相对简单的多周期操作,例如浮点加法,或可以是相对复杂的多指令操作,例如布隆过滤器插入(Bloom filter insert)。可编程原子运算符可与预定原子运算符相同或不同,只要它们是由用户而不是系统供应商定义的。对于这些操作,高速缓冲存储器控制器215可通过(在硬件中)设置危险位来保留高速缓冲存储器210中的高速缓冲存储器行,使得高速缓冲存储器行在转换时无法被另一进程读取。从高速缓冲存储器210或裸片外存储器275或280获得数据,并将所述数据提供到PAU 270以执行所请求的可编程原子运算符。在原子运算符之后,PAU 270将所得数据提供到网络通信接口225以直接对具有所得数据的传出数据包进行编码以在小芯片网络285上传输。此外,PAU 270将所得数据提供到高速缓冲存储器控制器215,所述高速缓冲存储器控制器还将所得数据写入到高速缓冲存储器210。在将所得数据写入到高速缓冲存储器210之后,高速缓冲存储器控制电路215将清除所设置的任何对应危险位。
在所选择的实例中,针对可编程原子运算符所采用的方式是提供多个通用的自定义原子请求类型,其可通过小芯片网络285从例如处理器或其它系统部件等起始源发送到存储器控制器小芯片205。高速缓冲存储器控制器215或裸片外存储器控制器220将请求标识为自定义原子且将请求转发到PAU 270。在代表性实施例中,PAU 270:(1)是能够有效地执行用户定义的原子运算符的可编程处理元件,(2)可对存储器、算术和逻辑操作以及控制流决策执行加载和存储;并且(3)利用具有一组新的专用指令的RISC-V ISA来促进与此类控制器215、220的交互,从而以原子方式执行用户定义的操作。在合乎需要的实例中,RISC-V ISA含有支持高级语言运算符和数据类型的完整指令集。PAU 270可利用RISC-V ISA,但通常会支持更有限的指令集和有限的寄存器文件大小,以在包含在存储器控制器小芯片205内时减小单元的裸片大小。
如上文所提到,在将读取数据写入到高速缓冲存储器210之前,存储器危险清除单元260将清除保留的高速换存储器行的所设置危险位。因此,当写入合并单元255接收到请求和读取数据时,存储器危险清除单元260可将复位或清除信号传输到高速缓冲存储器210以复位保留的高速缓冲存储器行的所设置存储器危险位。并且,复位此危险位还将释放涉及指定(或保留)的高速缓冲存储器行的未决读取或写入请求,从而将未决读取或写入请求提供到入站请求多路复用器以供选择和处理。
图3说明根据实施例的可编程原子单元300(PAU)的实例中的部件,例如上文关于图1(例如,在存储器控制器140中)和图2(例如,PAU 270)所提到的部件。如所说明,PAU 300包含处理器305、本地存储器310(例如,SRAM)和用于本地存储器310的控制器315。
在实例中,处理器305是流水线的,使得不同指令的多个阶段在每一时钟周期一起执行。处理器305还是桶式多线程处理器,具有在处理器305的每一时钟周期后在不同寄存器文件(例如,含有当前处理状态的寄存器组)之间切换的电路系统。这实现了当前执行线程之间的高效上下文切换。在实例中,处理器305支持八个线程,从而产生八个寄存器文件。在实例中,寄存器文件中的一些或全部未集成到处理器305中,而是驻留在本地存储器310中(寄存器320)。这通过消除用于这些寄存器320的传统触发器来降低处理器305中的电路复杂性。
本地存储器310还可容纳高速缓冲存储器330和用于原子运算符的指令325。原子指令325包括支持各种应用程序加载的原子运算符的指令集。当例如应用程序小芯片125请求原子运算符时,处理器305执行对应于原子运算符的指令集(例如,内核)。在实例中,对原子指令325进行分区以建立指令集。在此实例中,由请求进程请求的特定可编程原子运算符可通过分区号标识可编程原子运算符。当利用PAU 300注册可编程原子运算符(例如,将其加载到所述PAU上)时,可建立分区号。可编程原子指令325的例如分区表等额外元数据也可存储在本地存储器310中。
原子运算符操纵高速缓冲存储器330,当原子运算符的线程完成时,所述高速缓冲存储器通常被同步(例如,刷新)。因此,除了从例如裸片外存储器275或280等外部存储器初始加载之外,对于大多数存储器操作,在可编程原子运算符线程的执行期间,等待时间减少。
为了实施原子运算符内核的按需加载,处理器305经配置以例如通过存储器控制器(例如,存储器控制器205)接收原子运算符的调用。在此,可经由PAU 300的入站接口从存储器控制器接收原子运算符调用的接收。
处理器305(例如,电路系统)经配置以验证对应于原子运算符的分区。在实例中,在调用中,例如在由外部应用程序(例如,在应用程序小芯片125上运行的软件)发送的存储器请求包中指定分区。可基于原子运算符标识符或存储器请求中的其它标识符而查找分区。本地存储器310中例如涉及原子运算符或分区的元数据可支持此类查找。在实例中,处理器305检查对应于原子运算符的分区的有效寄存器。在任何情况下,处理器305检查分区以确定原子运算符是否准备好运行。
使用分区寄存器作为实例实施方案,处理器305可经配置以读取分区寄存器,所述分区寄存器可为布尔值。如果寄存器指示假,那么分区未就绪。如果分区指示真,那么分区已就绪。通常,当分区寄存器有效(例如,为真或有效寄存器)时,其指示分区已通过成功加载原子运算符的原子运算符内核而准备好(例如,有效)。如下午所提到,在至少调用一次内核之前,通常不会加载内核。因此,在实例中,响应于下文提到的陷阱而成功加载原子运算符内核。在此实例中,只能响应于陷阱而加载内核,而不能响应于其它条件而加载内核。
有许多不同的路径可用于加载原子运算符内核。在实例中,原子运算符的请求方在分区中加载原子运算符内核。在此,具有内核并且打算使用内核的软件是加载内核的实体。然而,可涉及其它实体,例如操作系统,或甚至硬件监控器,其可(例如,通过处理陷阱)检测无效分区条件且用以将原子运算符内核加载到PAU 300中的原子指令325中。
处理器305经配置以响应于指示未准备原子运算符分区的分区验证而用信号发送陷阱(例如,异常、故障等)。在实例中,可经由PAU 300的出站接口将陷阱信令传输到存储器控制器。因此,当未在PAU 300中充分准备内核或请求原子运算符的实际上任何其它元件时,用信号发送陷阱以发起使原子运算符可操作所需的动作。在实例中,陷阱是软件陷阱。在此,代替硬件中断等,陷阱在消息中被传达到尝试调用原子运算符的正在执行的软件程序。在实例中,陷阱呈包的形式。在实例中,包被传输到原子运算符的请求方(例如,应用程序、程序等)。在实例中,包是CPI包(例如,图5中所说明的CPI陷阱响应包)。在小芯片系统110的上下文中,CPI陷阱响应包不仅在各个部件(例如,小芯片)之间传输陷阱方面,而且在使各种实体能够响应陷阱方面,都实现了极大的灵活性。
上文论述了原子内核的按需加载方面。然而,为此类按需加载准备PAU 300可为有益的。虽然PAU 300有可能经配置以响应对原子运算符的任何请求(其中PAU 300不具有关于上文所描述的陷阱的任何信息(例如内核、元数据等)),但例如当本地存储器310的原子指令325部分已满时,可能会出现条件,或者,应向请求方生成错误,以指示与请求匹配的原子运算符无法在PAU 300中操作。在这些实例中,请求方可在初始化期间将原子运算符的注册提供到PAU 300。在此,处理器305经配置以接收原子运算符的注册。此类注册可包含原子运算符内核的大小、权限、由请求方使用的原子运算符的名称与由PAU 300使用的本地名称(例如,分区ID)之间的映射。在实例中,处理器305经配置以为原子运算符创建分区。在此,创建的分区是未准备的(例如,未初始化或无效),这意味着所述分区不包含原子运算符的内核。未准备还意味着当处理器305对分区执行验证时,其将指示所述分区无效。在实例中,分区包含关于原子运算符的元数据。
图4说明根据实施例的可编程原子单元配置流程。尽管PAU 435(例如,PAU 300)被说明为接收器,但此表示PAU 435的与按需PAO内核加载不直接相关的其它细节。
在首次调用PAO期间,接收对PAO的PAU请求410(虚线)。在分区有效寄存器组420中检查PAO的分区索引。此时还分配被分配到PAO的线程。
分配的线程尝试运行(PAU线程调度器415)(虚线)并检查分区元数据(存储器430)(当分区有效时,所述分区元数据被转发到PAU 435上),并且检查分区指令(例如,内核)存储器425(当分区有效时,所述分区指令存储器同样被转发到PAU 435上)。
当分区无效时,引发陷阱。当(例如,通过请求PAO的进程)处理陷阱时,所述进程使用配置部分405将分区元数据写入到存储器430中,并将分区内核写入到分区指令存储器425中。一旦完成,就更新分区有效寄存器组420以指示PAO分区有效。然后,当请求进程重新请求PAO的调用时,遵循上文关于有效分区的路径以对PAU 435执行PAO。
图5说明根据实施例的实例小芯片协议接口可编程原子陷阱响应包。下表是对应于CPI可编程原子陷阱响应包的CPI字段描述和位长度的实例的表。
图6是根据实施例的用于按需可编程原子内核加载的方法600的实例的流程图。方法600的操作由计算机硬件(例如,处理电路系统)执行。
在实例中,所述方法由存储器控制器(例如,存储器控制器140或存储器控制器205)中的PAU(例如,PAU 300或PAU 270)中的处理器(例如,处理器305)执行。在实例中,存储器控制器是小芯片(例如,存储器控制器140)。在实例中,存储器控制器小芯片集成到小芯片系统(例如,小芯片系统110)中。
在操作605处,PAU接收存储器控制器对可编程原子运算符的调用。
在操作610处,对可编程原子运算符的可编程原子运算符分区执行验证。在实例中,可编程原子运算符分区处于PAU的存储器中。在实例中,执行验证包含检查对应于可编程原子运算符分区的分区有效寄存器。
在实例中,分区有效寄存器指示分区是在可编程原子运算符分区中成功加载可编程原子运算符的可编程原子内核后准备的。在实例中,响应于陷阱而成功加载可编程原子内核。在实例中,可编程原子运算符的请求方在可编程原子运算符分区中加载可编程原子内核。
在操作615处,响应于验证指示未准备可编程原子运算符分区,用信号发送陷阱。在实例中,陷阱是软件陷阱。在实例中,陷阱呈包的形式。在实例中,将包传输到可编程原子运算符的请求方。在实例中,包是CPI包(例如,图5中所说明的CPI陷阱响应包)。
在实例中,可扩展方法600的操作以包含接收可编程原子运算符的注册。响应于接收到注册,可创建可编程原子运算符分区。在此实例中,未准备分区。
图7说明实例机器700的框图,可利用所述机器、在所述机器中或通过所述机器实施本文所论述的任一或多种技术(例如,方法)。如本文中所描述,实例可包含机器700中的逻辑或多个部件或机构,或可由其操作。电路系统(例如,处理电路系统)是在机器700的有形实体中实施的电路集合,其包含硬件(例如,简单电路、门、逻辑等)。电路系统成员资格可随时间推移而变得灵活。电路系统包含可在操作时单独或以组合形式执行指定操作的构件。在实例中,可不变地设计电路系统的硬件以实行特定操作(例如,硬连线)。在实例中,电路系统的硬件可包含可变地连接的物理部件(例如,执行单元、晶体管、简单电路等),包含以物理方式修改(例如,不变聚集粒子的磁性、电气可移动放置等)以对特定操作的指令进行编码的机器可读媒体。在连接物理部件时,硬件构成的基础电性质例如从绝缘体变为导体,或者反过来。指令使得嵌入式硬件(例如,执行单元或加载机构)能够经由可变连接以硬件创建电路系统的构件以在处于操作中时实行特定操作的部分。因此,在实例中,机器可读媒体元件是电路系统的一部分或在装置操作时以通信方式耦合到电路系统的其它部件。在实例中,物理部件中的任一个可以用于多于一个电路系统中的多于一个构件中。举例来说,在操作下,执行单元可以在一个时间点用于第一电路系统的第一电路,并且在不同时间由第一电路系统中的第二电路重新使用或由第二电路系统中的第三电路重新使用。以下是这些部件关于机器700的额外实例。
在替代实施例中,机器700可作为独立装置而操作,或可连接(例如,联网)到其它机器。在联网部署中,机器700可在服务器-客户端网络环境中作为服务器机器、客户端机器或这两者操作。在实例中,机器700可充当对等(P2P)(或其它分布式)网络环境中的对等机器。机器700可以是个人计算机(PC)、平板PC、机顶盒(STB)、个人数字助理(PDA)、移动电话、网络器具、网络路由器、交换机或桥接器,或能够(按顺序或以其它方式)执行指定将由所述机器采取的动作的指令的任何机器。此外,虽然仅说明单个机器,但术语“机器”还应被视为包含个别地或共同地执行指令集(或多个指令集)以执行本文中所论述的任一或多种方法(例如,云计算、软件即服务(SaaS)、其它计算机集群配置)的任何机器集合。
机器(例如,计算机系统)700可包含硬件处理器702(例如,中央处理单元(CPU)、图形处理单元(GPU)、硬件处理器核心或其任何组合)、主存储器704、静态存储器(例如,固件、微码的存储器或存储装置、基本输入输出(BIOS)、统一可扩展固件接口(UEFI)等)706,以及大容量存储装置708(例如,硬盘驱动器、磁带机、快闪存储装置或其它块装置),其中的一些或全部可经由互联件(例如,总线)730彼此通信。机器700可进一步包含显示单元710、字母数字输入装置712(例如,键盘)和用户界面(UI)导航装置714(例如,鼠标)。在实例中,显示单元710、输入装置712和UI导航装置714可为触摸屏显示器。机器700可另外包含大容量存储装置(例如,驱动单元)708、信号生成装置718(例如,扬声器)、网络接口装置720和一或多个传感器716,例如全球定位系统(GPS)传感器、指南针、加速度计或其它传感器。机器700可包含输出控制器728,例如串行(例如,通用串行总线(USB)、并行或其它有线或无线(例如,红外(IR)、近场通信(NFC)等)连接,以与一或多个外围装置(例如,打印机、读卡器等)通信或控制所述一或多个外围装置。
处理器702、主存储器704、静态存储器706或大容量存储装置708的寄存器可为或包含上面存储有一或多组数据结构或指令724(例如,软件)的机器可读媒体722,所述数据结构或指令体现本文中描述的任一或多种技术或功能,或被所述技术或功能利用。指令724还可在其由机器700执行期间完全或至少部分驻留在处理器702、主存储器704、静态存储器706或大容量存储装置708的寄存器中的任一个内。在实例中,硬件处理器702、主存储器704、静态存储器706或大容量存储装置708中的一个或任何组合可构成机器可读媒体722。虽然机器可读媒体722被说明为单个媒体,但术语“机器可读媒体”可包含经配置以存储一或多个指令724的单个媒体或多个媒体(例如,集中或分布式数据库,或相关联高速缓冲存储器和服务器)。
术语“机器可读媒体”可包含能够存储、编码或载送供机器700执行的指令且使机器700执行本公开的任一或多种技术,或能够存储、编码或载送供此类指令使用或与此类指令相关联的数据结构的任何媒体。非限制性机器可读媒体实例可包含固态存储器、光学媒体、磁性媒体和信号(例如,射频信号、其它基于光子的信号、声音信号等)。在实例中,非暂时性机器可读媒体包括具有多个粒子的机器可读媒体,所述粒子具有不变(例如,静止)质量,且因此为物质组成。因此,非暂时性机器可读媒体是不包含暂时性传播信号的机器可读媒体。非暂时性机器可读媒体的特定实例可包含:非易失性存储器,例如半导体存储器装置(例如,电可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM))和快闪存储器装置;磁盘,例如内部硬盘和可移动磁盘;磁光盘;以及CD-ROM和DVD-ROM磁盘。
在实例中,存储或以其它方式提供在机器可读媒体722上的信息可表示指令724,例如指令724本身或可从中导出指令724的格式。可从中导出指令724的此格式可包含源代码、已编码指令(例如,呈压缩或加密形式)、已封装指令(例如,拆分成多个封装)等。表示机器可读媒体722中的指令724的信息可由处理电路系统处理到指令中以实施本文中所论述的操作中的任一个。举例来说,从信息导出(例如,由处理电路系统处理)指令724可包含:编译(例如,从源代码、目标代码等)、解译、加载、组织(例如,动态地或静态地链接)、编码、解码、加密、解密、封装、解封装或以其它方式将信息操纵到指令724中。
在实例中,指令724的导出可包含(例如,通过处理电路系统)对信息的汇编、编译或解译以从由机器可读媒体722提供的一些中间或预处理格式创建指令724。当在多个部分中提供信息时,可组合、解封装和修改所述信息以创建指令724。举例来说,信息可在一个或数个远程服务器上的多个压缩源代码封装(或目标代码,或二进制可执行代码等)中。源代码封装可在经由网络传输时被加密,并且在必要时被解密、解压缩、汇编(例如,链接),并且在本地机器处被编译或解译(例如,到可独立执行的库中等),并且由本地机器执行。
可进一步利用多个传送协议中的任一个(例如,帧中继、因特网协议(IP)、传输控制协议(TCP)、用户数据报协议(UDP)、超文本传送协议(HTTP)等)经由网络接口装置720使用传输媒体在通信网络726上传输或接收指令724。实例通信网络可包含局域网(LAN)、广域网(WAN)、分组数据网络(例如,因特网)、移动电话网络(例如,蜂窝网络)、普通传统电话(POTS)网络和无线数据网络(例如,被称为Wi-的电气电子工程师学会(IEEE)802.11系列标准、被称为/>的IEEE 802.16系列标准)、IEEE 802.15.4系列标准、对等(P2P)网络等等。在实例中,网络接口装置720可包含一或多个物理插口(例如,以太网、同轴或电话插口)或一或多个天线以连接到通信网络726。在实例中,网络接口装置720可包含多个天线以使用单输入多输出(SIMO)、多输入多输出(MIMO)或多输入单输出(MISO)技术中的至少一种进行无线通信。术语“传输媒体”应被视为包含能够存储、编码或载送指令以供机器700执行的任何无形媒体,且包含数字或模拟通信信号或用以促进此软件的通信的其它无形媒体。传输媒体是机器可读媒体。为了更好地说明本文中所描述的方法和设备,非限制性实例实施例集在下文阐述为带编号的实例。
实例1是一种设备,其包括:存储器,其包含可编程运算符分区,入站接口,其可耦合到存储器控制器且经配置以接收所述存储器控制器对可编程原子运算符的调用,所述设备包含在所述存储器控制器中;电路系统,其经配置以对所述可编程原子运算符的可编程原子运算符分区执行验证,所述可编程原子运算符分区处于所述设备的所述存储器中;以及出站接口,其可耦合到所述存储器控制器且经配置以响应于所述验证指示未准备所述可编程原子运算符分区而用信号发送陷阱。
在实例2中,根据实例1所述的主题,其中所述陷阱是软件陷阱。
在实例3中,根据实例2所述的主题,其中所述陷阱呈包的形式,且其中所述包被传输到所述可编程原子运算符的请求方。
在实例4中,根据实例3所述的主题,其中所述包是小芯片包接口(CPI)包。
在实例5中,根据实例1至4中任一项所述的主题,其中,为了执行所述验证,所述电路系统经配置以检查对应于所述可编程原子运算符分区的分区有效寄存器。
在实例6中,根据实例5所述的主题,其中所述分区有效寄存器指示所述分区是在所述可编程原子运算符分区中成功加载所述可编程原子运算符的可编程原子内核后准备的。
在实例7中,根据实例6所述的主题,其中所述可编程原子内核响应于所述陷阱而被成功加载。
在实例8中,根据实例7所述的主题,其中所述可编程原子运算符的请求方在所述可编程原子运算符分区中加载所述可编程原子内核。
在实例9中,根据实例1至8中任一项所述的主题,其中所述电路系统进一步经配置以:接收所述可编程原子运算符的注册;且响应于接收到所述可编程原子运算符的所述注册而创建所述可编程原子运算符分区,所述分区保持准备状态。
实例10是一种方法,其包括:在存储器控制器的可编程原子单元(PAU)处接收所述存储器控制器对可编程原子运算符的调用;对所述可编程原子运算符的可编程原子运算符分区执行验证;所述可编程原子运算符分区处于所述PAU的存储器中;以及响应于所述验证指示未准备所述可编程原子运算符分区而用信号发送陷阱。
在实例11中,根据实例10所述的主题,其中所述陷阱是软件陷阱。
在实例12中,根据实例11所述的主题,其中所述陷阱呈包的形式,且其中所述包被传输到所述可编程原子运算符的请求方。
在实例13中,根据实例12所述的主题,其中所述包是小芯片包接口(CPI)包。
在实例14中,根据实例10至13中任一项所述的主题,其中执行所述验证包含检查对应于所述可编程原子运算符分区的分区有效寄存器。
在实例15中,根据实例14所述的主题,其中所述分区有效寄存器指示所述分区是在所述可编程原子运算符分区中成功加载所述可编程原子运算符的可编程原子内核后准备的。
在实例16中,根据实例15所述的主题,其中所述可编程原子内核响应于所述陷阱而被成功加载。
在实例17中,根据实例16所述的主题,其中所述可编程原子运算符的请求方在所述可编程原子运算符分区中加载所述可编程原子内核。
在实例18中,根据实例10至17中任一项所述的主题,其包括:在所述PAU处接收所述可编程原子运算符的注册;以及响应于接收到所述可编程原子运算符的所述注册而创建所述可编程原子运算符分区,所述分区保持未准备状态。
实例19是一种非暂时性机器可读媒体,其包含指令,所述指令在由存储器控制器的可编程原子单元(PAU)的电路系统执行时,使得所述PAU执行包括以下各项的操作:接收所述存储器控制器对可编程原子运算符的调用;对所述可编程原子运算符的可编程原子运算符分区执行验证;所述可编程原子运算符分区处于所述PAU的存储器中;以及响应于所述验证指示未准备所述可编程原子运算符分区而用信号发送陷阱。
在实例20中,根据实例19所述的主题,其中所述陷阱是软件陷阱。
在实例21中,根据实例20所述的主题,其中所述陷阱呈包的形式,且其中所述包被传输到所述可编程原子运算符的请求方。
在实例22中,根据实例21所述的主题,其中所述包是小芯片包接口(CPI)包。
在实例23中,根据实例19至22中任一项所述的主题,其中执行所述验证包含检查对应于所述可编程原子运算符分区的分区有效寄存器。
在实例24中,根据实例23所述的主题,其中所述分区有效寄存器指示所述分区是在所述可编程原子运算符分区中成功加载所述可编程原子运算符的可编程原子内核后准备的。
在实例25中,根据实例24所述的主题,其中所述可编程原子内核响应于所述陷阱而被成功加载。
在实例26中,根据实例25所述的主题,其中所述可编程原子运算符的请求方在所述可编程原子运算符分区中加载所述可编程原子内核。
在实例27中,根据实例19至26中任一项所述的主题,其中所述操作包括:在所述PAU处接收所述可编程原子运算符的注册;以及响应于接收到所述可编程原子运算符的所述注册而创建所述可编程原子运算符分区,所述分区保持未准备状态。
实例28是一种系统,其包括:用于在存储器控制器的可编程原子单元(PAU)处接收所述存储器控制器对可编程原子运算符的调用的构件;用于对所述可编程原子运算符的可编程原子运算符分区执行验证的构件;所述可编程原子运算符分区处于所述PAU的存储器中;以及用于响应于所述验证指示未准备所述可编程原子运算符分区而用信号发送陷阱的构件。
在实例29中,根据实例28所述的主题,其中所述陷阱是软件陷阱。
在实例30中,根据实例29所述的主题,其中所述陷阱呈包的形式,且其中所述包被传输到所述可编程原子运算符的请求方。
在实例31中,根据实例30所述的主题,其中所述包是小芯片包接口(CPI)包。
在实例32中,根据实例28至31中任一项所述的主题,其中所述用于执行所述验证的构件包含用于检查对应于所述可编程原子运算符分区的分区有效寄存器的构件。
在实例33中,根据实例32所述的主题,其中所述分区有效寄存器指示所述分区是在所述可编程原子运算符分区中成功加载所述可编程原子运算符的可编程原子内核后准备的。
在实例34中,根据实例33所述的主题,其中所述可编程原子内核响应于所述陷阱而被成功加载。
在实例35中,根据实例34所述的主题,其中所述可编程原子运算符的请求方在所述可编程原子运算符分区中加载所述可编程原子内核。
在实例36中,根据实例28至35中任一项所述的主题,其包括:用于在所述PAU处接收所述可编程原子运算符的注册的构件;以及用于响应于接收到所述可编程原子运算符的所述注册而创建所述可编程原子运算符分区的构件,所述分区保持未准备状态。
实例37是至少一个机器可读媒体,其包含指令,所述指令在由处理电路系统执行时使所述处理电路系统执行操作以实施实例1至36中的任一项。
实例38是一种设备,其包括用以实施实例1至36中的任一项的构件。
实例39是一种系统,其用以实施实例1至36中的任一项。
实例40是一种方法,其用以实施实例1至36中的任一项。
以上详细描述包含对随附图式的参考,所述随附图式形成详细描述的一部分。附图借助于说明展示可实践本发明的特定实施例。这些实施例在本文中也称为“实例”。此类实例可包含除了所展示或所描述的那些元件之外的元件。然而,本发明人还设想仅提供所展示或所描述的那些元件的实例。此外,本发明人还设想使用关于特定实例(或其一或多个方面)或关于本文中所展示或描述的其它实例(或其一或多个方面)而展示或描述的那些元件的任何组合或排列的实例(或其一或多个方面)。
在本文件中,如专利文件中常见的,使用术语“一”以包含一个或多于一个,这独立于“至少一个”或“一或多个”的任何其它例项或使用。在此文件中,除非另有指示,否则术语“或”用于指代非排他性的或,使得“A或B”可包含“A而非B”、“B而非A”以及“A和B”。在所附权利要求书中,术语“包含”和“其中(in which)”用作相应术语“包括”和“其中(wherein)”的通俗英语等效物。并且,在所附权利要求书中,术语“包含”和“包括”是开放的,也就是说,包含除了权利要求项中列在此类术语之后的那些要素之外的要素的系统、装置、物品或过程仍被认为属于所述权利要求项的范围内。此外,在所附权利要求书中,术语“第一”、“第二”和“第三”等仅用作标签,并且并不意图对其对象施加数字要求。
以上描述意图为说明性的而非限制性的。举例来说,上文所描述的实例(或其一或多个方面)可彼此组合使用。例如所属领域的一般技术人员在查阅以上描述后可使用其它实施例。应理解,其将不会用于解释或限制权利要求书的范围或含义。并且,在以上具体实施方式中,可将各种特征分组在一起以简化本公开。不应将这一情况解释为意图未要求保护的公开特征对于任何权利要求来说是必需的。实际上,本发明主题可在于比特定所公开实施例的所有特征要少。因此,特此将所附权利要求书并入到具体实施方式中,其中每一权利要求作为一单独实施例而独立存在,且经考虑,此类实施例可以各种组合或排列彼此组合。本发明的范围应该通过参考所附权利要求书以及此类权利要求书所授予的等效物的完整范围来确定。
Claims (27)
1.一种设备,其包括:
存储器,其包含可编程运算符分区;
入站接口,其能耦合到存储器控制器且经配置以接收所述存储器控制器对可编程原子运算符的调用,所述设备包含在所述存储器控制器中;
电路系统,其经配置以对所述可编程原子运算符的可编程原子运算符分区执行验证,所述可编程原子运算符分区处于所述设备的所述存储器中;以及
出站接口,其能耦合到所述存储器控制器且经配置以响应于所述验证指示未准备所述可编程原子运算符分区而用信号发送陷阱。
2.根据权利要求1所述的设备,其中所述陷阱是软件陷阱。
3.根据权利要求2所述的设备,其中所述陷阱呈包的形式,且其中所述包被传输到所述可编程原子运算符的请求方。
4.根据权利要求3所述的设备,其中所述包是小芯片包接口(CPI)包。
5.根据权利要求1所述的设备,其中,为了执行所述验证,所述电路系统经配置以检查对应于所述可编程原子运算符分区的分区有效寄存器。
6.根据权利要求5所述的设备,其中所述分区有效寄存器指示所述分区是在所述可编程原子运算符分区中成功加载所述可编程原子运算符的可编程原子内核后准备的。
7.根据权利要求6所述的设备,其中所述可编程原子内核响应于所述陷阱而被成功加载。
8.根据权利要求7所述的设备,其中所述可编程原子运算符的请求方在所述可编程原子运算符分区中加载所述可编程原子内核。
9.根据权利要求1所述的设备,其中所述电路系统进一步经配置以:
接收所述可编程原子运算符的注册;且
响应于接收到所述可编程原子运算符的所述注册而创建所述可编程原子运算符分区,所述分区保持准备状态。
10.一种方法,其包括:
在存储器控制器的可编程原子单元(PAU)处接收所述存储器控制器对可编程原子运算符的调用;
对所述可编程原子运算符的可编程原子运算符分区执行验证;所述可编程原子运算符分区处于所述PAU的存储器中;以及
响应于所述验证指示未准备所述可编程原子运算符分区而用信号发送陷阱。
11.根据权利要求10所述的方法,其中所述陷阱是软件陷阱。
12.根据权利要求11所述的方法,其中所述陷阱呈包的形式,且其中所述包被传输到所述可编程原子运算符的请求方。
13.根据权利要求12所述的方法,其中所述包是小芯片包接口(CPI)包。
14.根据权利要求10所述的方法,其中执行所述验证包含检查对应于所述可编程原子运算符分区的分区有效寄存器。
15.根据权利要求14所述的方法,其中所述分区有效寄存器指示所述分区是在所述可编程原子运算符分区中成功加载所述可编程原子运算符的可编程原子内核后准备的。
16.根据权利要求15所述的方法,其中所述可编程原子内核响应于所述陷阱而被成功加载。
17.根据权利要求16所述的方法,其中所述可编程原子运算符的请求方在所述可编程原子运算符分区中加载所述可编程原子内核。
18.根据权利要求10所述的方法,其包括:
在所述PAU处接收所述可编程原子运算符的注册;以及
响应于接收到所述可编程原子运算符的所述注册而创建所述可编程原子运算符分区,所述分区保持未准备状态。
19.一种非暂时性机器可读媒体,其包含指令,所述指令在由存储器控制器的可编程原子单元(PAU)的电路系统执行时,使得所述PAU执行包括以下各项的操作:
接收所述存储器控制器对可编程原子运算符的调用;
对所述可编程原子运算符的可编程原子运算符分区执行验证;所述可编程原子运算符分区处于所述PAU的存储器中;以及
响应于所述验证指示未准备所述可编程原子运算符分区而用信号发送陷阱。
20.根据权利要求19所述的机器可读媒体,其中所述陷阱是软件陷阱。
21.根据权利要求20所述的机器可读媒体,其中所述陷阱呈包的形式,且其中所述包被传输到所述可编程原子运算符的请求方。
22.根据权利要求21所述的机器可读媒体,其中所述包是小芯片包接口(CPI)包。
23.根据权利要求19所述的机器可读媒体,其中执行所述验证包含检查对应于所述可编程原子运算符分区的分区有效寄存器。
24.根据权利要求23所述的机器可读媒体,其中所述分区有效寄存器指示所述分区是在所述可编程原子运算符分区中成功加载所述可编程原子运算符的可编程原子内核后准备的。
25.根据权利要求24所述的机器可读媒体,其中所述可编程原子内核响应于所述陷阱而被成功加载。
26.根据权利要求25所述的机器可读媒体,其中所述可编程原子运算符的请求方在所述可编程原子运算符分区中加载所述可编程原子内核。
27.根据权利要求19所述的机器可读媒体,其中所述操作包括:
在所述PAU处接收所述可编程原子运算符的注册;以及
响应于接收到所述可编程原子运算符的所述注册而创建所述可编程原子运算符分区,所述分区保持未准备状态。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US17/075,055 US11409539B2 (en) | 2020-10-20 | 2020-10-20 | On-demand programmable atomic kernel loading |
US17/075,055 | 2020-10-20 | ||
PCT/US2021/055145 WO2022086807A1 (en) | 2020-10-20 | 2021-10-15 | On-demand programmable atomic kernel loading |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116529721A true CN116529721A (zh) | 2023-08-01 |
Family
ID=81186433
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202180079654.6A Pending CN116529721A (zh) | 2020-10-20 | 2021-10-15 | 按需可编程原子内核加载 |
Country Status (3)
Country | Link |
---|---|
US (2) | US11409539B2 (zh) |
CN (1) | CN116529721A (zh) |
WO (1) | WO2022086807A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11409539B2 (en) | 2020-10-20 | 2022-08-09 | Micron Technology, Inc. | On-demand programmable atomic kernel loading |
Family Cites Families (42)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7360031B2 (en) * | 2005-06-29 | 2008-04-15 | Intel Corporation | Method and apparatus to enable I/O agents to perform atomic operations in shared, coherent memory spaces |
US8122729B2 (en) | 2007-03-13 | 2012-02-28 | Dri-Eaz Products, Inc. | Dehumidification systems and methods for extracting moisture from water damaged structures |
US20080270708A1 (en) | 2007-04-30 | 2008-10-30 | Craig Warner | System and Method for Achieving Cache Coherency Within Multiprocessor Computer System |
US9015399B2 (en) | 2007-08-20 | 2015-04-21 | Convey Computer | Multiple data channel memory module architecture |
US8561037B2 (en) | 2007-08-29 | 2013-10-15 | Convey Computer | Compiler for generating an executable comprising instructions for a plurality of different instruction sets |
US8122229B2 (en) | 2007-09-12 | 2012-02-21 | Convey Computer | Dispatch mechanism for dispatching instructions from a host processor to a co-processor |
US8095735B2 (en) | 2008-08-05 | 2012-01-10 | Convey Computer | Memory interleave for heterogeneous computing |
US8156307B2 (en) | 2007-08-20 | 2012-04-10 | Convey Computer | Multi-processor system having at least one processor that comprises a dynamically reconfigurable instruction set |
US9710384B2 (en) | 2008-01-04 | 2017-07-18 | Micron Technology, Inc. | Microprocessor architecture having alternative memory access paths |
US8972958B1 (en) | 2012-10-23 | 2015-03-03 | Convey Computer | Multistage development workflow for generating a custom instruction set reconfigurable processor |
US8205066B2 (en) | 2008-10-31 | 2012-06-19 | Convey Computer | Dynamically configured coprocessor for different extended instruction set personality specific to application program with shared memory storing instructions invisibly dispatched from host processor |
US20100115233A1 (en) | 2008-10-31 | 2010-05-06 | Convey Computer | Dynamically-selectable vector register partitioning |
US8473681B2 (en) * | 2009-02-17 | 2013-06-25 | Rambus Inc. | Atomic-operation coalescing technique in multi-chip systems |
US8423745B1 (en) | 2009-11-16 | 2013-04-16 | Convey Computer | Systems and methods for mapping a neighborhood of data to general registers of a processing element |
US8788794B2 (en) * | 2010-12-07 | 2014-07-22 | Advanced Micro Devices, Inc. | Programmable atomic memory using stored atomic procedures |
US8813038B2 (en) | 2011-02-09 | 2014-08-19 | Microsoft Corporation | Data race detection |
US10430190B2 (en) | 2012-06-07 | 2019-10-01 | Micron Technology, Inc. | Systems and methods for selectively controlling multithreaded execution of executable code segments |
US9524219B2 (en) | 2013-09-27 | 2016-12-20 | Intel Corporation | Atomic transactions to non-volatile memory |
WO2019089816A2 (en) | 2017-10-31 | 2019-05-09 | Micron Technology, Inc. | System having a hybrid threading processor, a hybrid threading fabric having configurable computing elements, and a hybrid interconnection network |
KR102407128B1 (ko) | 2018-01-29 | 2022-06-10 | 마이크론 테크놀로지, 인크. | 메모리 컨트롤러 |
US11461527B2 (en) | 2018-02-02 | 2022-10-04 | Micron Technology, Inc. | Interface for data communication between chiplets or other integrated circuits on an interposer |
EP3776237A1 (en) | 2018-03-31 | 2021-02-17 | Micron Technology, Inc. | Multiple types of thread identifiers for a multi-threaded, self-scheduling reconfigurable computing fabric |
CN111971652A (zh) | 2018-03-31 | 2020-11-20 | 美光科技公司 | 多线程自调度可重新配置计算架构的条件分支控制 |
WO2019191744A1 (en) | 2018-03-31 | 2019-10-03 | Micron Technology, Inc. | Loop execution control for a multi-threaded, self-scheduling reconfigurable computing fabric using a reenter queue |
EP3776241B1 (en) | 2018-03-31 | 2023-06-28 | Micron Technology, Inc. | Loop thread order execution control of a multi-threaded, self-scheduling reconfigurable computing fabric |
EP3776243A1 (en) | 2018-03-31 | 2021-02-17 | Micron Technology, Inc. | Backpressure control using a stop signal for a multi-threaded, self-scheduling reconfigurable computing fabric |
KR102454405B1 (ko) | 2018-03-31 | 2022-10-17 | 마이크론 테크놀로지, 인크. | 멀티 스레드, 자체 스케줄링 재구성 가능한 컴퓨팅 패브릭에 대한 효율적인 루프 실행 |
US11119782B2 (en) | 2018-05-07 | 2021-09-14 | Micron Technology, Inc. | Thread commencement using a work descriptor packet in a self-scheduling processor |
US11513839B2 (en) | 2018-05-07 | 2022-11-29 | Micron Technology, Inc. | Memory request size management in a multi-threaded, self-scheduling processor |
US11126587B2 (en) | 2018-05-07 | 2021-09-21 | Micron Technology, Inc. | Event messaging in a system having a self-scheduling processor and a hybrid threading fabric |
US11119972B2 (en) | 2018-05-07 | 2021-09-14 | Micron Technology, Inc. | Multi-threaded, self-scheduling processor |
US11132233B2 (en) | 2018-05-07 | 2021-09-28 | Micron Technology, Inc. | Thread priority management in a multi-threaded, self-scheduling processor |
US11513840B2 (en) | 2018-05-07 | 2022-11-29 | Micron Technology, Inc. | Thread creation on local or remote compute elements by a multi-threaded, self-scheduling processor |
US11074078B2 (en) | 2018-05-07 | 2021-07-27 | Micron Technology, Inc. | Adjustment of load access size by a multi-threaded, self-scheduling processor to manage network congestion |
US11068305B2 (en) | 2018-05-07 | 2021-07-20 | Micron Technology, Inc. | System call management in a user-mode, multi-threaded, self-scheduling processor |
US11513837B2 (en) | 2018-05-07 | 2022-11-29 | Micron Technology, Inc. | Thread commencement and completion using work descriptor packets in a system having a self-scheduling processor and a hybrid threading fabric |
US11513838B2 (en) | 2018-05-07 | 2022-11-29 | Micron Technology, Inc. | Thread state monitoring in a system having a multi-threaded, self-scheduling processor |
KR102141620B1 (ko) | 2018-12-20 | 2020-08-06 | 국방과학연구소 | 멀티 프로세스/멀티 스레드에서 사용하는 공유 메모리에 대한 원자성 위반 결함 탐지 방법 및 장치 |
US11573834B2 (en) | 2019-08-22 | 2023-02-07 | Micron Technology, Inc. | Computational partition for a multi-threaded, self-scheduling reconfigurable computing fabric |
US11150900B2 (en) | 2019-08-28 | 2021-10-19 | Micron Technology, Inc. | Execution or write mask generation for data selection in a multi-threaded, self-scheduling reconfigurable computing fabric |
US11836524B2 (en) | 2019-08-29 | 2023-12-05 | Micron Technology, Inc. | Memory interface for a multi-threaded, self-scheduling reconfigurable computing fabric |
US11409539B2 (en) | 2020-10-20 | 2022-08-09 | Micron Technology, Inc. | On-demand programmable atomic kernel loading |
-
2020
- 2020-10-20 US US17/075,055 patent/US11409539B2/en active Active
-
2021
- 2021-10-15 WO PCT/US2021/055145 patent/WO2022086807A1/en active Application Filing
- 2021-10-15 CN CN202180079654.6A patent/CN116529721A/zh active Pending
-
2022
- 2022-08-03 US US17/880,230 patent/US11698791B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US11409539B2 (en) | 2022-08-09 |
US11698791B2 (en) | 2023-07-11 |
US20220382557A1 (en) | 2022-12-01 |
US20220121452A1 (en) | 2022-04-21 |
WO2022086807A1 (en) | 2022-04-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114388040B (zh) | 通知进程或可编程原子操作捕获的方法 | |
US11403023B2 (en) | Method of organizing a programmable atomic unit instruction memory | |
US11693690B2 (en) | Method of completing a programmable atomic transaction by ensuring memory locks are cleared | |
US11600332B2 (en) | Programmable atomic operator resource locking | |
CN114385250B (zh) | 小芯片系统内的小芯片i/o信道的初始化定序 | |
US11740929B2 (en) | Registering a custom atomic operation with the operating system | |
US20230251894A1 (en) | Method of executing programmable atomic unit resources within a multi-process system | |
US20230244416A1 (en) | Communicating a programmable atomic operator to a memory controller | |
CN116261849A (zh) | 组合写入启用掩码和信用返回字段 | |
CN114385237B (zh) | 用于低时延寄存器错误校正的方法和设备及机器可读介质 | |
CN116685943A (zh) | 可编程原子单元中的自调度线程 | |
CN116583823A (zh) | 使用长向量仲裁的异步管线合并 | |
US11698791B2 (en) | On-demand programmable atomic kernel loading | |
CN114385545B (zh) | 针对可编程原子操作的存储器存取边界检查 | |
CN114385538B (zh) | 电路中的管线合并 | |
CN116685942A (zh) | 在处理器中重用飞行中寄存器数据 | |
CN114385326A (zh) | 桶式处理器中的线程重放到保留状态 | |
CN114385246A (zh) | 桶式多线程处理器中的可变流水线长度 | |
CN116569156A (zh) | 同步接口的有效负载奇偶校验保护 | |
CN114385327A (zh) | 基于线程的处理器暂停 | |
US11455262B2 (en) | Reducing latency for memory operations in a memory controller | |
US20220121483A1 (en) | Thread execution control in a barrel processor | |
US20220121486A1 (en) | Rescheduling a failed memory request in a processor |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |