CN112416851B

CN112416851B - 一种可扩展的多核片上共享存储器

Info

Publication number: CN112416851B
Application number: CN202011374312.0A
Authority: CN
Inventors: 陈海燕; 刘胜; 万志诚; 陈俊杰; 刘仲; 鲁建壮; 陈小文; 李明
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2020-11-30
Filing date: 2020-11-30
Publication date: 2023-07-18
Anticipated expiration: 2040-11-30
Also published as: CN112416851A

Abstract

本发明公开了一种可扩展的多核片上共享存储器，包括多套AXI标准访存端口、OSM内部仲裁器、OSM存储体及访存流水线控制器，所述AXI标准访存端口用来与片上数据网络相连，用来接收来自片上数据网络的读写请求；每套所述AXI标准访存端口内部包含独立的读写通道；所述AXI标准访存端口的读写请求均可访问所述OSM存储体内的任何地址位置，读写请求根据地址判断进入哪个OSM内部仲裁器，经优先级排队后，由访存流水线控制器控制访问OSM存储体内部的Bank体。本发明具有可配置性强、访问灵活性强、可扩展性好、可提升性能等优点。

Description

一种可扩展的多核片上共享存储器

技术领域

本发明主要涉及到微处理器体系结构技术领域，特指一种可扩展的多核片上共享存储器。

背景技术

随着摩尔定律的不断发展，单片集成度越来越高，提高微处理器性能朝着单片多核体系结构方向发展。多核处理器通常使用多级Cache存储系统来缓解对片外存访存带宽的压力，但随着多核处理器中核数的增长，共享Cache存储系统数据一致性硬件代价成倍增长，面临着功耗和可扩展性问题。

为此，其中一个有效解决方案是在各核私有Cache层次外不再使用共享Cache，而使用对程序员可见的片上共享存储器。这种片上共享存储器不产生一致性事物，硬件开销低，具有更好的功耗效能，已成为面向特定应用的专用加速器或具有实时性处理要求的嵌入式处理器的首选存储结构。

而随着多核处理器片上集成的处理器核数的不断增长，处理器核、共享存储器和其他共享资源通过片上网络实现互连；处理器核等主机设备通过片上网络实现对共享存储器等共享资源的访存。现有典型的结构如图1所示，多核处理器每个单核内含有两级私有Cache(L1 cache\L2 cache)，多核间通过片上网络访问片上共享存储器(On-chip SharedMemory，OSM)，实现各主机之间的数据交互。多核片上系统包含多个CORE内核单元1，每个CORE内核单元又包含运算单元11、一级数据缓冲11、一级指令缓冲12、二级缓冲13，之后CORE内核单元1通过片上数据网络2、片上配置网络3与片上共享存储器4相连，从而实现了CORE内核单元间的数据交互以及对片上共享存储空间的访问。

发明内容

本发明要解决的技术问题就在于：针对现有技术存在的技术问题，本发明提供一种可配置性强、访问灵活性强、可扩展性好、可提升性能的可扩展的多核片上共享存储器。

为解决上述技术问题，本发明采用以下技术方案：

一种可扩展的多核片上共享存储器，包括多套AXI标准访存端口、OSM内部仲裁器、OSM存储体及访存流水线控制器，所述AXI标准访存端口用来与片上数据网络相连，用来接收来自片上数据网络的读写请求；每套所述AXI标准访存端口内部包含独立的读写通道；所述AXI标准访存端口的读写请求均可访问所述OSM存储体内的任何地址位置，读写请求根据地址判断进入哪个OSM内部仲裁器，经优先级排队后，由访存流水线控制器控制访问OSM存储体内部的Bank体。

作为本发明的进一步改进：所述OSM内部仲裁器包括竞争计数器、2选1选择器及多路仲裁器，所述竞争计数器用来完成计数，进而完成优先级的调整，再经2选1选择器后进入多路仲裁器进行仲裁。

作为本发明的进一步改进：在同等优先级情况下，根据所述AXI标准访存端口的编号进行轮转仲裁；若优先级不一致，则优先级高的先被服务。

作为本发明的进一步改进：所述OSM存储体内部专门为每套AXI标准访存端口设置了一一对应的配置寄存器，通过片上配置网络接收至配置寄存器的配置请求。

作为本发明的进一步改进：所述竞争计数器在启动计数后，在达到所述配置寄存器对应的阈值还未响应，则所述AXI标准访存端口的读写请求优先级进行调整；优先级向上加一，在所述2选1选择器的选择后，进入多路仲裁器进行仲裁。

作为本发明的进一步改进：所述OSM存储体包括内部Bank体、内部Block体及内部Word体；多个所述内部Bank体按逻辑地址低位交叉组织排列，每个内部Bank体在1拍内响应所述AXI标准访存端口的1个读或者写请求。

作为本发明的进一步改进：所述OSM存储体的容量根据系统需求配置，所述OSM存储体的内部Bank体被划分j个内部Block体，各个所述内部Block体按照高位地址交叉组织。

作为本发明的进一步改进：各个所述内部Block体按地位地址划分为k个内部Word体。

作为本发明的进一步改进：对所述AXI标准访存端口的个数进行配置，每条片上数据网络和AXI标准访存端口41数据位宽在字节宽度的m倍内可配置，n条AXI标准访存端口分独立的读写通道，并行访问数据的带宽大小为2*n*(8*m)。

与现有技术相比，本发明的优点在于：

1、本发明的可扩展的多核片上共享存储器，AXI端口位宽及其数量的可配置加大了其数据并行访问的灵活性，使得不同的数据网络可以根据不同的并行访问需求而灵活的配置自己所需求的位宽和端口数，这样使得复杂程度不一样的主机网络甚至可以使用同一套端口，加大了端口的使用窗口，同时节省了特殊配套端口的硬件设计开销。

2、本发明的可扩展的多核片上共享存储器，OSM的内部存储体可配置性强，且使用的地址交叉编址方式有效的避免了存储体的访问冲突问题。可根据需求自由配置相关大小的存储体，而且本发明存储体设计为不可cache，避免了复杂的cache一致性问题。

3、本发明的可扩展的多核片上共享存储器，优先级仲裁算法的优化，使用固定优先级和轮转优先级相结合的方案对不同请求源的优先级进行调控。使用了竞争计数器避免低优先级的请求源提升优先级过快，又使得低优先级的请求源可以在一段时间内提升优先级。

4、本发明的可扩展的多核片上共享存储器，可扩展性好。随着单片上所集成的核数目越来越多，本设计不需要加大硬件的设计投入就可以选择性的进行扩展以满足多核的访存需求。包括端口配置和内部存储体的配置，使得共享存储器的性能可以满足多核微处理器的数据访问需求。

5、本发明的可扩展的多核片上共享存储器，可支持来自多核处理器片上网络多个主机设备对共享存储器的并行访存，并且每个主机访问片上共享存储器的优先级可灵活配置，实现了多核处理器中多个主机设备基于片上网络带宽性能条件下的多个标准协议端口、高带宽、全流水共享存储器的并行访存。随着处理器向多核、众核方向的发展，该方法设计的片上共享存储器的访存请求端口、并行访存带宽、共享存储器容量具有良好的可扩展性，并行访存优先级任意可配置。

6、本发明的可扩展的多核片上共享存储器，使得其并行访存端口遵循AXI标准接口协议，并行访存端口数目可扩展；并行访存带宽、共享存储器容量可配置、可扩展，且进一步设置了一种优先级可配置方法以实现并行访存端口的访存请求操作。本发明主要针对多核片上共享存储器并行访存结构设计和访存方法进行优化，进而提升片上共享存储器的可扩展性和数据访问性能。

7、本发明的可扩展的多核片上共享存储器，为程序员可见的存储映射空间，采用逻辑上统一编址、多存储体高/低位地址交叉的组织方式，为多核处理器提供了一个程序员可见的片上大容量共享存储资源，并支持并行访存端口的访问数量可配置，存储体容量、数目可配置，增强了共享存储器并行访问结构和存储容量的可扩展性，而且进一步可对每个标准访存端口采用优先级域值寄存器可配置的方式，实现轮转、固定或优先级任意设置的各类并行访存，避免出现“撑死”和“饿死”的现象，满足各类并行访存需求。

附图说明

图1是本发明在具体应用实施例中的单片多核处理器结构原理示意图。

图2是本发明在具体应用实施例中共享存储器的结构原理示意图。

图3是本发明在具体应用实施例中仲裁策略的原理示意图。

图4是本发明在具体应用实施例中OSM存储体结构的示意图。

具体实施方式

以下将结合说明书附图和具体实施例对本发明做进一步详细说明。

如图1所示，为本发明的可扩展的多核片上共享存储器在具体应用中的原理示意图。多核片上系统包含多个CORE内核单元1，每个CORE内核单元1包含运算单元11、一级数据缓冲12(L1D)、一级指令缓冲13(L1P)、二级缓冲14(L2Cache)；之后CORE内核单元1通过片上数据网络2(CD NET)、片上配置网络3(CC NET)与片上共享存储器4(OSM)相连，从而实现了CORE内核单元1之间的数据交互以及对片上共享存储空间的访问。多个CORE内核单元1通过片上网络(包括片上数据网络2和片上配置网络3)相连，各个CORE内核单元1通过网络路由后将请求发往片上共享存储器4(OSM)的配置空间或者片上共享存储器4(OSM)数据空间的各个标准访存端口(AXI interface)。

片上共享存储器4(OSM)与片上数据网络2相连，用来接收来自片上数据网络2的读写请求；如图2和图3所示，本实例中片上共享存储器OSM 4的结构中，片上共享存储器4与片上数据网络2之间共有n套AXI标准访存端口41(AXI interface 0-n)，每套所述AXI标准访存端口41内部包含独立的读写通道，所述AXI标准访存端口41的数据位宽和数量可根据系统的需求配置变化。

片上共享存储器4内设置有OSM内部仲裁器43、OSM存储体44、访存流水线控制器45；多套所述AXI标准访存端口41的读写请求都可访问OSM存储体44内的任何地址位置，读写请求根据地址判断进入哪个OSM内部仲裁器43，通过优先级排队后，由访存流水线控制器45控制访问OSM存储体44内部的Bank体。

如图3所示，为本发明在具体应用实例中OSM内部仲裁器43的结构原理示意图，该OSM内部仲裁器43包括竞争计数器431、2选1选择器432及多路仲裁器433。

若多个请求都落在OSM存储体44的同一Bank体内，则OSM内部仲裁器43将根据各个AXI标准访存端口41的请求的优先级进行仲裁；在具体应用时，其具体的仲裁策略可以为：

在同等优先级情况下，根据AXI标准访存端口41的编号进行轮转仲裁；

若优先级不一致，则优先级高的先被服务。

进一步，作为较佳的实施例，考虑到若仅仅按照上述的策略进行仲裁，必然导致优先级低的AXI标准访存端口41产生“饿死”现象；为了解决上述问题，OSM存储体44内部专门为每套AXI标准访存端口41设置了一一对应的配置寄存器42(阈值寄存器)，在低优先级的请求未被响应时，所述竞争计数器431将启动计数，在达到配置寄存器42对应的阈值还未响应，则AXI标准访存端口41的读写请求优先级进行调整；优先级向上加一，实际的优先级根据调整情况，在2选1选择器432的选择后，进入多路仲裁器433进行仲裁。

进一步，片上共享存储器4与片上配置网络3相连，用来接收来自片上配置网络3配置片上共享存储器4内部配置寄存器42的请求。

如图4所示，为本发明在具体应用实例中OSM存储体44的结构原理示意图，该OSM存储体44包括内部Bank体441、内部Block体442及内部Word体443；OSM存储体44根据系统需求可按逻辑地址低位交叉组织成多个内部Bank体441，每个OSM存储体44的内部Bank体441在1拍内可响应AXI标准访存端口41的1个读或者写请求。

为了方便，OSM存储体44的容量根据系统需求可配置，OSM存储体44的内部Bank体441被划分j个内部Block体442，各个内部Block体442按照高位地址交叉组织。进而，各个内部Block体442又按地位地址划分为k个内部Word体443。

采用本发明的上述结构，在使用时，片上共享存储器4(OSM)接收并处理来自多核微处理器的多个主动设备访存请求，即处理来自片上网络的各主动设备，如单核CORE经过片上网络转发过来的数据访存请求和配置请求：配置请求直接对OSM的优先级配置寄存器组42(Register)进行操作；数据访存请求通过片上数据网络2路由后，进入OSM内相应的AXI标准访存端口41(AXI interface)。在AXI标准访存端口41内完成请求的缓存、拆分，分读、写通道根据地址区分，分别发送给OSM存储体44内的各个内部Bank体441内，按各请求自带的优先级进行初步仲裁，优先级高的请求将先被响应。多个AXI标准访存端口41访问有限的Bank资源，必然导致各AXI标准访存端口41排队访问同一Bank资源，除了按照不同优先级仲裁、同优先级轮转外，在程序员配置的一段固定的时间内，OSM内部会对长时间未被服务的请求进行优先级的调整，这样保证各AXI标准访存端口41的低优先级的请求在一段固定的时间内总能被服务到。由于内部Bank体441是稀缺资源，仲裁成功的请求进入内部Bank体441内的全流水访存流水线控制器，访问内部Bank体441内部的存储体。最后AXI标准访存端口41内的读、写请求在被响应后，将相关响应信息返回给CORE内的主动设备。

由上可知，本发明的片上共享存储器4为程序员可见的存储映射空间，采用了逻辑上统一编址、多存储体高/低位地址交叉的组织方式，为多核处理器提供了一个程序员可见的片上大容量共享存储资源，并支持并行访存端口的访问数量可配置；其中，存储体容量、数目可配置，增强了共享存储器并行访问结构和存储容量的可扩展性，而且进一步可对每个标准访存端口采用优先级域值寄存器可配置的方式，实现轮转、固定或优先级任意设置的各类并行访存，避免出现“撑死”和“饿死”的现象，满足了各类并行访存需求。

本发明可以进一步根据需求可以对AXI标准访存端口41的个数进行配置，每条片上数据网络2和OSM的AXI标准访存端口41数据位宽可在字节宽度的m倍内可配置，n条AXI标准访存端口41分独立的读写通道，并行访问数据的带宽大小为2*n*(8*m)。AXI标准访存端口41数量的参数化使得来自片上数据网络2的访问请求可配置，这种灵活的标准访存端口参数化为不同需求的片上数据网络2提供了可选择性，进一步节省了硬件的开销。

片上共享存储器4接收来自片上数据网络2的数据，可根据系统中片上网络的请求多少灵活的定制AXI标准访存端口41的数量，进而OSM存储体44容量根据系统需求可配置为成多种大小，OSM片上存储空间的起始地址都一样，根据不同的配置，有效的地址空间向前扩展。OSM内部的OSM存储体44采用低位地址交叉方式编址，由多个存储体按低位交叉组织成可配置的n个内部Bank体441，可同时支持n个并行访存请求。采用低位地址交叉编址有效的降低了存储体冲突，当主机进行局部访问的时候，访问的地址可以分布在不同的Bank体内。因此OSM的可配置参数包括：AXI标准访存端口41位宽为字节的整数倍可配置，个数可在0-n范围内可配置；存储器容量可配置为2-iMB；根据容量配置支持并行访问的存储体Bank数，支持n个Bank并行访问。

在本发明的上述方案中，其仲裁算法不同于固定优先级算法或者轮询法等传统算法，以往的固定优先级算法可以允许一些需要实时完成海量数据访问的请求源获取最佳资源，它可以长期占有系统资源，从而在较快的速度之内完成具体的任务。而轮询法则是侧重于各个请求源之间获取系统资源的公正性，在某段时间内各个请求源的优先级前后轮询排序，先后获得访问共享存储器的权利。在片上数据网络2中，优先级由各内核内的主机统一提供和管理。主机优先级可配置，从机发出的返回信号(读数据或写响应)的优先级等于之前从机接收的读写请求的优先级。对于本发明的仲裁算法来说，主机需要保证数据的“读后写”、“写后读”顺序性；OSM则负责维护同一AXI标准访存端口41的“读后读”、“写后写”的顺序性；OSM按Burst请求为单位维护读后读、写后写的强序，一个Burst请求不可打断。OSM对所有AXI标准访存端口41读、写请求支持按优先级进行访问仲裁。

除了接收来自数据网络的请求优先级信号，OSM还支持动态调整优先级，即根据各AXI标准访存端口41对应的优先级域值配置寄存器，动态调整请求的访问优先级；之后根据优先级仲裁排队，即高优先级请求具有优先访问权；同优先级则按照轮转的原则进行仲裁。为了防止优先级较高的请求者，比如AXI0或者AXI1在连续多个周期内一直独占某个并行存储体资源而导致优先级较低的请求饿死，即确保OSM中的某些AXI请求不被长期阻塞，OSM构建了一种有效的仲裁机制来公平的调度和响应AXI标准访存端口访存请求。具体方案为：

OSM接收来自主设备请求的优先级，优先级排序根据其优先级数值的大小进行排序，数值越小则优先级越高。当有多个请求同时访问同一个Bank资源时，同优先级的请求采用轮转的策略；优先级最高的请求优先访问，当这种资源争夺发生在多个连续的时钟周期内时，采用竞争计数器431来解决饿死问题：即在OSM内部仲裁器43内为每个AXI标准访存端口41设置一个“竞争计数器431”(Contention Counter，简称CC)，CC的计数规则为：每当低优先级的AXI标准访存端口41请求没有得到响应时，其对应的CC自加1；一旦请求得到响应，对应的CC即被清零；当CC自增至程序员设置的值(可编程，对应配置寄存器相关域)时，CC被清零且未被响应的请求在原优先级的基础上加1，其优先级相应向前提高一级，从而保证了较低优先级的请求在一段固定的时间内总能被服务到。

以上仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，应视为本发明的保护范围。

Claims

1.一种可扩展的多核片上共享存储器，其特征在于，包括多套AXI标准访存端口（41）、OSM内部仲裁器（43）、OSM存储体（44）及访存流水线控制器（45），所述AXI标准访存端口（41）用来与片上数据网络（2）相连，用来接收来自片上数据网络（2）的读写请求；每套所述AXI标准访存端口（41）内部包含独立的读写通道；所述AXI标准访存端口（41）的读写请求均可访问所述OSM存储体（44）内的任何地址位置，读写请求根据地址判断进入哪个OSM内部仲裁器（43），经优先级排队后，由访存流水线控制器（45）控制访问OSM存储体（44）内部的Bank体；所述OSM内部仲裁器（43）包括竞争计数器（431）、2选1选择器（432）及多路仲裁器（433），所述竞争计数器（431）用来完成计数，进而完成优先级的调整，再经2选1选择器（432）后进入多路仲裁器（433）进行仲裁；在同等优先级情况下，根据所述AXI标准访存端口（41）的编号进行轮转仲裁；若优先级不一致，则优先级高的先被服务；所述OSM存储体（44）内部专门为每套AXI标准访存端口（41）设置了一一对应的配置寄存器（42），通过片上配置网络（3）接收至配置寄存器（42）的配置请求；所述竞争计数器（431）在启动计数后，在达到所述配置寄存器（42）对应的阈值还未响应，则所述AXI标准访存端口（41）的读写请求优先级进行调整；优先级向上加一，在所述2选1选择器（432）的选择后，进入多路仲裁器（433）进行仲裁；所述OSM存储体（44）包括内部Bank体（441）、内部Block体（442）及内部Word体（443）；多个所述内部Bank体（441）按逻辑地址低位交叉组织排列，每个内部Bank体（441）在1拍内响应所述AXI标准访存端口（41）的1个读或者写请求。

2.根据权利要求1所述的可扩展的多核片上共享存储器，其特征在于，所述OSM存储体（44）的容量根据系统需求配置，所述OSM存储体（44）的内部Bank体（441）被划分j个内部Block体（442），各个所述内部Block体（442）按照高位地址交叉组织。

3.根据权利要求2所述的可扩展的多核片上共享存储器，其特征在于，各个所述内部Block体（442）按地位地址划分为k个内部Word体（443）。

4.根据权利要求1-3中任意一项所述的可扩展的多核片上共享存储器，其特征在于，对所述AXI标准访存端口（41）的个数进行配置，每条片上数据网络（2）和AXI标准访存端口41（41）数据位宽在字节宽度的m倍内可配置，n条AXI标准访存端口（41）分独立的读写通道，并行访问数据的带宽大小为2*n*(8*m)。