CN115794732B

CN115794732B - 一种基于芯粒的片上网络和封装上网络分层互连系统

Info

Publication number: CN115794732B
Application number: CN202310043091.6A
Authority: CN
Inventors: 谷江涛; 李超; 范靖
Original assignee: Beijing Chaomo Technology Co ltd
Current assignee: Beijing Chaomo Technology Co ltd
Priority date: 2023-01-29
Filing date: 2023-01-29
Publication date: 2023-07-04
Anticipated expiration: 2043-01-29
Also published as: CN115794732A

Abstract

本申请涉及一种基于芯粒的片上网络和封装上网络分层互连系统，属于芯粒技术领域，包括多个芯粒，每个芯粒具有本地的第一片上网络和本地的第二片上网络，系统还包括封装上网络，封装上网络与第一片上网络及第二片上网络分层设置；封装上网络通过各个芯粒对应的用于远端的路径专用高速传输接口(HDPIR)连接各个芯粒；封装上网络用于进行芯粒之间的跨芯粒通信；第二片上网络通过同一个芯粒对应的HDPIR连接同一个芯粒上不同的内核集群组；第二片上网络用于进行同一个芯粒上跨内核集群组的处理器内核通信；第一片上网络用于进行芯粒内部同一个内核集群组的处理器内核本地通信，由此，有助于改善芯粒的互连系统的通信性能、带宽、延迟等。

Description

一种基于芯粒的片上网络和封装上网络分层互连系统

技术领域

本申请属于芯粒技术领域，具体涉及一种基于芯粒的片上网络（NOC）和封装上网络(NOP)分层互连系统。

背景技术

目前，非一致内存访问互连（Non Uniform Memory Access，NUMA）是一种用于多处理器的电脑内存体设计，内存访问时间取决于处理器的内存位置。通过在芯粒之间设置非一致内存访问互连，能够提升总线访问的性能、带宽、延迟等。

在实践中发现，现在在芯粒之间设置非一致内存访问互连的方式，会将NUMA中的内存控制器以分布式的方式部署于多个芯粒，每个芯粒上对应有NUMA子系统。在跨芯粒进行通信时，每个芯粒上的NUMA子系统需要通过该芯粒的本地NUMA互连网络，以及在芯粒本地通信时，也需要通过该芯粒的本地NUMA互连网络。因此，对于芯粒本地通信和跨芯粒通信而言，均需要共同竞争相同网络链路带宽，来进行相应数据路由传输，从而导致对整个互连系统的通信性能、带宽、延迟等产生一定影响。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

为此，本申请提供一种基于芯粒的片上网络和封装上网络分层互连系统，有助于改善互连系统的通信性能。

为实现以上目的，本申请采用如下技术方案：

第一方面，本申请提供一种基于芯粒的片上网络和封装上网络分层互连系统，所述系统包括多个芯粒，每个芯粒具有本地的片上网络，所述系统还包括封装上网络，所述封装上网络与所述片上网络分层设置；其中，所述封装上网络通过各个芯粒对应的用于远端的路径专用高速传输接口，连接各个芯粒；

所述封装上网络，用于进行芯粒之间的跨芯粒通信；

所述片上网络，用于进行芯粒内部的本地通信。

进一步的，所述片上网络包括第一片上网络和第二片上网络；其中，所述第一片上网络为每个芯粒中的内核集群组内部的、用于连接内核集群组中各个内核集群的网络；所述第二片上网络为每个芯粒中的内核集群组之间的、用于连接不同内核集群组的网络。

进一步的，每个芯粒包括至少一个内核集群组，每个内核集群组包括至少一个内核集群，每个内核集群包括至少一个处理器内核，并且每个内核集群中的处理器内核支持异质或者同质；其中，一个内核集群组对应一个所述第一片上网络，所述第一片上网络用于连接相应内核集群组中的各个内核集群，以实现同个内核集群组中各个处理器内核的本地通信；同个芯粒中的多个内核集群组对应一个所述第二片上网络，所述第二片上网络通过各个内核集群组对应的用于远端的路径专用高速传输接口，连接同一个芯粒中的不同内核集群组，以实现同一个芯粒中不同内核集群组的各个处理器内核间的通信。

进一步的，所述封装上网络用于通过各个芯粒对应的用于远端的路径专用高速传输接口，连接各个芯粒中的各个内核集群，以实现不同芯粒中各个处理器内核的跨芯粒通信。

进一步的，每个芯粒设有相对应的接口分配单元、所述用于远端的路径专用高速传输接口以及用于本地的路径专用高速传输接口；其中，所述接口分配单元与芯粒中的各个内核集群建立连接；以及

所述接口分配单元，用于获取芯粒中的各个内核集群发送的访问请求，并确定所述访问请求对应的访问类别；其中，所述访问类别为本地访问类别或者远端访问类别；将所述访问类别为所述本地访存问类别的第一访存请求，发送给所述用于本地的路径专用高速传输接口，以通过所述用于本地的路径专用高速传输接口将所述第一访问请求传输给同个内核集群组中的处理器内核进行通信；

以及，将所述访问类别为所述远端访问类别的第二访问请求，发送给所述用于远端的路径专用高速传输接口，以通过所述用于远端的路径专用高速传输接口将所述第二访问请求传输给所述封装上网络或者其他内核集群组进行通信。

进一步的，所述接口分配单元具体用于根据所述访问请求中的地址信息和标识信息，确定与所述访问请求对应的所述访问类别。

进一步的，所述接口分配单元具体用于通过所述用于远端的路径专用高速传输接口，将所述第二访问请求发送给至少一个虚拟通道，以使所述至少一个虚拟通道将所述第二访问请求发送给预设的路由节点组；所述预设的路由节点组用于将所述第二访问请求转发给其他内核集群组或者所述封装上网络。

进一步的，所述第二片上网络连接所述预设的路由节点组中的同个芯粒的不同内核集群组对应的路由节点；以及

所述封装上网络连接所述预设的路由节点组中的不同芯粒的内核集群组对应的路由节点。

进一步的，所述预设的路由节点组中的路由节点数量基于预设的节点参数进行配置。

进一步的，所述封装上网络通过硅转接板和/或多层重金属布线封装技术进行封装得到，其中，硅转接板和/或多层重金属层中可以加入所述用于远端路径专用高速传输接口的路由节点组。

本申请采用以上技术方案，至少具备以下有益效果：

本申请通过将芯粒本地的片上网络和芯粒之间的封装上网络进行分层解耦，使得芯粒本地通信和跨芯粒通信无需竞争相同网络链路带宽进行相应数据路由传输，从而有助于改善芯粒的互连系统的通信性能、带宽、延迟等。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据一示例性实施例示出的基于芯粒的片上网络和封装上网络分层互连系统的结构示意图；

图2是根据另一示例性实施例示出的基于芯粒的片上网络和封装上网络分层互连系统的结构示意图；

图3是根据另一示例性实施例示出的基于芯粒的片上网络和封装上网络分层互连系统的结构示意图；

图4是根据另一示例性实施例示出的基于芯粒的片上网络和封装上网络分层互连系统的结构示意图；

图5是根据另一示例性实施例示出的基于芯粒的片上网络和封装上网络分层互连系统的结构示意图；

图6是根据另一示例性实施例示出的基于芯粒的片上网络和封装上网络分层互连系统的结构示意图；

图7是根据另一示例性实施例示出的基于芯粒的片上网络和封装上网络分层互连系统的结构示意图；

图8是根据一示例性实施例示出的接口分配的结构示意图；

图9是根据一示例性实施例示出的芯粒的内核集群组网络结构示意图；

图10是根据另一示例性实施例示出的基于芯粒的片上网络和封装上网络分层互连系统的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将对本申请的技术方案进行详细的描述。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式，都属于本申请所保护的范围。

请参阅图1，图1是根据一示例性实施例示出的基于芯粒的片上网络和封装上网络分层互连系统的结构示意图，如图1所示，所述系统包括多个芯粒10，每个芯粒10具有本地的片上网络，所述系统还包括封装上网络，所述封装上网络与所述片上网络分层设置；其中，所述封装上网络通过各个芯粒10对应的用于远端的路径专用高速传输接口，连接各个芯粒10；

所述封装上网络，用于进行芯粒10之间的跨芯粒通信；

所述片上网络，用于进行芯粒10内部的本地通信。

在本实施例中，基于芯粒的片上网络和封装上网络分层互连系统采用NUMA架构，每个芯粒上的片上网络（NOC）能够维护该芯粒的地址空间访问信息，并且，各个芯粒之间及内核集群组之间通过芯片间缓存一致性线互联总线协议（CCIX）或其它缓存一致性线互联总线协议，能够支持缓存一致性非统一内存访问（cc-NUMA）。

其中，每个芯粒10本地的片上网络能够进行该芯粒10内部的本地通信。并且，现有的互连系统在进行跨芯粒通信时，需要各个芯粒10共享每个芯粒10的片上网络。如果同时进行跨芯粒通信和芯粒的本地通信，则跨芯粒通信也需要使用芯粒本地的片上网络、芯粒的本地通信也需要使用芯粒本地的片上网络，从而需要竞争相同的网络链路带宽来进行相应的数据传输。

对此，本申请在所述系统中设有封装上网络（NOP），封装上网络是和片上网络分层设置的网络结构，基于在系统中设置封装上网络和片上网络，能够解耦芯粒本地的片上网络（NOC）与芯粒间的封装上网络(NOP)之间传输带宽竞争和互连网络拥塞现象。

具体的，所述封装上网络通过各个芯粒10对应的用于远端的路径专用高速传输接口，连接各个芯粒10。其中，每个芯粒10可以对应有相应的、用于远端的路径专用高速传输接口，并且每个芯粒10的用于远端的专用高速传输接口之间可以建立连接。每个芯粒10的用于远端的专用高速传输接口可以和芯粒10内部的多个处理器内核建立连接。因此，封装上网络可以包括各个芯粒10中的多个处理器内核与各个用于远端的专用高速传输接口之间的连接网络，以及各个用于远端的专用高速传输接口之间的连接网络。

并且，在内核集群与片上网络之间，可以引入一层快速专用路径传输接口（HDPI），解耦本地的片上网络（NOC）与远端芯粒的封装上网络(NOP)，实现NOC与NOP的网络专用分层，从而缓解本地存储访问与远端存储访问共享网络总线引起的传输带宽竞争和互连网络拥塞问题。

其中，本地的片上网络可灵活配置，或是直接适配各种已有的成熟互连网络结构，且这些本地片上网络结构可以无需直接支持多芯粒连接，以构建合适的NUMA架构的高性能多核异构互连系统。

如图1所示，图1是一种包含2个芯粒的系统示意图，图1中包括2个芯粒10，在每个芯粒10中包含1个内核集群组13，这1个内核集群组13内部的各个内核处理器具有本地连接网络，即，本地的片上网络。本申请引入图1中的接口分配单元12和预设的路由节点组11，构建封装上网络。其中，接口分配单元用于连接同个芯粒中的各个内核集群，并将这些内核集群中发送的用于和远端芯粒建立通信的访问请求分配给预设的路由节点组11。预设的路由节点组11用于将接口分配单元发送的访问请求传输给其他芯粒的路由节点组，以使其他芯粒的路由节点组将访存请求传输给相应的处理器内核。其中，预设的路由节点组11中包括上述的用于远端的路径专用高速传输接口对应的路由节点。

作为一种可选的实施方式，所述片上网络包括第一片上网络和第二片上网络；其中，所述第一片上网络为每个芯粒10中的内核集群组13内部的、用于连接内核集群组13中各个内核集群的网络；所述第二片上网络为每个芯粒10中的内核集群组13之间的、用于连接同一个芯粒上不同内核集群组13的网络。

作为一种可选的实施方式，每个芯粒10包括至少一个内核集群组13，每个内核集群组13包括至少一个内核集群，每个内核集群包括至少一个处理器内核，并且每个内核集群中的处理器内核支持异质或者同质；其中，一个内核集群组13对应一个所述第一片上网络，所述第一片上网络用于连接相应内核集群组13中的各个内核集群，以实现同个内核集群组13中各个处理器内核的本地通信和本地缓存一致性维护。

在本实施方式中，每个芯粒10中可以包括多个内核集群组13。芯粒的本地的片上网络还可以划分为第一片上网络和第二片上网络。其中，第一片上网络用于同个内核集群组13内部的处理器内核进行通信，第二片上网络用于不同内核集群组13之间的处理器内核进行通信。可以理解，一个内核集群组13对应着一个第一片上网络，一个芯粒10对应着一个第二片上网络。

并且，内核集群内部可以由多个处理器内核组成，在内核集群内部可以集成私有的L1缓存和L2缓存，其中L1缓存包括 L1D缓存（用于存储数据的缓存）和L1I缓存（用于存储指令的缓存），并且内核集群内部还可以集成一个可选且共享的L3缓存。此内核集群内部的内核可以异质，也可以同质。

并且，多个内核集群组成一个内核集群组13，同个内核集群组中的多个内核集群之间通过共享第一片上网络,在本地芯粒中以共享本地内存的方式，实现一个内核集群组里所有内核数据一致性交互。而不同内核集群组之间可以通过共享第二片上网络，在本地芯粒中实现不同内核集群组里的数据通信。这里的所述第一片上网络可以是Crossbar、Ring、Mesh等拓扑结构，如成熟的ARM Link商用产品CCI550、CCN512、CNM700或是自研的内部缓存一致性互连总线等。并且，此内核集群组中的内核集群可以异质，也可以同质。

作为一种可选的实施方式，所述封装上网络用于通过各个芯粒10对应的用于远端的路径专用高速传输接口，连接各个芯粒10中的各个内核集群，以实现不同芯粒10中各个处理器内核的跨芯粒通信。

在本实施方式中，封装上网络能够连接各个芯粒对应的用于远端的路径专用高速传输接口。在进行跨芯粒通信时，可以通过用于远端的路径专用高速传输接口先获取传输数据的芯粒中处理器内核发送的数据，再基于封装上网络将该数据传输给数据接收方对应的用于远端的路径专用高速传输接口，再通过数据接收方对应的用于远端的路径专用高速传输接口，将数据传输给数据接收方芯粒内部的相应处理器内核，实现处理器内核之间的跨芯粒通信。

通过本实施方式，能够进一步改善NUMA系统中NOC上本地处理器内核（Core）对本地内存的NOC总线访问延迟、带宽和吞吐量，以及改善NUMA系统中NOP上远端Core对本地内存、或本地Core对远端内存的NOP总线访问延迟、带宽和吞吐量，从而也进一步缓解不同处的内核竞争共享总线和共享内存而导致的存储访问瓶颈（memory wall）问题及提高整个NUMA系统多核异构互连系统的整体性能。

请一并参阅图2至图7，图2至图7为不同的、基于芯粒的片上网络和封装上网络分层互连系统的结构示意图，图2和图3是包含4个芯粒的互连系统的结构示意图，其中，图2中路由节点组和图3的路由节点组的连接结构不同。图4至图6是包含8个芯粒的互连系统的结构示意图，并且，图4、图5、图6的路由节点组的连接结构不同。图7是包含2个芯粒、且每个芯粒包含2个socket的结构示意图。

请一并参阅图9，图9是根据一示例性实施例示出的芯粒的内核集群组网络结构示意图，图9为现在3种较为常见的内核集群组内部网络结构的示意图，分别为Crossbar（交叉形）、Ring（环形）、Mesh（网格形）。每个内核集群组（Socket）内部可以包括多个内核集群（Cluster）、用于远端的路径专用高速传输接口（HDPIR-Rx）、每个Cluster中对应的用于本地的路径专用高速传输接口（HDPIL）、DMC（分布式存储控制器）。

作为一种可选的实施方式，每个芯粒10设有相对应的接口分配单元12、所述用于远端的路径专用高速传输接口以及用于本地的路径专用高速传输接口；其中，所述接口分配单元12与芯粒10中的各个内核集群建立连接；以及

所述接口分配单元12，用于获取芯粒10中的各个内核集群发送的访问请求，并确定所述访问请求对应的访问类别；其中，所述访问类别为本地访问类别或者远端访问类别；将所述访问类别为所述本地访问类别的第一访问请求，发送给所述用于本地的路径专用高速传输接口，以通过所述用于本地的路径专用高速传输接口将所述第一访问请求传输给同个内核集群组13中的处理器内核进行通信；

以及，将所述访问类别为所述远端访问类别的第二访问请求，发送给所述用于远端的路径专用高速传输接口，以通过所述用于远端的路径专用高速传输接口将所述第二访问请求传输给所述封装上网络或者其他内核集群组13进行通信。

在本实施方式中，接口分配单元可以对来自NUMA系统中各处内核集群的访问请求直接进行分配。具体需要先确定访问请求对应的访问类别，筛选出去往本地芯粒的访问请求或者去往远端芯粒的访问请求。这里的去往本地芯粒的访问请求即为本地访问类别的第一访问请求，这里的去往远端芯粒的访问请求即为远端访问类别的第二访问请求。之后，对于第一访问请求，可以通过用于本地的路径专用高速传输接口，进入芯粒本地的所述第一片上网络去访问本地缓存、内存资源等。而对于第二访问请求，则通过用于远端的路径专用高速传输接口去往片上其他内核集群组，或者跨芯粒去往远端芯粒访问远端缓存、内存资源等。

作为一种可选的实施方式，所述接口分配单元12具体用于根据所述访问请求中的地址信息和标识信息，确定与所述访存请求对应的所述访存类别。

在本实施方式中，接口分配单元12将根据访问请求中的地址信息(SAM)和标识信息(SIM)，对来自NUMA系统中各处内核集群的访存请求确定相对应的访问类别。

作为一种可选的实施方式，所述接口分配单元12具体用于通过所述用于远端的路径专用高速传输接口，将所述第二访问请求发送给至少一个虚拟通道，以使所述至少一个虚拟通道将所述第二访问请求发送给预设的路由节点组11；所述预设的路由节点组11用于将所述第二访问请求转发给同一芯粒上其他内核集群组13或者所述封装上网络。

在本实施方式中，所述接口分配单元12具体用于通过所述用于远端的路径专用高速传输接口、蝶形网络分配结构和预设的路由节点组，将第二访问请求发送给片上其他内核集群组或者封装上网络。

其中，在将第二访问请求发送给封装上网络的情况下，可以通过预设的路由节点组，基于芯粒间的通信协议，将第二访问请求发送给封装上网络。这里芯粒间的通信协议可以为Ucie（UniversalChiplet Interconnect Express，芯粒互连技术）/Pcie（peripheralcomponent interconnect express，一种高速串行计算机扩展总线标准），或其他Die-to-Die高速接口的媒体数据接入控制子层、物理控制子层、物理层跨芯粒去往远端芯粒，访问远端缓存、内存资源等。

作为一种可选的实施方式，所述第二片上网络连接所述预设的路由节点组11中的同个芯粒10的不同内核集群组13对应的路由节点；以及

所述封装上网络连接所述预设的路由节点组11中的不同芯粒10的内核集群组13对应的路由节点。

在本实施方式中，预设的路由节点组中的路由节点可以基于上述的芯粒间通信协议，在多个方向与同一个芯粒上其他内核集群组的路由节点形成额外一层内核集群组之间的片上网络，即上述的第二片上网络。或者，通过Die-to-Die高速接口和SIP封装技术（SystemIn a Package，系统级封装），与远端芯粒上各内核集群组上的远端芯粒的内核集群组对应的路由节点形成封装上网络。

作为一种可选的实施方式，所述预设的路由节点组11中的路由节点数量基于预设的节点参数进行配置。

在本实施方式中，预设的节点参数可以包括但不限于内核集群组中内核集群的数量、蝶形网络分配结构及跨芯粒传输的操作性能需求，决定一个预设的路由节点组可以包含的路由节点数量。

请参阅图8，图8是根据一示例性实施例示出的接口分配的结构示意图，如图8所示，接口分配单元（Dispatch）能够和各个Cluster建立连接，并获取中各Cluster的访问请求，基于SAM（System address Map，系统地址映射模块）、IDM（System ID Map，系统ID映射模块），确定访问请求的类别，并将本地访问类别的第一访问请求发送给用于本地的路径专用高速传输接口（HDPIL），通过第一片上网络在芯粒本地传输第一访问请求。以及将远端访存类别的第二访问请求发送给用于远端的路径专用高速传输接口（HDPIR），HDPIR会将第二访问请求发送给虚拟通道，以使虚拟通道将第二访问请求发送给预设的路由节点组（HDPIRRouter Group）,路由节点组中的各个路由节点在{E,W,S,N,D0,D1}等多个方向与同一个芯粒上其他Socket的HDPIR路由节点形成额外一层Socket间的片上网络层，即，上述的第二片上网络。

作为一种可选的实施方式，所述封装上网络通过硅转接板和/或多层重金属布线封装技术进行封装得到。

在本实施方式中，在封装上直接布线实现快速地点对点互连互通，能够灵活形成各种多样NUMA架构的封装上网络。

请一并参阅图10，图10是根据另一示例性实施例示出的基于芯粒的片上网络和封装上网络分层互连系统的结构示意图，如图10所示，图10包含了4个芯粒，每个芯粒中可以包含多个内核集群组，这些内核集群组之间可以通过片上网络建立通信连接。不同的芯粒之间可以通过图10中间的路由节点组，即在硅转接板和/或多层重金属层中加入所述用于远端路径专用高速传输接口的路由节点组，经该芯粒对应的HDPIR路由节点，连接至其他芯粒对应的HDPIR路由节点，形成更加灵活多样的封装上网络，以实现芯粒之间的跨芯粒通信。

可以理解的是，上述各实施例中相同或相似部分可以相互参考，在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。

需要说明的是，在本申请的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本申请的描述中，除非另有说明，“多个”、“多”的含义是指至少两个。

应该理解，当元件被称为“固定于”或“设置于”另一个元件，它可以直接在另一个元件上或者可能同时存在居中元件；当一个元件被称为“连接”另一个元件，它可以是直接连接到另一个元件或者可能同时存在居中元件,此外，这里使用的“连接”可以包括无线连接；使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为：表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列（PGA），现场可编程门阵列（FPGA）等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于芯粒的片上网络和封装上网络分层互连系统，所述系统包括多个芯粒，每个芯粒具有本地的片上网络，其特征在于，所述系统还包括封装上网络，所述封装上网络与所述片上网络分层设置；其中，所述封装上网络通过各个芯粒对应的用于远端的路径专用高速传输接口，连接各个芯粒；

所述封装上网络，用于进行芯粒之间的跨芯粒通信；

所述片上网络，用于进行芯粒内部的本地通信；

所述片上网络包括第一片上网络和第二片上网络；其中，所述第一片上网络为每个芯粒中的内核集群组内部的、用于连接内核集群组中各个内核集群的网络；所述第二片上网络为每个芯粒中的内核集群组之间的、用于连接不同内核集群组的网络；

其中，每个芯粒包括至少一个内核集群组，每个内核集群组包括至少一个内核集群，每个内核集群包括至少一个处理器内核，并且每个内核集群中的处理器内核支持异质或者同质；其中，一个内核集群组对应一个所述第一片上网络，所述第一片上网络用于连接相应内核集群组中的各个内核集群，以实现同个内核集群组中各个处理器内核的本地通信；同个芯粒中的多个内核集群组对应一个所述第二片上网络，所述第二片上网络通过各个内核集群组对应的用于远端的路径专用高速传输接口，连接同一个芯粒中的不同内核集群组，以实现同一个芯粒中不同内核集群组的各个处理器内核间的通信，并且，不同内核集群组对应的各个所述第一片上网络支持同质或异质，各个所述第一片上网络的拓扑结构包括交叉形、环形以及网格形，各个所述第一片上网络的产品包括ARM Link商用产品CCI550、CCN512、CNM700或自研的内部缓存一致性互连总线。

2.根据权利要求1所述的系统，其特征在于，所述封装上网络用于通过各个芯粒对应的用于远端的路径专用高速传输接口，连接各个芯粒中的各个内核集群，以实现不同芯粒中各个处理器内核的跨芯粒通信。

3.根据权利要求1所述的系统，其特征在于，每个芯粒设有相对应的接口分配单元、所述用于远端的路径专用高速传输接口以及用于本地的路径专用高速传输接口；其中，所述接口分配单元与芯粒中的各个内核集群建立连接；以及，

所述接口分配单元，用于获取芯粒中的各个内核集群发送的访问请求，并确定所述访问请求对应的访问类别；其中，所述访问类别为本地访问类别或者远端访问类别；将所述访问类别为所述本地访问类别的第一访问请求，发送给所述用于本地的路径专用高速传输接口，以通过所述用于本地的路径专用高速传输接口，将所述第一访问请求传输给同个内核集群组中的处理器内核进行通信；

4.根据权利要求3所述的系统，其特征在于，所述接口分配单元具体用于根据所述访问请求中的地址信息或标识信息，确定与所述访问请求对应的所述访问类别。

5.根据权利要求3所述的系统，其特征在于，所述接口分配单元具体用于通过所述用于远端的路径专用高速传输接口，将所述第二访问请求发送给至少一个虚拟通道，以使所述至少一个虚拟通道将所述第二访问请求发送给预设的路由节点组；所述预设的路由节点组用于将所述第二访问请求转发给其他内核集群组或者所述封装上网络。

6.根据权利要求5所述的系统，其特征在于，所述第二片上网络连接所述预设的路由节点组中的同个芯粒内核集群组对应的路由节点；以及

7.根据权利要求5所述的系统，其特征在于，所述预设的路由节点组中的路由节点数量基于预设的节点参数进行配置。

8.根据权利要求1所述的系统，其特征在于，所述封装上网络通过硅转接板和/或多层重金属布线封装技术进行封装得到；其中，硅转接板和/或多层重金属层中移入所述用于远端路径专用高速传输接口的路由节点组。