CN105553887B

CN105553887B - 用于管芯上互连的体系结构

Info

Publication number: CN105553887B
Application number: CN201510621918.2A
Authority: CN
Inventors: S·哈尔; A·莫尔; D·索马瑟科哈; D·S·邓宁
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2014-10-27
Filing date: 2015-09-25
Publication date: 2019-07-12
Anticipated expiration: 2035-09-25
Also published as: US20160173413A1; RU2625558C2; US9287208B1; RU2015141014A; CN105553887A; EP3016335A1; US9998401B2; JP6092971B2; JP2016085733A; KR101736593B1; KR20160049456A; BR102015024708A2

Abstract

在一种实施方式中，一种装置包括：在半导体管芯上配置的多个岛，所述多个岛中的每一个具有多个核；以及在半导体管芯上配置的多个网络交换机，且每一网络交换机与所述多个岛中的一个相关联，其中每一网络交换机包括多个输出端口，第一组输出端口均经由点对点互连耦合到一个岛的关联的网络交换机，且第二组输出端口均经由点对多点互连耦合到多个岛的关联的网络交换机。描述且要求保护其他实施方式。

Description

用于管芯上互连的体系结构

技术领域

本公开内容涉及计算系统，且尤其涉及(但不限于)管芯上互连。

背景技术

随着计算技术的进步，在单个半导体管芯上获得更大量的计算容量变得可行。当前，可以获得具有4、8或更多个核的多核处理器。据预测，未来的处理器可以把数百或甚至数千个小计算核集成到单个硅片上。然而，当前的管芯上互连结构不能高效地扩展到如此大量的节点，尤其是不能在提供可接受带宽的同时拥有最小功耗和延迟时间。包括2维网格、环形总线或环形网格拓扑的常规的网络拓扑不能高效地扩展为用于此类预测的处理器，这主要是由于网络中的大量中间跨跳(hop)和缓冲，引起了过多的延迟时间和高昂的功耗。

附图说明

图1A是根据本发明的一种实施方式的处理器或SoC的核的集合或编组的框图。

图1B是根据一种实施方式的多个处理器岛的框图。

图2是根据本发明的一种实施方式的SoC或其他处理器的框图。

图3是根据本发明的一种实施方式的网络交换机的框图。

图4是根据本发明的一种实施方式通过网络交换机路由分组的方法的流程图。

图5是根据本发明的一种实施方式的系统的框图。

图6是可以使用各实施方式的示例系统的框图。

图7是可以使用各实施方式的另一示例系统的框图。

图8是根据一种实施方式的片上系统的框图。

图9是根据本发明的一种实施方式的系统的框图。

具体实施方式

在各种实施方式中，提供了用于利用丰富互连资源的管芯上互连拓扑，这些互连资源由最新水平的半导体工艺技术和金属叠层的分层累积的独特延迟时间/能量/带宽/中继器间距特性提供。以这种方式，根据一种实施方式的互连结构可以以低延迟时间/能量和应用性能可接受的带宽取得数千个节点的网络可扩展性。

各实施方式利用了用于亚微米(sub-micron)半导体加工的先进技术节点的出现。作为示例，安装在半导体管芯的金属叠层提供一组丰富的金属资源(例如，9个或更多个层)。在一种实施方式中，这些金属层中的4个或更多个层可以用于管芯上互连结构。每一金属层具有不同的物理特性，包括但不限于不同的宽度/间距/材料属性。作为示例，不同的层可以具有不同的能量特性(例如，能量/毫米(mm))、延迟时间特性(例如，延时/mm)、带宽特性(线/mm)和最优中继器间距特性。注意，在一些实施方式中，对于较高层的金属，要互连的核或其他计算逻辑的尺寸可以小于最优中继器间距，且因而可以避免对中继器的需要，并且，较高层的金属层中的布线(它们可以比较低层的金属层的那些更大和/或更厚)可以提供较低的延迟时间并在单个时钟周期内跨越/穿过多个核。

根据一种实施方式的互连结构可以使用布线分层结构，其中低/中层包括具有通过点对点互连在邻近核(或核组)的群集之间耦合的足够带宽的线。而较高层的金属层包括在单个时钟周期内通过点对多点互连跨越和连接到多个核组的线。各实施方式提供具有扁平化逻辑交换机分层结构和布线分层结构的分层网络拓扑，它们分层地耦合物理上/逻辑上毗邻和远离的节点。由于各核(节点)的小尺寸，逐个核地把交换机扁平化是不可行的，并且改为可以在核编组上把该拓扑扁平化。

在此描述的拓扑合并了与分层点对点和点对多点互连的高基数扁平化交换机。以用于分层线增加的连通性来扁平化交换机增加了交换机的基数，使得跳跃式传输计数和总体网络延迟时间/能量最小化。只要带宽保持恒定，各个交换机能量不显著增加(至一阶)。对于给定的技术(资源)、核计数和应用要求，通过实现在交换机基数、带宽和分层布线的跨跳和插入计数(span and drop count)之间的平衡，可以优化网络拓扑。例如，金属宽度/间距的选择决定了在带宽/延迟时间之间的折衷。具有更多间距的宽金属线以较少带宽的成本(每mm布线)得到较低的延迟时间。类似地，如果减少了核尺寸，在单个周期内可以连接更多核。

更具体地，各实施方式逐个岛地使用扁平化交换机。多组N个核(岛)共享网络交换机。使用交叉开关(crossbar)网络来连接在岛内的诸核。现在参见图1A，所示出的是根据本发明的一种实施方式的处理器或SoC的各核的集合或编组的框图。在图1A中，集合100在此可以称为域或岛。在一些实施方式中，各岛可以属于独立的电压和频域。如图可见，存在多个核110₀–110_n。尽管各实施方式不同，在所阐释的示例中存在8个核；然而应理解，在不同的实施方式中，给定的岛中可以存在更多或更少的核。

核110经由第一拓扑的互连120耦合在一起。作为示例，互连120可以是允许各核相互通信的交叉开关网络。岛100还包括网络交换机130。在一种实施方式中，交换机130是高基数交换机。交换机130提供在集合100和处理器或SoC的其他部分内的核之间的(以及进而到片外位置的)互连和通信。进一步，如将在此描述的，网络交换机130可以通过不同类型的互连与其他域或岛通信，其中在累积叠层的不同金属层上配置这些互连的至少部分。通过利用这种累积叠层的不同的金属层(它们本身具有不同的性质)的特性，诸如延迟时间、带宽之类的互连本身的操作特性以及其他操作特性发生改变。这样的特性可以是金属线的宽度/间距的选择的函数。较低的层可以具有较紧的间距和较窄的宽度，从而得到较高的带宽(每mm)以及由于增加的阻抗引起的较高的延迟时间。较高的层具有较宽的宽度和较高的间距，且得到较少的带宽(每mm)，但由于阻抗减少引起较低的延迟时间。

在一种示例实施方式中，网络交换机130的第一组输出端口经由点对点互连(为便于阐释在图1A中未示出)与毗邻的域或岛进行通信。网络交换机130的第二组输出端口又经由点对多点互连(为便于阐释在图1A中未示出)与非毗邻的域或岛进行通信。尽管在图1A的示例中以这种高级框图示出，但应理解，多种变形和替代品是可能的。

现在参见图1B，所示出的是根据一种实施方式的多个处理器岛的框图。如图可见，存在五个岛100₀–100_n。尽管以及高级和一般框图示出，但应理解，每一岛可以包括同构资源，它们可以包括多个核(例如，8个)、交叉开关互连网络和交换机。通过利用互连的至少部分在其上把不同的岛耦合在一起的不同的金属层的唯一特性，发生了不同的通信延迟时间。因而如图1B可见，在单个时钟周期(例如)中，网络交换机130₀的第一输出端口提供经由互连140到毗邻岛100₁的网络交换机130₁的相应输入端口的输出单元(例如，分组)，在实施方式中，互连140被实现为至少部分地配置在第一金属层上的点对点互连(例如，累积叠层的中层金属层)。相反，网络交换机130₀的第二输出端口提供到多个网络交换机，即网络交换机130₂、130₃和130_n，的相应输入端口的输出单元。注意，离开网络交换机130₀的这种输出端口的这种通信可以经由至少部分地配置在第二金属层(例如，累积叠层的较高金属层，至少高于中层金属层)上的点对多点互连150。

尽管在图1B中用这种说明性示例示出，但应理解，各实施方式不限于仅耦合到三个非毗邻岛的多点互连。在其他实施方式中，这样的互连可以耦合到附加的非毗邻互连(并且可选地也可以耦合到毗邻岛)。此外，尽管借助于通信的这种单个周期延迟时间来描述，但应理解，本发明的范围不限于这一方面，并且，在其他示例中，去往给定互连耦合到其的目的地的通信延迟时间可以少于或大于单个周期。

在一个示例中，可以实现用于具有下列组件的百万兆级SoC或其他处理器的管芯上互连结构：2048个核，被组织成256个岛，且16x16个节点的网络中有8个核/岛，且每个岛一个交换机。在这一示例中拓扑，每一网络交换机可以包括多个输出端口，四个端口耦合到四个方向上的最接近的邻居，且四端口耦合到跨越每一方向上的四个岛的点对多点互连。这种设计的其他假设包括根据维度排序的XY路由——带有两个虚拟信道(每个维度一个信道，用于请求和响应)、64字节(B)分组大小以及在均匀随机流量模式下的每个岛64千兆字节每秒(Gbps)注入带宽的最小带宽。

现在参见图2，所示出的是根据本发明的一种实施方式的SoC或其他处理器的框图。在图2的示例中，处理器200是百万兆级(exascale)处理器，包括非常高的数量的核。作为示例，可以存在1024或2048个核。一般地，各核可被排列在岛中。在所示出的高级框图中，存在岛210_0,0–210_n,n的16x16阵列。每一岛可以包括给定数量的核。在不同的示例中，设想同构核或异构核的混合。为了提供互连，可以经由多个网络交换机实现管芯上互连结构，例如，如上面参考图1A和1B所述的一般地配置的、在每一岛内出现的高基数网络交换机。

因而，每一网络交换机130经由第一类型的互连(即点对点互连)耦合到X、Y方向的毗邻岛(应理解，管芯的边界上的岛可以不耦合到四个毗邻岛)。另外，每一网络交换机130还经由第二类型的互连(即点对多点互连)耦合到非毗邻岛。

注意，根据一种实施方式的拓扑可以在低负载条件下获得最低延迟时间，并且对于相同的交换机带宽，相比于2D网状网络，在均匀随机流量条件下，在网络饱和之前，获得高达三倍的注入速度。为了得到高度本地化的、最接近的邻居流量模式，相比于2D网状网络，该拓扑有竞争力。

应理解，图2的拓扑是普通的拓扑示例，且确切的规范可以基于技术选择、电路参数、核计数/尺寸等等。各实施方式因而提供管芯上互连结构的灵活实现。注意，每一点对多点互连的跨跳和插入计数可以由基本技术规范(例如，金属层的数量、线/mm、最优中继器间距等等)、电路参数(例如，电压、时钟周期以及其他)和核计数来界定。这些考虑可以针对所期望的网络直径(能量/延迟时间)和带宽来进行平衡。对于网络交换机的给定的注入/排出带宽，可以使用中层金属的较高数量的布线/mm来为本地通信提供较高的带宽。

现在参见图3，所示出的是根据本发明的一种实施方式的网络交换机的框图。如图3中所示出，可贯穿处理器或SoC的不同的域或岛实例化网络交换机300。使用这种交换机，可以执行各种路由、仲裁和相关的操作。如图可见，网络交换机300经由多个输入端口I0-In接收输入，多个输入端口被配置成接收来自其他岛的输入(例如，经由点对点互连或点对多点互连接收)。其他输入端口可以耦合到其中包括有网络交换机300的岛的各种本地核。因而，存在比输出端口的数量更多的输入端口(在所示出的实施方式中，提供输出端口O0-O7)。

参考传入信息，它可以是以请求信息或响应信息的形式，把传入信息提供给对应于请求虚拟信道的相应巷道或虚拟信道310₀，以及对应于响应虚拟信道的虚拟信道310₁。如图可见，每一信道包括多个独立的缓冲器312₀-312_n。把可以在给定的输入单元中接收的例如用于给定处理器的一种分组大小的传入信息提供给路由计算逻辑314₀-314_n，以便例如基于给定的分组中所包括的地址和控制信息确定相应分组的适当的目的地。基于这种确定了路线的信息，可以在端口仲裁器315中执行端口仲裁，以便确定判断向其递送给定的分组的适当的输出端口。

然而，在输出之前，在总线仲裁器320中首先发生总线仲裁。如图可见，在这一仲裁点，考虑流控制信息，以便判断给定的目的地是否具有足够的资源来接收相应的分组。因而，如图可见，可以以反馈方式把流控制信息提供给总线仲裁器320(且尤其提供给独立的总线仲裁逻辑322₀-322_n)。

把来自相应总线仲裁逻辑322的经仲裁分组提供给相应的管段326₀、328₀、329₀-326_n、328_n、329_n。如图可见，把各分组提供给交叉开关路由器330，包括交叉开关逻辑335。以这种方式，可以把各分组提供给所选择的目的地(包括耦合到交叉开关网络330的本地核，为便于阐释在图3中未示出)。正如所示出的，对于要从网络交换机300的给定输出端口输出的包，通信是经由相应的选择器或多路复用器338₀-338₇。因而，经由耦合到输出端口O₀-O₃(每一个又都耦合到点对点互连)的管段340₀-340₃把输出分组提供给毗邻岛，其中可以以一个周期的延迟时间把各分组传输给毗邻岛的毗邻网络交换机。替代地，要经由关联的网络交换机提供给多个非毗邻岛中的一个的分组从多路复用器338₄-338₇发送，且通过相应的管段340₄-340₇，到达相应的输出端口O4-O7(每一个又都耦合到点对多点互连)。

因而正如所阐释的，网络交换机300是用于管芯上结构的高基数交换机。尽管以具有用于请求和响应的分离的巷道或虚拟信道的这种具体说明示出，但应理解，本发明的范围不限于此，且在其他实现中可以提供额外的或不同的虚拟信道。

现在参见图4，所示出的是根据本发明的一种实施方式通过网络交换机路由分组的方法的流程图。如图4中所示出，方法400可以由在网络交换机内的各种逻辑执行。如图可见，方法400从接收要处理的多个分组开始(框410)。可以在网络交换机内从其本地核以及从耦合到网络交换机的各种输入端口的点对点和点对多点互连接收这样的分组。接下来在框420，可以执行仲裁以确定用于输出的适当的分组。仲裁可以基于循环(round robin)仲裁，且考虑到公平性，以使得来自特定来源的分组不会缺乏，也不会阻止发送其他源的分组。更进一步，包括端口和总线仲裁的仲裁也可以考虑流控制信息，以使得在目的地不拥有足够的资源来处理传入分组的场合不选择各分组。

仍然参见图4，接下来在框430，可以由网络交换机逻辑对要输出的每一给定分组(例如，分组1-P，其中存在比输入端口少的输出端口)执行一个过程。如图可见，可以确定所选择的分组的路由(框440)。然后，基于路由，可以判断目的地是否本地核(菱形450)。如果是这样，则对于给定分组，控制转到框455，其中可以经由本地端口(它可以是交叉开关网络的一部分，从而把分组提供给岛内核)把给定分组发送给本地核。

替代地，如果目的地不是本地核，则控制转到菱形框460，以便判断目的地是否在毗邻岛内。如果是这样，则控制转到框470，其中经由耦合到点对点互连的输出端口把该分组发送给毗邻网络交换机。否则，如果目的地不是毗邻岛，则控制转到框470，其中可以经由耦合到点对多点互连的输出端口把该分组发送给多个非毗邻网络交换机。注意，在点对多点互连上发送分组时，也可以提供边带控制信号以便确保仅在进行跳跃式传输以将该分组转发给最终目的地(这可以基于在给定网络交换机内的路由表)的交换机处接收该分组。因而，分组不进入到耦合到该互连的其他(非目的地/非跳跃式传输)交换机。以这种方式，通过使用边带互连信息，分组在非目的地交换机处不必经历路由计算。尽管在图4的实施方式中以这种高级框图示出，但应理解，本发明的范围不限于此。

应理解，包括在此描述的管芯上互连的百万兆级处理器或SoC(或其他集成电路)可以用于多种不同的系统，其范围可以从小型便携式设备高性能计算系统和网络。现在参见图5，所示出的是根据本发明的一种实施方式的系统的框图。在图5的实施方式中，系统900可以是包括多个域的SoC，每一域可以被控制为以独立的工作电压和工作频率来工作。注意，各个域都可以是包括网络交换机以及如在此描述的互连的异构岛。作为特定的说明性示例，系统900可以是基于架构核^TM(Architecture Core^TM)的SoC，例如i3、i5、i7或可从英特尔公司获得的另一种这样的处理器。然而，在其他实施方式中可以改为出现其他低功率SoC或处理器，例如可从加利福尼亚州桑尼维尔市的超威半导体公司(AMD)获得的处理器、来自ARM控股有限公司或其受许可方的基于ARM的设计、或基于来自加利福尼亚州桑尼维尔市的MIPS技术公司或它们的受许可方或采用者的基于MIPS的设计，例如苹果A7处理器、高通骁龙处理器或德州仪器OMAP处理器。这样的SoC可以用于低功率系统，例如智能手机、平板计算机、平板手机计算机(phablet computer)、超极本^TM计算机、物联网设备、穿戴式或其他便携式计算设备。

在图5中所示出的高级视图中，SoC 900包括多个核单元910₀-910_n。每一核单元可以包括一个或多个处理器核、一个或多个高速缓存存储器和其他电路。每一核单元910可以支持一种或多种指令集(例如，x86指令集(具有在新版本中已经添加的一些扩展)；MIPS指令集；ARM指令集(具有诸如NEON之类的可选附加扩展))或其他指令集或其组合。注意，核单元中的一些可以是异构资源(例如，属于不同的设计)。另外，每一个这样的核可以耦合到高速缓存存储器(未示出)，在一种实施方式中，高速缓存存储器可以是共享级(L2)高速缓存存储器。非易失性存储930可以用来存储各种程序和其他数据。例如，这种存储至少可以用来存储微代码的部分、诸如BIOS之类的引导信息、其他系统软件或类似物。

每一核单元910也可以包括诸如网络接口之类的接口，以便允许到SoC的额外电路的互连。在一种实施方式中，每一核单元910耦合到在管芯上互连上形成的一致性结构，它可以充当主高速缓存一致性管芯上互连，该主高速缓存一致性管芯上互连又耦合到存储器控制器935。存储器控制器935又控制与诸如DRAM之类的存储器(为便于阐释在图5中未示出)的通信。

除了核单元之外，在处理器内存在包括至少一个图形单元920在内的附加处理引擎，它可以包括一个或多个图形处理单元(GPU)，以执行图形处理且可能在图形处理器上执行通用操作(所谓的GPGPU操作)。另外，可以存在至少一个图像信号处理器925。信号处理器925可以被配置为处理从可以是在SoC内部或片外的一个或多个捕捉设备接收的传入图像数据。

也可以存在其他加速器。在图5的图示中，视频编码器950可以执行包括视频信息的编码和解码在内的编码操作，例如，为高清视频内容提供硬件加速支持。还可以提供加速显示器操作的显示控制器955，包括为系统的内部和外部显示器提供支持。另外，可以存在安全处理器945以便执行安全操作。每一单元可以经由功率管理器940控制其功耗，功率管理器940可以包括执行各种功率管理技术的控制逻辑。

在一些实施方式中，SoC 900还可以包括各种外围设备可以耦合到其中的非一致性织物，该非一致性织物耦合到该一致性织物。一个或多个接口960a-960d允许与一个或多个片外设备的通信。这样的通信可以遵循各种通信协议，例如PCIeTM、GPIO、USB、I2C、UART、MIPI、SDIO、DDR、SPI、HDMI以及其他类型的通信协议。尽管在图5中以这种高级框图示出，但应理解,本发明的范围不限于此。

现在参见图6，所示出的是可以使用各实施方式的示例系统的框图。如图可见，系统1200可以是智能手机或其他无线通信设备。基带处理器1205被配置成执行涉及从系统发射或由系统接收的通信信号的各种信号处理。基带处理器1205又耦合到应用处理器1210，应用处理器1210可以是系统的主SoC，以执行OS和其他系统软件以及用户应用，例如多种众所周知的社交媒体和多媒体应用。应用处理器1210还可以被配置成为设备执行各种其他计算操作，且可以包括在此描述的管芯上互连体系结构。

应用处理器1210又可以耦合到用户界面/显示器1220，例如触摸屏显示器。另外，应用处理器1210可以耦合到存储器系统，该存储器系统包括非易失性存储器即闪速存储器1230以及系统存储器即动态随机存取存储器(DRAM)1235。如图还可见，应用处理器1210还耦合到捕捉设备1240，例如可以记录视频和/或静态图像的一个或多个图像捕捉设备。

仍然参见图6，通用集成电路卡(UICC)1240包括订户身份模块，且安全存储和加密处理器可能也耦合到应用处理器1210。系统1200还可以包括可以耦合到应用处理器1210的安全处理器1250。多个传感器1225可以耦合到应用处理器1210，以便允许输入诸如加速度计和其他环境信息之类的各种感知信息。音频输出设备1295可以提供输出例如以语音通信、播放的或流传播的音频数据等等的形式的声音的接口。

如进一步阐释的，提供近场通信(NFC)非接触接口1260，它经由NFC天线1265在NFC近场中通信。尽管在图6中示出了分离的天线，但应理解，在一些实现中，可以提供一个天线或不同的一组天线以便允许各种无线功能性。

功率管理集成电路(PMIC)1215耦合到应用处理器1210，以执行平台级功率管理。为此，PMIC 1215可以向应用处理器1210发起功率管理请求以便根据期望进入某种低功率状态。此外，基于平台约束，PMIC 1215也可以控制系统1200的其他组件的功率水平。

为了允许发射和接收通信，可以在基带处理器1205和天线1290之间耦合各种电路。具体地，可以存在射频(RF)收发器1270和无线局域网(WLAN)收发器1275。一般地，根据诸如3G或4G无线通信协议之类的给定的无线通信协议，例如根据码分多址(CDMA)、全球移动通信系统(GSM)、长期演进(LTE)或其他协议，RF收发器1270可以用来接收和发射无线数据和呼叫。另外，可以存在GPS传感器1280。也可以提供诸如无线电信号的接收或发射之类的其他无线通信，例如AM/FM和其他信号。另外，经由WLAN收发器1275，例如根据蓝牙TM标准或诸如IEEE 802.11a/b/g/n之类的IEEE 802.11标准，也可以实现本地无线通信。

现在参见图7，所示出的是可以使用各实施方式的另一示例系统的框图。在图7的图示中，系统1300可以是移动低功率系统，例如平板计算机、2:1平板、平板手机或其他可转换的或独立的平板系统。正如所阐释的，存在SoC 1310，且它可以被配置为作为设备的应用处理器而操作。SoC 1310可以包括在此描述的管芯上互连体系结构。

各种设备可以耦合到SoC 1310。在所示出的图示中，存储器子系统包括耦合到SoC1310的闪速存储器1340和DRAM 1345。另外，触控板1320耦合到SoC 1310，以提供显示能力和经由触摸的用户输入，包括在触控板1320的显示器上提供虚拟键盘。为了提供有线网络连通性，SoC 1310耦合到以太网接口1330。外设中枢1325耦合到SoC 1310，以便允许与各种外围设备例如通过各种端口或其他连接器中的任何耦合到系统1300的外围设备进行连接。

除了在SoC 1310内的内部功率管理电路和功能性之外，PMIC 1380耦合到SoC1310，以便提供基于平台的功率管理，例如，基于该系统是由电池1390还是经由AC适配器1395的AC电源供电。除了这种基于电源的功率管理之外，PMIC1380还可以基于环境和使用条件执行平台功率管理活动。更进一步，PMIC 1380可以把控制和状态信息传输给SoC1310，以便在SoC 1310内引起各种功率管理动作。

仍然参见图7，为了提供无线能力，WLAN单元1350耦合到SoC 1310且又耦合到天线1355。在各种实现中，WLAN单元1350可以提供遵循包括IEEE 802.11协议、蓝牙^TM协议或任何其他无线协议在内的一种或多种无线协议的通信。

如进一步阐释的，多个传感器1360可以耦合到SoC 1310。这些传感器可以包括各种加速度计、环境和其他传感器，包括用户手势传感器。最终，音频编解码器1365耦合到SoC1310以提供到音频输出设备1370的接口。当然，应理解，尽管在图7中用这种特定实现来示出，但多种变型和替代品是可能的。

接下来转到图8，叙述根据一种实施方式的SoC设计的实施方式。作为特定的说明性示例，用户装备(UE)中包括SoC 2000。在一种实施方式中，UE是指由终端用户使用的任何设备，例如穿戴式设备、手持式电话、智能手机、平板、超薄笔记本、笔记本物联网设备或任何其他类似设备。UE常常连接到基站或节点，在GSM网络中，基站或节点本质上可能对应于移动站(MS)。

在这里，SoC 2000包括2个核—2006和2007。类似于上面的讨论，核2006和2007可以遵循一种指令集体系结构，例如基于架构核^TM的处理器、超威半导体公司(AMD)处理器、基于MIPS的处理器、基于ARM的处理器设计或其消费者、以及它们的受许可方或采用者。核2006和2007耦合到高速缓存控制2008，高速缓存控制2008与总线接口单元2009和L2高速缓存2010相关联，以便与系统2000的其他部分通信。互连2010包括片上互连，该片上互连可以属于在此描述的异构分层体系结构。

互连2010提供到其他组件的通信信道，这些其他组件例如保存引导代码以供由核2006和2007执行以便初始化的引导ROM 2035以及引导SOC 2000、与外部存储器(例如DRAM2060)连接的SDRAM控制器2040、与非易失性存储器(例如闪存2065)连接的闪速控制器2045、与外围设备连接的外设控制器2050(例如串行外围接口)、经由MIPI或HDMI/DP接口中的一种显示和接收输入(例如触摸启动的输入)的视频编解码器2020和视频接口2025、执行图形相关的计算的GPU 2015等等。

另外，该系统阐释用于通信的外围设备，例如蓝牙模块2070、3G调制解调器2075、GPS 2080和WiFi 2085。该系统中还包括功率控制器2055。

现在参见图9，所示出的是根据本发明的一种实施方式的系统的框图。如图9中所示出，诸如高性能计算系统之类的多处理器系统1500又可以耦合到HPC网络的其他系统。系统1500包括经由点对点互连1550耦合的第一处理器1570和第二处理器1580。如图9中所示出，处理器1570和1580中的每一个都可以是包括代表性的第一和第二处理器核(即，处理器核1574a和1574b以及处理器核1584a和1584b)的多个核处理器，例如，属于可以经由在此描述的管芯上互连体系结构互连的数百个或更多个岛中的两个岛。

仍然参见图9，第一处理器1570还包括存储器控制器中枢(MCH)1572和点对点(P-P)接口1576和1578。类似地，第二处理器1580包括MCH 1582和P-P接口1586和1588。如图9中所示出，MCH 1572和1582把各处理器耦合到各自的存储器，即存储器1532和存储器1534，它们可以是本地附加到各自的处理器的系统存储器(例如，DRAM)的部分。第一处理器1570和第二处理器1580可以分别经由P-P互连1562和1564耦合到芯片组1590。如图9中所示出，芯片组1590包括P-P接口1594和1598。

此外，芯片组1590包括通过P-P互连1539把芯片组1590与高性能图形引擎1538耦合起来的接口1592。芯片组1590又可以经由接口1596耦合到第一总线1516。如图9中所示出，各种输入/输出(I/O)设备1514可以耦合到第一总线1516以及总线桥1518，总线桥1518把第一总线1516耦合到第二总线1520。各种设备可以耦合到第二总线1520，包括例如键盘/鼠标1522、通信设备1526和数据存储单元1528，例如盘驱动器或其他大容量存储设备，在一种实施方式中，它们可以包括代码1530。进一步，音频I/O 1524可以耦合到第二总线1520。

下列的示例涉及到进一步的实施方式。

在一个示例中，一种设备包括：在半导体管芯上配置的多个岛，所述多个岛中的至少两个具有多个核；以及在所述半导体管芯上配置的多个网络交换机，所述多个网络交换机与所述多个岛相关联，其中所述多个网络交换机中的第一网络交换机包括多个输出端口，所述多个输出端口的第一组的各输出端口经由点对点互连耦合到一个岛的所述关联网络交换机，且所述输出端口的第二组的输出端口经由点对多点互连耦合到多个岛的所述关联网络交换机。

在一种示例中，至少部分地在第一金属层上配置所述点对点互连。

在一种示例中，至少部分地在第二金属层上配置所述点对多点互连，所述第二金属层是比所述第一金属层高的金属层。

在一种示例中，在所述第一金属层上配置的所述点对点互连的布线宽度大于在所述较高的金属层上配置的所述点对多点互连的布线宽度。

在一种示例中，所述点对多点互连被配置成在一个时钟周期内把输出信息从所述网络交换机传输给所述多个岛的所述关联网络交换机，所述多个岛在物理上不毗邻所述网络交换机的所述岛。

在一种示例中，所述点对点互连被配置成在一个时钟周期内把输出信息从所述网络交换机传输给所述岛的所述关联网络交换机，所述岛在物理上毗邻所述网络交换机的所述岛。

在一种示例中，所述装置进一步包括管芯上互连结构，所述管芯上互连结构包括所述多个网络交换机、所述点对点互连和所述点对多点互连。

在一种示例中，所述管芯上互连结构包括分层网络，所述分层网络包括各自用于互连岛的所述多个核的多个交叉开关网络、用于互连所述多个岛中的毗邻岛的多个点对点互连、以及用于互连所述多个岛中的非毗邻岛的多个点对多点互连。

在另一示例中，一种装置包括：在半导体管芯上配置的网络交换机，所述网络交换机包括：多个输入端口，其从其他网络交换机接收信息；第一多个输出端口，其经由第一金属层耦合到多个毗邻网络交换机；以及第二多个输出端口，其经由第二金属层耦合到多个非毗邻网络交换机。

在一种示例中，所述多个输入端口的数量大于所述第一多个输出端口的数量与所述第二多个输出端口的数量的总和。

在一种示例中，所述网络交换机进一步包括：至少一个第一缓冲器，其与第一虚拟信道相关联；至少一个第二缓冲器，其与第二虚拟信道相关联；交叉开关网络，其把多个核耦合到所述网络交换机，其中，所述多个核属于岛；以及仲裁器，其仲裁来自所述多个核中的至少一些的输出请求。

在一种示例中，所述第一多个输出端口中的至少一个经由至少部分地配置在所述第一金属层上的点对点互连耦合到所述毗邻网络交换机。

在一种示例中，所述第二多个输出端口中的至少一个经由至少部分地配置在所述第二金属层上的点对多点互连耦合到所述多个非毗邻网络交换机，所述第二金属层是比所述第一金属层高的层，其中所述第一和第二金属层属于在半导体管芯上配置的累积叠层。

在一种示例中，所述第一多个输出端口中的至少一个在第一时钟周期内把输出单元传输给所述毗邻网络交换机，且所述第二多个输出端口中的至少一个把输出单元在所述第一时钟周期内传输给所述多个非毗邻网络交换机。

在一种示例中，所述装置包括含有多个核的百万兆级SoC。

在一种示例中，所述百万兆级包括SoC多个岛，每一岛均具有所述多个核的一部分和网络交换机。

在另一示例中，一种其上存储有指令的机器可读介质，如果所述指令由机器执行则引起所述机器执行一种方法，包括：在管芯上互连的网络交换机中接收多个分组；确定所述多个分组中的第一分组的路由；如果所述第一分组去往与所述毗邻网络交换机相关联的域中的目的地逻辑，则经由耦合到点对点互连的第一输出端口把所述第一分组发送给毗邻网络交换机；以及如果所述第一分组去往与所述多个非毗邻网络交换机中的一个相关联的域中的目的地逻辑，则经由耦合到点对多点互连的第二输出端口把所述第一分组发送给多个非毗邻网络交换机。

在一种示例中，所述方法进一步包括如果所述第一分组去往所述本地核则把所述第一分组发送给包括所述网络交换机的域的本地核。

在一种示例中，所述方法进一步包括经由至少部分地配置在第一金属层上的所述点对点互连把所述第一分组发送给所述毗邻网络交换机。

在一种示例中，所述方法进一步包括经由至少部分地配置在第二金属层上的所述点对多点互连把所述第一分组发送给所述多个非毗邻网络交换机，所述第二金属层是比所述第一金属层高的金属层。

各实施方式可以用于多种不同类型的系统。例如，在一种实施方式中，可以安排通信设备执行在此描述的各种方法和技术。当然，本发明的范围不限于通信设备，相反，其他实施方式涉及用于处理指令的其他类型的装置，或者包括指令的一种或多种机器可读介质，响应于在计算设备上执行，所述指令引起设备执行在此描述的方法和技术中的一种或多种。

各实施方式可以用代码实现，且可以被存储在其上存储有指令的非暂态存储介质中，这些代码可以用来编程系统以便执行指令。存储介质可以包括但不限于任何类型的盘、半导体设备、磁或光卡或适用于存储电子指令的任何其他类型的介质，所述盘包括软盘、光盘、固态驱动器(SSD)、紧致盘只读存储器(CD-ROM)、可重写紧致盘(CD-RW)和磁-光盘，所述半导体设备例如只读存储器(ROM)、随机存取存储器(RAM)(例如动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM))、可擦除可编程只读存储器(EPROM)、闪速存储器、电可擦除可编程只读存储器(EEPROM)。

尽管已经参考有限数量的实施方式描述了本发明，但本领域中的技术人员将明白源于其的众多修改和变型。预期所附权利要求覆盖落在本发明的真实精神和范围内的所有这样的修改和变型。

Claims

1.一种用于提供管芯上互连的设备，包括：

配置在一半导体管芯上的多个岛，所述多个岛中的至少两个具有多个核；以及

配置在所述半导体管芯上的多个网络交换机，所述多个网络交换机与所述多个岛相关联，其中，所述多个网络交换机的第一网络交换机包括多个输出端口，其中，所述多个输出端口的第一组的输出端口经由点对点互连耦合到岛的所述关联网络交换机，且所述输出端口的第二组的输出端口经由点对多点互连耦合到多个岛的所述关联网络交换机。

2.如权利要求1所述的设备，其特征在于，至少部分地在所述半导体管芯的第一金属层上配置所述点对点互连。

3.如权利要求2所述的设备，其特征在于，至少部分地在所述半导体管芯的第二金属层上配置所述点对多点互连，所述第二金属层是比所述第一金属层高的金属层。

4.如权利要求3所述的设备，其特征在于，配置在所述第一金属层上的所述点对点互连的布线宽度大于配置在较高金属层上的所述点对多点互连的布线宽度。

5.如权利要求1所述的设备，其特征在于，所述点对多点互连被配置成在一个时钟周期内把输出信息从所述网络交换机传输给所述多个岛的所述关联网络交换机，所述多个岛在物理上不毗邻所述网络交换机的所述岛。

6.如权利要求5所述的设备，其特征在于，所述点对点互连被配置成在一个时钟周期内从所述网络交换机向所述岛的所述关联网络交换机传输输出信息，所述岛在物理上毗邻所述网络交换机的所述岛。

7.如权利要求1所述的设备，进一步包括管芯上互连结构，其包括所述多个网络交换机、所述点对点互连和所述点对多点互连。

8.如权利要求7所述的设备，其特征在于，所述管芯上互连结构包括分层网络，所述分层网络包括各自用于互连岛的所述多个核的多个交叉开关网络、用于互连所述多个岛中的毗邻岛的多个点对点互连、以及用于互连所述多个岛中的非毗邻岛的多个点对多点互连。

9.一种用于提供管芯上互连的设备，包括：

配置在一半导体管芯上的网络交换机装置，所述网络交换机装置包括：

多个输入端口，用于接收来自其他网络交换机装置的信息；

第一多个输出端口，用于经由所述半导体管芯的第一金属层耦合到多个毗邻网络交换机；以及

第二多个输出端口，用于经由所述半导体管芯的第二金属层耦合到多个非毗邻网络交换机装置。

10.如权利要求9所述的设备，其特征在于，所述多个输入端口的数量大于所述第一多个输出端口的数量与所述第二多个输出端口的数量的总和。

11.如权利要求9所述的设备，其特征在于，所述网络交换机装置进一步包括：

至少一个第一缓冲器，其与第一虚拟信道相关联；

至少一个第二缓冲器，其与第二虚拟信道相关联；

交叉开关网络，其把多个核耦合到所述网络交换机装置，其中所述多个核属于岛；以及

仲裁器，其仲裁来自所述多个核中的至少一些的输出请求。

12.如权利要求9所述的设备，其特征在于，所述第一多个输出端口中的至少一个经由至少部分地配置在所述第一金属层上的点对点互连耦合到所述毗邻网络交换机装置。

13.如权利要求12所述的设备，其特征在于，所述第二多个输出端口中的至少一个经由至少部分地配置在所述第二金属层上的点对多点互连耦合到所述多个非毗邻网络交换机装置，所述第二金属层是比所述第一金属层高的层，其中，所述第一和第二金属层属于配置在半导体管芯上的累积叠层。

14.如权利要求13所述的设备，其特征在于，所述第一多个输出端口中的至少一个在第一时钟周期内把输出单元传输给所述毗邻网络交换机装置，且所述第二多个输出端口中的至少一个在所述第一时钟周期内把输出单元传输给所述多个非毗邻网络交换机装置。

15.如权利要求9所述的设备，其特征在于，所述设备包括含有多个核的百万兆级片上系统SoC。

16.如权利要求15所述的设备，其特征在于，所述百万兆级SoC包括多个岛，每一岛均具有所述多个核的一部分和网络交换机装置。

17.一种用于经由管芯上互连通信的方法，包括：

在一管芯上互连的网络交换机中接收多个分组；

确定所述多个分组的第一分组的路由；

如果所述第一分组去往与毗邻网络交换机相关联的域中的目的地逻辑，则经由耦合到点对点互连的第一输出端口把所述第一分组发送给所述毗邻网络交换机；以及

如果所述第一分组去往与所述多个非毗邻网络交换机中的一个相关联的域中的目的地逻辑，则经由耦合到点对多点互连的第二输出端口把所述第一分组发送给多个非毗邻网络交换机。

18.如权利要求17所述的方法，其特征在于，进一步包括如果所述第一分组去往本地核则把所述第一分组发送给包括所述网络交换机的域的所述本地核。

19.如权利要求17所述的方法，其特征在于，进一步包括经由至少部分地配置在管芯的第一金属层上的所述点对点互连把所述第一分组发送给所述毗邻网络交换机。

20.如权利要求19所述的方法，其特征在于，进一步包括经由至少部分地配置在管芯的第二金属层上的所述点对多点互连把所述第一分组发送给所述多个非毗邻网络交换机，所述第二金属层是比所述第一金属层高的金属层。

21.一种包括机器可读指令的机器可读存储介质，所述机器可读指令在被执行时实现权利要求17到20中的任何一项所要求保护的方法。

22.一种处理器，包括：

适配在一半导体管芯上的多个域，所述多个域中的至少两个具有多个核；

适配在所述半导体管芯上的多个网络交换机，其中所述多个网络交换机的第一网络交换机包括多个输出端口，其中，所述多个输出端口的至少一个第一输出端口经由点对点互连耦合到与第二域相关联的第二网络交换机，且所述输出端口的至少一个第二输出端口经由点对多点互连耦合到与第一域子集相关联的第一网络交换机子集。

23.如权利要求22所述的处理器，其特征在于，所述点对点互连被至少部分地适配到所述半导体管芯的第一金属层上，并且所述点对点互连被至少部分地适配到所述半导体管芯的第二金属层上，所述第二金属层是比所述第一金属层高的金属层。

24.如权利要求23所述的处理器，其特征在于，适配在所述第一金属层上的所述点对点互连的布线宽度大于适配在较高金属层上的所述点对多点互连的布线宽度。

25.如权利要求22所述的处理器，其特征在于，所述点对多点互连适于在一个时钟周期内把输出信息从所述第一网络交换机传输给所述第一网络交换机子集，所述第一域子集在物理上不毗邻所述第一网络交换机。

26.如权利要求25所述的处理器，其特征在于，所述点对点互连适于在一个时钟周期内把输出信息从所述第一网络交换机传输给所述第二网络交换机，所述第一网络交换机在物理上毗邻所述第二域。

27.如权利要求22所述的处理器，其特征在于，所述第一网络交换机包括高基数交换机。

28.如权利要求22所述的处理器，其特征在于，进一步包括管芯上互连结构，其包括所述多个网络交换机、所述点对点互连和所述点对多点互连。

29.如权利要求22所述的处理器，其特征在于，第一域包括独立频率和电压域。

30.如权利要求22所述的处理器，其特征在于，所述处理器还包括图像信号处理器。

31.如权利要求22所述的处理器，其特征在于，所述处理器还包括安全处理器。

32.一种片上系统SoC，包括：

适配在一半导体管芯上的多个核；

适配在所述半导体管芯上的网络交换机，所述网络交换机包括：

多个输入端口，用于接收信息；

第一多个输出端口，用于经由至少部分地适配在所述半导体管芯的第一金属层上的多个第一互连耦合到多个毗邻网络交换机；以及

第二多个输出端口，用于经由至少部分地适配在所述半导体管芯的第二金属层上的多个第二互连耦合到多个非毗邻网络交换机。

33.如权利要求32所述的SoC，其特征在于，所述多个输入端口的数量大于所述第一多个输出端口的数量与所述第二多个输出端口的数量的总和。

34.如权利要求32所述的SoC，其特征在于，所述网络交换机还包括：

至少一个第一缓冲器，其与第一虚拟信道相关联；

至少一个第二缓冲器，其与第二虚拟信道相关联；

交叉开关网络，其把多个核耦合到所述网络交换机；以及

仲裁器，其仲裁来自所述多个核中的至少一些的输出请求。

35.如权利要求32所述的SoC，其特征在于，所述多个第一互连包括点对点互连。

36.如权利要求35所述的SoC，其特征在于，所述第二多个互连包括点对多点互连，并且所述第二金属层是比所述第一金属层高的金属层。

37.如权利要求36所述的SoC，其特征在于，所述第一多个输出端口中的至少一个在第一时钟周期内把输出单元传输给第一毗邻网络交换机，且所述第二多个输出端口中的至少一个在所述第一时钟周期内把输出单元传输给所述多个非毗邻网络交换机。

38.如权利要求32所述的SoC，其特征在于，所述SoC包括百万兆级SoC。

39.一种用于提供一管芯上互连的方法，包括：

在处理器的网络交换机中接收多个分组；

在所述网络交换机中确定所述多个分组的第一分组的路由；

如果所述第一分组去往与毗邻网络交换机相关联的域中的目的地，则将所述第一分组从耦合到点对点互连的所述网络交换机的第一输出端口发送到所述毗邻网络交换机；以及

如果所述第一分组去往与多个非毗邻网络交换机中的一个相关联的域中的目的地，则将所述第一分组从耦合到点对点互连的所述网络交换机的第二输出端口发送到所述多个非毗邻网络交换机。

40.如权利要求39所述的方法，其特征在于，进一步包括如果所述第一分组去往本地核则把所述第一分组发送给包括所述网络交换机的域的所述本地核。

41.如权利要求39所述的方法，其特征在于，进一步包括经由至少部分地适配在半导体管芯的第一金属层上的所述点对点互连把所述第一分组发送给所述毗邻网络交换机，以及经由至少部分地适配在所述半导体管芯的第二金属层上的所述点对多点互连把所述第一分组发送给所述多个非毗邻网络交换机，所述第二金属层是比所述第一金属层高的金属层。