CN102662909B

CN102662909B - 一种三维众核片上系统

Info

Publication number: CN102662909B
Application number: CN 201210077519
Authority: CN
Inventors: 谭海; 周鑫琴; 谭珵竹
Original assignee: East China Institute of Technology
Current assignee: East China Institute of Technology
Priority date: 2012-03-22
Filing date: 2012-03-22
Publication date: 2013-12-25
Anticipated expiration: 2032-03-22
Also published as: CN102662909A

Abstract

本发明公开了一种三维众核片上系统，由一层处理核层即Core层和一层以上的Cache层组成，Cache层及处理核层层间采用3D叠片技术垂直互连；各处理核之间的通信和处理核与Cache层的通信采用不同的通道进行，Cache层所有Cache块构成处理核的同级Cache。每Cache层含有与处理核层处理核数相同的Cache块数，Cache层和处理核层中所有处于同一行的节点构成全互连结构，所有处于同一列的节点构成全互连结构，互连线分配到三维片上网络各Cache层中，处理核访问任一Cache块在5跳内完成。本发明有利于提高众核系统实时性，减小片上的平均通信延迟和功耗，提供了实现组织大容量Cache的条件。

Description

一种三维众核片上系统

技术领域

本发明涉及一种三维片上多核/众核系统，属于半导体芯片领域。

背景技术

低时延和低开销众核片上网络是众核处理器的难点之一。核间片上网络互连技术对于整个芯片本身的性能和功耗发挥着尤为重要的作用，参见参考文献Shekhar Borkar. Thousand Core Chips—A Technology Perspective. Intel Corp, Microprocessor Technology Lab,JF2-04,2111 NE 25Ave,Hillsboro,OR 97124. 2007.，片上网络（NoCs）主要是采用基于“跳”的包交换数据传递技术，不同核间通信时数据包需要对传递线路的竞争导致数据包传递有较长的时延。为了让片上网络（NoCs）能够提供低时延和高带宽的通信，很多的工作在优化片上网络（NoCs）层面展开，文献A. Kumar, L.-S. Peh, P. Kundu, and N. K. Jha. Express Virtual Channels: Towards the Ideal Interconnection Fabric. Proc. of the 34th Int. Sym. on Comp. Arch., pp. 150-161, 2007.及]R. Mullins, A. West, and S. Moore. Low-Latency Virtual-Channel Routers for On-Chip Networks. Proc. of the 31st Int. Sym. on Comp. Arch., pp. 188-197, 2004.提出了快速路由，参考文献U. Y. O. and R. Marculescu. It’s a Small World After All: NoC Performance Optimization via Long-Range Link Insertion. IEEE Trans. on VLSI Sys., 14(7):693-706, July 2006.及J. Kim, J. Balfour, and W. J. Dally. Flatterned Butterfly Topology for On-Chip Networks. Proc. of the 40th Int. Sym. on Microarchitecture, pp. 172-182, 2007.提出了新的网络拓扑。最近出现的3D叠片封装技术（3D Stack）具有路由器间的互连线长度短，延迟低，系统整体性能高，因此成为了研究的热点，但大多也是从路由、拓扑结构和带宽等方面优化片上网络来提高通信速度和降低时延：参考文献J. Kim, C. Nicopoulos, D. Park, R. Das, Y. Xie, V. Narayanan, M.S. Yousif, and C. Das. A Novel Dimensionally-Decomposed Router for On-Chip Communication in 3D Architecture. Proc. of the 34th Int. Sym. on Comp. Arch., pp. 4-15, 2007.提出了一种依靠降低垂直“跳”数的有效路由器，参考文献D. Park, S. Eachempati, R. Das, A. K. Mishra, Y. Xie, V. Narayanan,C. Das. MIRA: A Multi-Layered On-Chip Interconnect Router Architecture.Proc. of the 35th Int. Sym. on Comp. Arch., pp. 251-261,2008.提出了一种通过多层3D叠片技术降低功耗的路由器，参考文献Yi, X., D. Yu, Z. Bo, et al. A low-radix and low-diameter 3D interconnection network design[C]. in International Symposium on High Performance Computer Architecture (HPCA), 2009, p. 30-42.提出了一种低直径低时延的3D片上网络（NoCs）拓扑结构。

计算机系统在实际执行程序时，一方面需要传输大批量的运算数据，另一方面需要传输线程间同步控制信息及一些硬件控制交互信息，前者数据量较大，但实时性不强；后者数据量较小，但是实时性要求较高。即使是在传统计算机系统中，系统总线也是由独立的地址总线、控制总线和数据总线三个独立部分组成，互不干扰；但是在片上网络（NoCs）中，所有数据、控制信号等的传输都得以“数据包”的形式竞争网络链路来传输。上面所提方案在模拟测试中虽然具有较好的测试结果，但在实际应用中由于这两类信息占用同一通路混合传输导致计算机性能存在致命缺陷：实时性要求强的控制信息往往被大量运算数据阻塞传输通路，导致了应用程序运行过程中很大的时延，同时数据包竞争链路造成较大的功耗开销，从而影响了众核系统的整体性能。

发明内容

本发明的目的在于：克服现有技术的缺点和不足，提供一种对不同类型的数据采用不同的传输通道的新型众核片上系统，本发明能够提供大容量Cache、且各处理核访问任一Cache块能在5跳内完成。

本发明所述三维众核片上系统由一层处理核层即Core层和一层以上的Cache层组成，Cache层及处理核层层间采用3D叠片技术垂直互连；各处理核之间的通信和处理核与Cache层的Cache块通信采用不同的通道进行。

本发明对于处理核来说，Cache层的所有Cache块构成同级Cache。

本发明每Cache层含有与处理核层处理核数相同的Cache块数，Cache层和处理核层中所有处于同一行的节点构成全互连结构，所有处于同一列的节点构成全互连结构，并且将全互连结构中的互连线分配到三维片上网络各Cache层中，处理核访问任一Cache块在5跳内完成。

本发明每个处理核由L1 Cache、L1 Controller和Router组成，该片上网络的处理核层采用2D Mesh 互连结构，各处理核节点通过Router进行网络互连。

本发明所述单Cache层中各Cache块之间采用行互连线和列互连线方式的长线互连，单Cache层有Directory 和Cache Controller，多层Cache能连接多个Memory，构成分布式Memory。

本发明所述处理核层通道传输处理核间控制信息，处理核访问Cache块的数据信息的传输通过处理核和Cache层层间垂直通道与Cache层内互连网络构成的通道进行传输。

本发明提出的三维众核片上系统由于采用双通道传输通信模式，根据通信内容的不同采用不同的通信通道，提高了核间共享数据的传输速度，降低了混合信息通信模式的硬件和时延开销，有利于提高系统应用的实时性，并能消除众核间对传输通道的通道拥堵冲突；Cache层互连采用长互连线互连各Cache节点块减小网络直径，减少片上节点通信经过的路由器数，由此减小了片上的平均通信延迟和功耗；为实现大容量Cache组织提供了条件。

附图说明

图1为本发明系统的结构总图。

图2为本发明Cache层各节点连接关系示意图。

图3为本发明处理核层构成示意图。

图4为本发明所述 Cache层互连线分配图。

图5为本发明带LLC/Directory Controller的单层Cache连接结构示意图。

图6为本发明双通道结构示意图。

具体实施方式

以下结合实施例对本发明进行详细说明

实施例1： 5-hop的3D众核片上网络系统

参见图1、图6所示，本实施例由1层处理核层和多层Cache层组成，每个处理核由L1、L1 Controller和Router组成（图3所示）。该片上网络的处理核层采用2D Mesh 互连结构，Cache层和处理核层中所有处于同一行的节点构成全互连结构，所有处于同一列的节点构成全互连结构（图4中的行全互连（Row Clique）和列全互连（Column Clique），Cache块之间的互连线采用长线互连，并且将全互连结构中的互连线分配到三维片上网络各Cache层中， Cache层各Cache数据块间采用这种互连方式能够确保任何处理核对Cache资源的访问其所经过的hop数不超过5，简称5-hop片上网络，图1中不同层间采用3D叠片技术垂直互连功能块（线太多，未在图中给出）。

在现有的工艺技术下，5-hop片上网络在众核芯片上能支持多达500个处理核和10层Cache层之间的互连，在5-hop片上网络的支持下，任何处理核访问Cache块的传输跳数在少于或等于5 hops内完成，具有网络半径小，从而为处理核以较小的时延访问Cache提供了条件。同时3D 5-hop片上网络为实现大容量Cache提供了可能。

（1）“双通道”设计

本实施例采用了“数据传输通道”和“控制信息传输通道”双通道工作模式（图6所示）。a）数据传输通道为处理核通过Cache层访问存储提供的通道，处理核计算过程中需要对数据存储访问时，先访问L1 private cache，失效后由L1 Controller发往Cache层网络，LLC/Directory Controller收到请求后定位Cache块并把请求转发给该Cache块，然后该Cache块里所请求数据通过数据传输通道返回处理核请求者，即图1、图6中表示为处理核和Cache层之间的通道，如图1中的A -> B -> C -> D -> E -> F通路；b）控制信息传输通道提供处理核之间进行控制信息交互的通路，通过高速片上网络进行，传输处理核执行时核间的同步及互斥及其它控制信息，当处理核发往其它处理器控制信息时，处理核内Router接到信息后转发往该控制信息通道，即图1、图6中表示为处理核层的2D Mesh片上网络通路。在处理核执行过程中，数据通过数据通道进行核间共享，而数据地址、协议交互及控制信息则通过控制信息通道进行。

多层Cache层构成本实施例的存储体系，层与层的连接采用3D叠片技术互连，Cache层由长互连线连接各Cache节点，每层Cache节点的数目和下层处理核层的处理核个数一致，Cache层除了Cache块外，每层还设有一个LLC/Directory Controller、Memory及Disk，采用基于分布式目录一致性协议来维护数据的一致性，单层的示意图如图4所示。ITRS 数据表明2011 年采用三维集成电路技术可以最多将11 层芯片堆叠在一起，该Cache架构支持近5000个Cache数据块（每层500Cache数据块*10层）10 层Cache层的总共的Cache块数为5000快，为计算提供了足够大的Cache容量。

（2）Cache管理策略及访存流程设计

层与层之间采用3D叠片技术垂直互连，当处理核访问数据时，首先访问L1 Cache，访问失效后Cache Controller将访问请求发往Cache层，每个Cache层的LLC/Directory Controller收到后检索数据是否属于该层，若属于该层，则查看是否存在该层的Cache块中，没有，从Memory中置换入该层某个Cache块内，接着利用数据通道以不大于5 hops的距离传输给处理核请求者，实现数据访问的目的计。

在Cache管理策略上，Tile内封装私有L1 Cache，Cache层的所有Cache块都是L2级Cache，它们之间不存在层次关系，同时L2 Cache也是最后一级Cache（LLC），级联Memory Controller，这样的好处能够充分利用L2 Cache，不存在由于不同级Cache间存储相同数据造成的Cache浪费。L2 Cache数据发往处理核请求者时直接通过5-hop 3D数据通道进行传输，不需要写入沿途Cache块，有别于“数据迁移”的管理方法，减少功耗和时延开销。

（3）分布式Cache设计

a）每Cache层一个Directory Controller，多Cache层有多个Directory Controller通道连接多个Memory，构成分布式Memory，从而解决memory总线拥堵；b）任何Core能够访问多个Cache块，且每个Core以直连三维形式访问邻接Cache层对应位置的Cache块，不同Core的访存通路共同构成了高带宽，且众多Cache块的可供选择助于解决Cache冲突。

本发明可以用其它不违背本发明精神及主要技术特征的具体形式来概述，上述的实施例所公布的方案只是对本发明的说明而不是对本发明的限制。

Claims

1.一种三维众核片上系统，其特征在于：由一层处理核层即Core层和一层以上的Cache层组成，每Cache层含有与处理核层相同的Cache块数和Cache节点分布，Cache层及处理核层层间采用3D叠片技术垂直互连，Cache层和处理核层中所有处于同一行的节点构成全互连结构，所有处于同一列的节点构成全互连结构，并且将全互连结构中的互连线分配到三维片上网络各Cache层中，各处理核之间的通信和处理核与Cache层的通信采用不同的通道进行，处理核访问任一Cache块在5跳内完成；

所述的Cache层和处理核层中所有处于同一行的节点构成全互连结构，所有处于同一列的节点构成全互连结构，并且将全互连结构中的互连线分配到三维片上网络各Cache层中是：将行、列全互连中两点间的互连线分配到各层中去，对应某一行或某一列的Cache节点，不同层的互连线不同，当各Cache层及处理核层中的某一行或某一列的节点互连线映射到该行或该列的一层节点上时，这些互连线形成了该层节点的全互连；并且处理核层采用2D Mesh 互连结构，单Cache层中各Cache块之间采用行互连线和列互连线方式的长线互连。

2.如权利要求1所述的三维众核片上系统，其特征在于：对于处理核来说，Cache层所有Cache块构成同级Cache。

3.如权利要求1或2所述的三维众核片上系统，其特征在于：每个处理核由L1 Cache、L1 Controller和Router组成，该片上网络的处理核层采用2D Mesh 互连结构，各处理核节点通过Router进行网络互连。

4.如权利要求1或2所述的三维众核片上系统，其特征在于：单Cache层中各Cache块之间采用行互连线和列互连线方式的长线互连，单Cache层有Directory 和Cache Controller，多层Cache能连接多个Memory，构成分布式Memory。