CN103902502A

CN103902502A - 一种可扩展的分离式异构千核系统

Info

Publication number: CN103902502A
Application number: CN201410139531.9A
Authority: CN
Inventors: 裴颂文
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2014-04-09
Filing date: 2014-04-09
Publication date: 2014-07-02
Anticipated expiration: 2034-04-09
Also published as: CN103902502B

Abstract

本发明涉及一种可扩展的分离式异构千核系统，系统由内到外分CPU和GPU处理器、Quart计算单元和Tile单元三级，CPU和GPU处理器各带独立二级数据缓存，数个CPU和GPU处理器组成一个Quart计算单元，每个Quart配置有一个缓存管理处理器CMP，缓存管理处理器CMP管理Quart计算单元中CPU和GPU处理器预取和管理数据块，每个Quart计算单元之间通过高速网络互连，数个Quart计算单元组成一个Tile单元，Tile单元通过高速直通网络连接共享三级融合缓存。支持异构计算核心交叉式直接访问对方地址空间，扩展性强，降低指令间的数据相关性，提高指令并行度，同时配合数据块预取机制，为构建可扩展的、高性能的单片千核处理器系统提供一种新的框架。

Description

一种可扩展的分离式异构千核系统

技术领域

本发明涉及一种计算机微系统结构，特别涉及一种可扩展的分离式异构千核系统。

背景技术

当前异构多核/众核计算机系统主要可以分为三大类：（1）单片集成式异构计算机系统（如ARM架构中通过合并big多核处理器和LITTLE多核处理器的流水线部件，集成新型的异构处理器等）。这类处理器架构主要应用于低功耗、嵌入式系统应用环境；（2）独立式GPU的异构计算机系统（如传统异构架构中，GPU通过高速的PCI-E总线与CPU交换数据，协同工作）。传统的独立式GPU异构计算机系统的编程架构、异构系统间数据共享和移动开销、单片的可扩展性等方面的瓶颈逐渐突出；（3）真正的单片异构计算机系统（如AMD 的Fusion架构处理器和Intel的MIC架构处理器，将数据流计算部件或向量计算部件与CPU计算核心统一集成到单个芯片）。本项专利申请主要面向第三类异构计算机系统。

典型的千核处理器系统主要有：Sanchez等人针对1024核的单片多处理器提出的可扩展一致性目录，但是该目录机制只是一个单级的缓存（Cache）目录，并且需要跟踪固定数量的数据块副本。Johnson 等人提出的千核处理器架构Rigel进行可扩展一致性研究，通过对Cache一致性机制增加一个广播探测过滤器以达到减小片上存储开销和目录协议的维护开销。但是，与本专利提出的异构千核处理器系统模型不同的是，这两类千核处理器模型都是同构的CPU千核系统，着重研究1024核CPU计算核心的单片多处理器。

真正的单片异构计算机系统的应用前景好，可以分类应用到大规模并行计算系统、服务器、桌面计算、移动计算、云计算等。Intel单片云计算机（SCC）已经有48个计算核心，按照摩尔定律的规律预测在4-5年内就能达到单片1000个核心的集成度。2012年半导体国际技术路线图预测，到2015年左右8层的3D集成技术和16nm制造工艺逐渐成熟，到2025年左右将出现128层的3D集成技术，可以生产1500个甚至以上的计算核心的处理器。AMD2013年APU开发者技术大会宣布的Kaveri处理器是第一个真正异构处理器，它在一个晶片上集成的CPU和GPU能直接通信并能共享访问内存。特别地，云计算和大数据的应用对未来高效能高通量众核处理器的需求更为迫切。异构千核处理器的研究将对云计算基础技术和大数据应用处理提供基础支撑作用。

发明内容

本发明所针对的异构千核处理器是云计算和大数据的应用发展的技术基础，提出了一种可扩展的分离式异构千核系统，为构建可扩展的、高性能的单片异构千核处理器系统提供一种新的框架。

本发明的技术方案为：一种可扩展的分离式异构千核系统，系统由内到外分CPU和GPU处理器、Quart计算单元和Tile单元三级，CPU和GPU处理器各带独立二级数据缓存，数个CPU和GPU处理器组成一个Quart计算单元，每个Quart配置有一个缓存管理处理器CMP，缓存管理处理器CMP管理Quart计算单元中CPU和GPU处理器预取和管理数据块，每个Quart计算单元之间通过高速网络互连，数个Quart计算单元组成一个Tile单元，Tile单元采用多端口队列机制分离访存指令和纯计算指令，Tile单元通过高速直通网络连接共享三级融合缓存。

所述三级融合缓存直接与CPU和GPU处理器统一的物理内存交换数据块，直接访问CPU和GPU处理器物理地址空间。

所述二级数据缓存采用编译器将指令分离标记为访存指令和纯计算指令并派发至CPU和GPU处理器中被访问的处理单元AP和计算处理单元CP。

本发明的有益效果在于：本发明可扩展的分离式异构千核系统，降低指令间的数据相关性，提高指令并行度，同时配合数据块预取机制，支持异构计算核心交叉式直接访问对方地址空间，可扩展性强。

附图说明

图1为本发明可扩展的分离式异构千核系统结构示意图；

图2为本发明可扩展的分离式异构千核系统分离式结构示意图。

具体实施方式

如图1所示可扩展的分离式异构千核系统结构示意图。异构千核处理器系统模型由三级计算单元组成，分别是CPU/GPU计算核心级、Quart级和Tile级。4个CPU计算核心组成的CPU簇和12个GPU计算核心组成的GPU簇，共同构成Quart计算单元。该单元内的4个CPU和12个GPU有各自独立的共享二级数据Cache，一个Quart包含16个异构计算单元。4个Quart组成一个Tile，每个Quart之间通过高速网络互连，每个Tile含64个异构计算单元，并采用多端口队列机制分离访存指令和纯计算指令。每个Quart配置有一个Cache管理处理器（CMP）负责为Quart中各计算核心预取和管理数据块。16个Tile通过高速直通网络连接，共享三级融合的Cache，该Cache既可以为GPU计算核心缓存数据，也可以为CPU计算单元缓存数据，并支持交叉式直接访问统一的物理内存。

由于千核处理器系统动态指令的发射率高、指令间的访问冲突率高等约束因素，导致系统的整体性能并没有获得足够的提升。因此，面向大数据密集型应用，进一步提出千核处理器系统模型的分离式结构。采用编译器将指令分离标记为访存指令和纯计算指令并派发至相应的访问处理单元AP和计算处理单元CP执行（处理单元是指CPU的处理器核心或GPU流计算单元）。

如图2所示可扩展的分离式异构千核系统分离式结构示意图，以异构千核处理器系统结构4个计算核心的CPU簇为例，设计的分离式系统结构基本模型。其中，计算处理单元CP执行所有的计算型指令；访问处理单元AP执行所有的内存访问操作指令，如Load和Store指令，并负责将数据从Cache传递到计算处理单元。计算指令和访存指令在程序编译阶段标识并分离出来。计算处理单元CP和访问处理单元AP通过队列池共享和交换数据。所有4个CPU计算核心通过访问处理单元访问二级数据Cache。对于每个Quart都分别配置有一个Cache管理处理单元CMP。Cache管理处理单元CMP是一个推测执行的协处理器，主要支持Cache数据块的预取技术，降低Cache缺失率。在异构千核处理器中，CPU簇和GPU簇都分别设置有独立的计算处理单元、访问处理单元，每个Quart设计有一个Cache管理处理单元。二级数据Cache可以通过Cache管理处理单元的控制与三级融合的数据Cache交换数据块，维护多级Cache的一致性。三级融合的数据Cache在分离式异构千核处理器系统中可以直接与统一的物理内存交换数据块，支持各计算核心交叉式直接访问对方物理地址空间。分离式结构的设计可以降低指令间的数据相关性，提高指令并行度，同时配合数据块预取机制，为异构计算核心交叉式直接访问对方地址空间提供了一种解决方案。本发明所提出的异构千核系统结构，其中GPU计算单元也可以实现为类似功能的向量处理单元或可重构计算单元。

Claims

1.一种可扩展的分离式异构千核系统，其特征在于，系统由内到外分CPU和GPU处理器、Quart计算单元和Tile单元三级，CPU和GPU处理器各带独立二级数据缓存，数个CPU和GPU处理器组成一个Quart计算单元，每个Quart配置有一个缓存管理处理器CMP，缓存管理处理器CMP管理Quart计算单元中CPU和GPU处理器预取和管理数据块，每个Quart计算单元之间通过高速网络互连，数个Quart计算单元组成一个Tile单元，Tile单元采用多端口队列机制分离访存指令和纯计算指令，Tile单元通过高速直通网络连接共享三级融合缓存。

2.根据权利要求1所述可扩展的分离式异构千核系统，其特征在于，所述三级融合缓存直接与CPU和GPU处理器统一的物理内存交换数据块，直接访问CPU和GPU处理器物理地址空间。

3.根据权利要求1所述可扩展的分离式异构千核系统，其特征在于，所述二级数据缓存采用编译器将指令分离标记为访存指令和纯计算指令并派发至CPU和GPU处理器中被访问的处理单元AP和计算处理单元CP。