CN103902502A - 一种可扩展的分离式异构千核系统 - Google Patents
一种可扩展的分离式异构千核系统 Download PDFInfo
- Publication number
- CN103902502A CN103902502A CN201410139531.9A CN201410139531A CN103902502A CN 103902502 A CN103902502 A CN 103902502A CN 201410139531 A CN201410139531 A CN 201410139531A CN 103902502 A CN103902502 A CN 103902502A
- Authority
- CN
- China
- Prior art keywords
- quart
- cpu
- unit
- processor
- computing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Memory System Of A Hierarchy Structure (AREA)
Abstract
本发明涉及一种可扩展的分离式异构千核系统,系统由内到外分CPU和GPU处理器、Quart计算单元和Tile单元三级,CPU和GPU处理器各带独立二级数据缓存,数个CPU和GPU处理器组成一个Quart计算单元,每个Quart配置有一个缓存管理处理器CMP,缓存管理处理器CMP管理Quart计算单元中CPU和GPU处理器预取和管理数据块,每个Quart计算单元之间通过高速网络互连,数个Quart计算单元组成一个Tile单元,Tile单元通过高速直通网络连接共享三级融合缓存。支持异构计算核心交叉式直接访问对方地址空间,扩展性强,降低指令间的数据相关性,提高指令并行度,同时配合数据块预取机制,为构建可扩展的、高性能的单片千核处理器系统提供一种新的框架。
Description
技术领域
本发明涉及一种计算机微系统结构,特别涉及一种可扩展的分离式异构千核系统。
背景技术
当前异构多核/众核计算机系统主要可以分为三大类:(1)单片集成式异构计算机系统(如ARM架构中通过合并big多核处理器和LITTLE多核处理器的流水线部件,集成新型的异构处理器等)。这类处理器架构主要应用于低功耗、嵌入式系统应用环境;(2)独立式GPU的异构计算机系统(如传统异构架构中,GPU通过高速的PCI-E总线与CPU交换数据,协同工作)。传统的独立式GPU异构计算机系统的编程架构、异构系统间数据共享和移动开销、单片的可扩展性等方面的瓶颈逐渐突出;(3)真正的单片异构计算机系统(如AMD 的Fusion架构处理器和Intel的MIC架构处理器,将数据流计算部件或向量计算部件与CPU计算核心统一集成到单个芯片)。本项专利申请主要面向第三类异构计算机系统。
典型的千核处理器系统主要有:Sanchez等人针对1024核的单片多处理器提出的可扩展一致性目录,但是该目录机制只是一个单级的缓存(Cache)目录,并且需要跟踪固定数量的数据块副本。Johnson 等人提出的千核处理器架构Rigel进行可扩展一致性研究,通过对Cache一致性机制增加一个广播探测过滤器以达到减小片上存储开销和目录协议的维护开销。但是,与本专利提出的异构千核处理器系统模型不同的是,这两类千核处理器模型都是同构的CPU千核系统,着重研究1024核CPU计算核心的单片多处理器。
真正的单片异构计算机系统的应用前景好,可以分类应用到大规模并行计算系统、服务器、桌面计算、移动计算、云计算等。Intel单片云计算机(SCC)已经有48个计算核心,按照摩尔定律的规律预测在4-5年内就能达到单片1000个核心的集成度。2012年半导体国际技术路线图预测,到2015年左右8层的3D集成技术和16nm制造工艺逐渐成熟,到2025年左右将出现128层的3D集成技术,可以生产1500个甚至以上的计算核心的处理器。AMD2013年APU开发者技术大会宣布的Kaveri处理器是第一个真正异构处理器,它在一个晶片上集成的CPU和GPU能直接通信并能共享访问内存。特别地,云计算和大数据的应用对未来高效能高通量众核处理器的需求更为迫切。异构千核处理器的研究将对云计算基础技术和大数据应用处理提供基础支撑作用。
发明内容
本发明所针对的异构千核处理器是云计算和大数据的应用发展的技术基础,提出了一种可扩展的分离式异构千核系统,为构建可扩展的、高性能的单片异构千核处理器系统提供一种新的框架。
本发明的技术方案为:一种可扩展的分离式异构千核系统,系统由内到外分CPU和GPU处理器、Quart计算单元和Tile单元三级,CPU和GPU处理器各带独立二级数据缓存,数个CPU和GPU处理器组成一个Quart计算单元,每个Quart配置有一个缓存管理处理器CMP,缓存管理处理器CMP管理Quart计算单元中CPU和GPU处理器预取和管理数据块,每个Quart计算单元之间通过高速网络互连,数个Quart计算单元组成一个Tile单元,Tile单元采用多端口队列机制分离访存指令和纯计算指令,Tile单元通过高速直通网络连接共享三级融合缓存。
所述三级融合缓存直接与CPU和GPU处理器统一的物理内存交换数据块,直接访问CPU和GPU处理器物理地址空间。
所述二级数据缓存采用编译器将指令分离标记为访存指令和纯计算指令并派发至CPU和GPU处理器中被访问的处理单元AP和计算处理单元CP。
本发明的有益效果在于:本发明可扩展的分离式异构千核系统,降低指令间的数据相关性,提高指令并行度,同时配合数据块预取机制,支持异构计算核心交叉式直接访问对方地址空间,可扩展性强。
附图说明
图1为本发明可扩展的分离式异构千核系统结构示意图;
图2为本发明可扩展的分离式异构千核系统分离式结构示意图。
具体实施方式
如图1所示可扩展的分离式异构千核系统结构示意图。异构千核处理器系统模型由三级计算单元组成,分别是CPU/GPU计算核心级、Quart级和Tile级。4个CPU计算核心组成的CPU簇和12个GPU计算核心组成的GPU簇,共同构成Quart计算单元。该单元内的4个CPU和12个GPU有各自独立的共享二级数据Cache,一个Quart包含16个异构计算单元。4个Quart组成一个Tile,每个Quart之间通过高速网络互连,每个Tile含64个异构计算单元,并采用多端口队列机制分离访存指令和纯计算指令。每个Quart配置有一个Cache管理处理器(CMP)负责为Quart中各计算核心预取和管理数据块。16个Tile通过高速直通网络连接,共享三级融合的Cache,该Cache既可以为GPU计算核心缓存数据,也可以为CPU计算单元缓存数据,并支持交叉式直接访问统一的物理内存。
由于千核处理器系统动态指令的发射率高、指令间的访问冲突率高等约束因素,导致系统的整体性能并没有获得足够的提升。因此,面向大数据密集型应用,进一步提出千核处理器系统模型的分离式结构。采用编译器将指令分离标记为访存指令和纯计算指令并派发至相应的访问处理单元AP和计算处理单元CP执行(处理单元是指CPU的处理器核心或GPU流计算单元)。
如图2所示可扩展的分离式异构千核系统分离式结构示意图,以异构千核处理器系统结构4个计算核心的CPU簇为例,设计的分离式系统结构基本模型。其中,计算处理单元CP执行所有的计算型指令;访问处理单元AP执行所有的内存访问操作指令,如Load和Store指令,并负责将数据从Cache传递到计算处理单元。计算指令和访存指令在程序编译阶段标识并分离出来。计算处理单元CP和访问处理单元AP通过队列池共享和交换数据。所有4个CPU计算核心通过访问处理单元访问二级数据Cache。对于每个Quart都分别配置有一个Cache管理处理单元CMP。Cache管理处理单元CMP是一个推测执行的协处理器,主要支持Cache数据块的预取技术,降低Cache缺失率。在异构千核处理器中,CPU簇和GPU簇都分别设置有独立的计算处理单元、访问处理单元,每个Quart设计有一个Cache管理处理单元。二级数据Cache可以通过Cache管理处理单元的控制与三级融合的数据Cache交换数据块,维护多级Cache的一致性。三级融合的数据Cache在分离式异构千核处理器系统中可以直接与统一的物理内存交换数据块,支持各计算核心交叉式直接访问对方物理地址空间。分离式结构的设计可以降低指令间的数据相关性,提高指令并行度,同时配合数据块预取机制,为异构计算核心交叉式直接访问对方地址空间提供了一种解决方案。本发明所提出的异构千核系统结构,其中GPU计算单元也可以实现为类似功能的向量处理单元或可重构计算单元。
Claims (3)
1.一种可扩展的分离式异构千核系统,其特征在于,系统由内到外分CPU和GPU处理器、Quart计算单元和Tile单元三级,CPU和GPU处理器各带独立二级数据缓存,数个CPU和GPU处理器组成一个Quart计算单元,每个Quart配置有一个缓存管理处理器CMP,缓存管理处理器CMP管理Quart计算单元中CPU和GPU处理器预取和管理数据块,每个Quart计算单元之间通过高速网络互连,数个Quart计算单元组成一个Tile单元,Tile单元采用多端口队列机制分离访存指令和纯计算指令,Tile单元通过高速直通网络连接共享三级融合缓存。
2.根据权利要求1所述可扩展的分离式异构千核系统,其特征在于,所述三级融合缓存直接与CPU和GPU处理器统一的物理内存交换数据块,直接访问CPU和GPU处理器物理地址空间。
3.根据权利要求1所述可扩展的分离式异构千核系统,其特征在于,所述二级数据缓存采用编译器将指令分离标记为访存指令和纯计算指令并派发至CPU和GPU处理器中被访问的处理单元AP和计算处理单元CP。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410139531.9A CN103902502B (zh) | 2014-04-09 | 2014-04-09 | 一种可扩展的分离式异构千核系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410139531.9A CN103902502B (zh) | 2014-04-09 | 2014-04-09 | 一种可扩展的分离式异构千核系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103902502A true CN103902502A (zh) | 2014-07-02 |
CN103902502B CN103902502B (zh) | 2017-01-04 |
Family
ID=50993832
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410139531.9A Expired - Fee Related CN103902502B (zh) | 2014-04-09 | 2014-04-09 | 一种可扩展的分离式异构千核系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103902502B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106846236A (zh) * | 2016-12-26 | 2017-06-13 | 中国科学院计算技术研究所 | 一种可扩展的分布式gpu加速方法及装置 |
CN106886502A (zh) * | 2017-01-08 | 2017-06-23 | 广东工业大学 | 面向用户的异构多处理器阵列体系结构 |
CN107122162A (zh) * | 2016-02-25 | 2017-09-01 | 深圳市知穹科技有限公司 | 基于cpu和gpu的异构千核高通量处理系统及其修改方法 |
CN110221985A (zh) * | 2019-06-06 | 2019-09-10 | 成都海光集成电路设计有限公司 | 跨芯片维护缓存一致性策略的装置与方法 |
US10769837B2 (en) | 2017-12-26 | 2020-09-08 | Samsung Electronics Co., Ltd. | Apparatus and method for performing tile-based rendering using prefetched graphics data |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103246542A (zh) * | 2012-02-01 | 2013-08-14 | 中兴通讯股份有限公司 | 智能缓存及智能终端 |
CN103370696A (zh) * | 2010-12-09 | 2013-10-23 | 国际商业机器公司 | 多核系统以及核数据读取方法 |
CN103513957A (zh) * | 2012-06-27 | 2014-01-15 | 上海芯豪微电子有限公司 | 高性能缓存系统和方法 |
US20140089584A1 (en) * | 2012-09-24 | 2014-03-27 | Hewlett-Packard Development Company | Accelerated path selection based on number of write requests and sequential trend |
US20140095896A1 (en) * | 2012-09-28 | 2014-04-03 | Nicholas P. Carter | Exposing control of power and clock gating for software |
-
2014
- 2014-04-09 CN CN201410139531.9A patent/CN103902502B/zh not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103370696A (zh) * | 2010-12-09 | 2013-10-23 | 国际商业机器公司 | 多核系统以及核数据读取方法 |
CN103246542A (zh) * | 2012-02-01 | 2013-08-14 | 中兴通讯股份有限公司 | 智能缓存及智能终端 |
CN103513957A (zh) * | 2012-06-27 | 2014-01-15 | 上海芯豪微电子有限公司 | 高性能缓存系统和方法 |
US20140089584A1 (en) * | 2012-09-24 | 2014-03-27 | Hewlett-Packard Development Company | Accelerated path selection based on number of write requests and sequential trend |
US20140095896A1 (en) * | 2012-09-28 | 2014-04-03 | Nicholas P. Carter | Exposing control of power and clock gating for software |
Non-Patent Citations (2)
Title |
---|
彭晓明 等: "多核处理器-技术、趋势和挑战", 《计算机科学》 * |
彭江泉 等: "CPU/GPU系统负载均衡的可分负载调度", 《计算机工程与设计》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107122162A (zh) * | 2016-02-25 | 2017-09-01 | 深圳市知穹科技有限公司 | 基于cpu和gpu的异构千核高通量处理系统及其修改方法 |
CN107122162B (zh) * | 2016-02-25 | 2019-11-19 | 深圳市知穹科技有限公司 | 基于cpu和gpu的异构千核高通量处理系统及其修改方法 |
CN106846236A (zh) * | 2016-12-26 | 2017-06-13 | 中国科学院计算技术研究所 | 一种可扩展的分布式gpu加速方法及装置 |
CN106886502A (zh) * | 2017-01-08 | 2017-06-23 | 广东工业大学 | 面向用户的异构多处理器阵列体系结构 |
US10769837B2 (en) | 2017-12-26 | 2020-09-08 | Samsung Electronics Co., Ltd. | Apparatus and method for performing tile-based rendering using prefetched graphics data |
CN110221985A (zh) * | 2019-06-06 | 2019-09-10 | 成都海光集成电路设计有限公司 | 跨芯片维护缓存一致性策略的装置与方法 |
CN110221985B (zh) * | 2019-06-06 | 2021-04-23 | 成都海光集成电路设计有限公司 | 跨芯片维护缓存一致性策略的装置与方法 |
Also Published As
Publication number | Publication date |
---|---|
CN103902502B (zh) | 2017-01-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110741356B (zh) | 多处理器系统中的中继一致存储器管理 | |
Dai et al. | Graphh: A processing-in-memory architecture for large-scale graph processing | |
US20210209025A1 (en) | Method and apparatus for shared virtual memory to manage data coherency in a heterogeneous processing system | |
CN102135949B (zh) | 基于图形处理器的计算网络系统、方法及装置 | |
CN103902502A (zh) | 一种可扩展的分离式异构千核系统 | |
US10176147B2 (en) | Multi-processor core three-dimensional (3D) integrated circuits (ICs) (3DICs), and related methods | |
CN103955435A (zh) | 一种融合多级缓存目录建立访问方法 | |
CN107122162B (zh) | 基于cpu和gpu的异构千核高通量处理系统及其修改方法 | |
CN108804348B (zh) | 并行处理环境中的计算 | |
US10916252B2 (en) | Accelerated data transfer for latency reduction and real-time processing | |
Khairy et al. | A survey of architectural approaches for improving GPGPU performance, programmability and heterogeneity | |
WO2016078205A1 (zh) | 一种主机系统目录结构实现方法和系统 | |
CN110908929B (zh) | 用于高带宽缩放的一致数据高速缓存 | |
Klenk et al. | Analyzing communication models for distributed thread-collaborative processors in terms of energy and time | |
Tian et al. | Abndp: Co-optimizing data access and load balance in near-data processing | |
CN106202152A (zh) | 一种云平台的数据处理方法及系统 | |
US11625279B2 (en) | Read-write page replication for multiple compute units | |
WO2022010708A1 (en) | Intelligent repurposable cooling systems for mobile datacenter | |
US11061817B2 (en) | Memory node with cache for emulated shared memory computers | |
Addisie et al. | Centaur: Hybrid processing in on/off-chip memory architecture for graph analytics | |
Menezo et al. | The case for a scalable coherence protocol for complex on-chip cache hierarchies in many-core systems | |
Kaehler | Massively parallel computation of accurate densities for N-body dark matter simulations using the phase-space-element method | |
Xu et al. | Collaborating CPU and GPU for the electromagnetic simulations with the FDTD algorithm | |
Tang et al. | Embedded systems architecture for SLAM applications | |
Weigel | Simulating spin models on GPU: A tour |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20170104 Termination date: 20190409 |
|
CF01 | Termination of patent right due to non-payment of annual fee |