CN103902502B - 一种可扩展的分离式异构千核系统 - Google Patents
一种可扩展的分离式异构千核系统 Download PDFInfo
- Publication number
- CN103902502B CN103902502B CN201410139531.9A CN201410139531A CN103902502B CN 103902502 B CN103902502 B CN 103902502B CN 201410139531 A CN201410139531 A CN 201410139531A CN 103902502 B CN103902502 B CN 103902502B
- Authority
- CN
- China
- Prior art keywords
- quart
- cpu
- processor
- unit
- gpu
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Memory System Of A Hierarchy Structure (AREA)
Abstract
本发明涉及一种可扩展的分离式异构千核系统,系统由内到外分CPU和GPU处理器、Quart计算单元和Tile单元三级,CPU和GPU处理器各带独立二级数据缓存,数个CPU和GPU处理器组成一个Quart计算单元,每个Quart配置有一个缓存管理处理器CMP,缓存管理处理器CMP管理Quart计算单元中CPU和GPU处理器预取和管理数据块,每个Quart计算单元之间通过高速网络互连,数个Quart计算单元组成一个Tile单元,Tile单元通过高速直通网络连接共享三级融合缓存。支持异构计算核心交叉式直接访问对方地址空间,扩展性强,降低指令间的数据相关性,提高指令并行度,同时配合数据块预取机制,为构建可扩展的、高性能的单片千核处理器系统提供一种新的框架。
Description
技术领域
本发明涉及一种计算机微系统结构,特别涉及一种可扩展的分离式异构千核系统。
背景技术
当前异构多核/众核计算机系统主要可以分为三大类:(1)单片集成式异构计算机系统(如ARM架构中通过合并big多核处理器和LITTLE多核处理器的流水线部件,集成新型的异构处理器等)。这类处理器架构主要应用于低功耗、嵌入式系统应用环境;(2)独立式GPU的异构计算机系统(如传统异构架构中,GPU通过高速的PCI-E总线与CPU交换数据,协同工作)。传统的独立式GPU异构计算机系统的编程架构、异构系统间数据共享和移动开销、单片的可扩展性等方面的瓶颈逐渐突出;(3)真正的单片异构计算机系统(如AMD 的Fusion架构处理器和Intel的MIC架构处理器,将数据流计算部件或向量计算部件与CPU计算核心统一集成到单个芯片)。本项专利申请主要面向第三类异构计算机系统。
典型的千核处理器系统主要有:Sanchez等人针对1024核的单片多处理器提出的可扩展一致性目录,但是该目录机制只是一个单级的缓存(Cache)目录,并且需要跟踪固定数量的数据块副本。Johnson 等人提出的千核处理器架构Rigel进行可扩展一致性研究,通过对Cache一致性机制增加一个广播探测过滤器以达到减小片上存储开销和目录协议的维护开销。但是,与本专利提出的异构千核处理器系统模型不同的是,这两类千核处理器模型都是同构的CPU千核系统,着重研究1024核CPU计算核心的单片多处理器。
真正的单片异构计算机系统的应用前景好,可以分类应用到大规模并行计算系统、服务器、桌面计算、移动计算、云计算等。Intel单片云计算机(SCC)已经有48个计算核心,按照摩尔定律的规律预测在4-5年内就能达到单片1000个核心的集成度。2012年半导体国际技术路线图预测,到2015年左右8层的3D集成技术和16nm制造工艺逐渐成熟,到2025年左右将出现128层的3D集成技术,可以生产1500个甚至以上的计算核心的处理器。AMD2013年APU开发者技术大会宣布的Kaveri处理器是第一个真正异构处理器,它在一个晶片上集成的CPU和GPU能直接通信并能共享访问内存。特别地,云计算和大数据的应用对未来高效能高通量众核处理器的需求更为迫切。异构千核处理器的研究将对云计算基础技术和大数据应用处理提供基础支撑作用。
发明内容
本发明所针对的异构千核处理器是云计算和大数据的应用发展的技术基础,提出了一种可扩展的分离式异构千核系统,为构建可扩展的、高性能的单片异构千核处理器系统提供一种新的框架。
本发明的技术方案为:一种可扩展的分离式异构千核系统,系统由内到外分CPU和GPU处理器、Quart计算单元和Tile单元三级,CPU和GPU处理器各带独立二级数据缓存,数个CPU和GPU处理器组成一个Quart计算单元,每个Quart配置有一个缓存管理处理器CMP,缓存管理处理器CMP管理Quart计算单元中CPU和GPU处理器预取和管理数据块,每个Quart计算单元之间通过高速网络互连,数个Quart计算单元组成一个Tile单元,Tile单元采用多端口队列机制分离访存指令和纯计算指令,Tile单元通过高速直通网络连接共享三级融合缓存。
所述三级融合缓存直接与CPU和GPU处理器统一的物理内存交换数据块,直接访问CPU和GPU处理器物理地址空间。
所述二级数据缓存采用编译器将指令分离标记为访存指令和纯计算指令并派发至CPU和GPU处理器中被访问的处理单元AP和计算处理单元CP。
本发明的有益效果在于:本发明可扩展的分离式异构千核系统,降低指令间的数据相关性,提高指令并行度,同时配合数据块预取机制,支持异构计算核心交叉式直接访问对方地址空间,可扩展性强。
附图说明
图1为本发明可扩展的分离式异构千核系统结构示意图;
图2为本发明可扩展的分离式异构千核系统分离式结构示意图。
具体实施方式
如图1所示可扩展的分离式异构千核系统结构示意图。异构千核处理器系统模型由三级计算单元组成,分别是CPU/GPU计算核心级、Quart级和Tile级。4个CPU计算核心组成的CPU簇和12个GPU计算核心组成的GPU簇,共同构成Quart计算单元。该单元内的4个CPU和12个GPU有各自独立的共享二级数据Cache,一个Quart包含16个异构计算单元。4个Quart组成一个Tile,每个Quart之间通过高速网络互连,每个Tile含64个异构计算单元,并采用多端口队列机制分离访存指令和纯计算指令。每个Quart配置有一个Cache管理处理器(CMP)负责为Quart中各计算核心预取和管理数据块。16个Tile通过高速直通网络连接,共享三级融合的Cache,该Cache既可以为GPU计算核心缓存数据,也可以为CPU计算单元缓存数据,并支持交叉式直接访问统一的物理内存。
由于千核处理器系统动态指令的发射率高、指令间的访问冲突率高等约束因素,导致系统的整体性能并没有获得足够的提升。因此,面向大数据密集型应用,进一步提出千核处理器系统模型的分离式结构。采用编译器将指令分离标记为访存指令和纯计算指令并派发至相应的访问处理单元AP和计算处理单元CP执行(处理单元是指CPU的处理器核心或GPU流计算单元)。
如图2所示可扩展的分离式异构千核系统分离式结构示意图,以异构千核处理器系统结构4个计算核心的CPU簇为例,设计的分离式系统结构基本模型。其中,计算处理单元CP执行所有的计算型指令;访问处理单元AP执行所有的内存访问操作指令,如Load和Store指令,并负责将数据从Cache传递到计算处理单元。计算指令和访存指令在程序编译阶段标识并分离出来。计算处理单元CP和访问处理单元AP通过队列池共享和交换数据。所有4个CPU计算核心通过访问处理单元访问二级数据Cache。对于每个Quart都分别配置有一个Cache管理处理单元CMP。Cache管理处理单元CMP是一个推测执行的协处理器,主要支持Cache数据块的预取技术,降低Cache缺失率。在异构千核处理器中,CPU簇和GPU簇都分别设置有独立的计算处理单元、访问处理单元,每个Quart设计有一个Cache管理处理单元。二级数据Cache可以通过Cache管理处理单元的控制与三级融合的数据Cache交换数据块,维护多级Cache的一致性。三级融合的数据Cache在分离式异构千核处理器系统中可以直接与统一的物理内存交换数据块,支持各计算核心交叉式直接访问对方物理地址空间。分离式结构的设计可以降低指令间的数据相关性,提高指令并行度,同时配合数据块预取机制,为异构计算核心交叉式直接访问对方地址空间提供了一种解决方案。本发明所提出的异构千核系统结构,其中GPU计算单元也可以实现为类似功能的向量处理单元或可重构计算单元。
Claims (3)
1.一种可扩展的分离式异构千核系统,其特征在于,系统由内到外分CPU和GPU处理器、Quart计算单元和Tile单元三级,CPU和GPU处理器各带独立二级数据缓存,数个CPU和GPU处理器组成一个Quart计算单元,每个Quart配置有一个缓存管理处理器(CMP),缓存管理处理器(CMP)管理Quart计算单元中CPU和GPU处理器预取和管理数据块,每个Quart计算单元之间通过高速网络互连,数个Quart计算单元组成一个Tile单元,Tile单元采用多端口队列机制分离访存指令和纯计算指令,Tile单元通过高速直通网络连接共享三级融合缓存。
2.根据权利要求1所述可扩展的分离式异构千核系统,其特征在于,所述三级融合缓存直接与CPU和GPU处理器统一的物理内存交换数据块,直接访问CPU和GPU处理器物理地址空间。
3.根据权利要求1所述可扩展的分离式异构千核系统,其特征在于,所述二级数据缓存采用编译器将指令分离标记为访存指令和纯计算指令并派发至CPU和GPU处理器中访问处理单元(AP)和计算处理单元(CP)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410139531.9A CN103902502B (zh) | 2014-04-09 | 2014-04-09 | 一种可扩展的分离式异构千核系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410139531.9A CN103902502B (zh) | 2014-04-09 | 2014-04-09 | 一种可扩展的分离式异构千核系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103902502A CN103902502A (zh) | 2014-07-02 |
CN103902502B true CN103902502B (zh) | 2017-01-04 |
Family
ID=50993832
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410139531.9A Expired - Fee Related CN103902502B (zh) | 2014-04-09 | 2014-04-09 | 一种可扩展的分离式异构千核系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103902502B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107122162B (zh) * | 2016-02-25 | 2019-11-19 | 深圳市知穹科技有限公司 | 基于cpu和gpu的异构千核高通量处理系统及其修改方法 |
CN106846236A (zh) * | 2016-12-26 | 2017-06-13 | 中国科学院计算技术研究所 | 一种可扩展的分布式gpu加速方法及装置 |
CN106886502A (zh) * | 2017-01-08 | 2017-06-23 | 广东工业大学 | 面向用户的异构多处理器阵列体系结构 |
KR102554419B1 (ko) | 2017-12-26 | 2023-07-11 | 삼성전자주식회사 | 프리페칭된 그래픽스 데이터를 이용하여 타일 기반 렌더링을 수행하는 방법 및 장치 |
CN110221985B (zh) * | 2019-06-06 | 2021-04-23 | 成都海光集成电路设计有限公司 | 跨芯片维护缓存一致性策略的装置与方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103246542A (zh) * | 2012-02-01 | 2013-08-14 | 中兴通讯股份有限公司 | 智能缓存及智能终端 |
CN103370696A (zh) * | 2010-12-09 | 2013-10-23 | 国际商业机器公司 | 多核系统以及核数据读取方法 |
CN103513957A (zh) * | 2012-06-27 | 2014-01-15 | 上海芯豪微电子有限公司 | 高性能缓存系统和方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8990509B2 (en) * | 2012-09-24 | 2015-03-24 | Hewlett-Packard Development Company, L.P. | Accelerated path selection based on number of write requests and sequential trend |
US20140095896A1 (en) * | 2012-09-28 | 2014-04-03 | Nicholas P. Carter | Exposing control of power and clock gating for software |
-
2014
- 2014-04-09 CN CN201410139531.9A patent/CN103902502B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103370696A (zh) * | 2010-12-09 | 2013-10-23 | 国际商业机器公司 | 多核系统以及核数据读取方法 |
CN103246542A (zh) * | 2012-02-01 | 2013-08-14 | 中兴通讯股份有限公司 | 智能缓存及智能终端 |
CN103513957A (zh) * | 2012-06-27 | 2014-01-15 | 上海芯豪微电子有限公司 | 高性能缓存系统和方法 |
Non-Patent Citations (2)
Title |
---|
CPU/GPU系统负载均衡的可分负载调度;彭江泉 等;《计算机工程与设计》;20131130;第34卷(第11期);第3916-3923页 * |
多核处理器-技术、趋势和挑战;彭晓明 等;《计算机科学》;20121130;第39卷(第11A期);第320-326页 * |
Also Published As
Publication number | Publication date |
---|---|
CN103902502A (zh) | 2014-07-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103902502B (zh) | 一种可扩展的分离式异构千核系统 | |
US9323672B2 (en) | Scatter-gather intelligent memory architecture for unstructured streaming data on multiprocessor systems | |
Baruah et al. | Griffin: Hardware-software support for efficient page migration in multi-gpu systems | |
Nelson et al. | Crunching large graphs with commodity processors | |
Tudor et al. | Understanding off-chip memory contention of parallel programs in multicore systems | |
CN107122162B (zh) | 基于cpu和gpu的异构千核高通量处理系统及其修改方法 | |
Hussain et al. | PPMC: a programmable pattern based memory controller | |
CN103955435A (zh) | 一种融合多级缓存目录建立访问方法 | |
Khairy et al. | A survey of architectural approaches for improving GPGPU performance, programmability and heterogeneity | |
US20180322057A1 (en) | Computing In Parallel Processing Environments | |
Dublish et al. | Cooperative caching for GPUs | |
Islam et al. | Improving node-level mapreduce performance using processing-in-memory technologies | |
Tian et al. | Abndp: Co-optimizing data access and load balance in near-data processing | |
WO2022010708A1 (en) | Intelligent repurposable cooling systems for mobile datacenter | |
Vermij et al. | An architecture for near-data processing systems | |
US11061817B2 (en) | Memory node with cache for emulated shared memory computers | |
Addisie et al. | Centaur: Hybrid processing in on/off-chip memory architecture for graph analytics | |
Ramesh et al. | Is it time to rethink distributed shared memory systems? | |
Vermij et al. | An architecture for integrated near-data processors | |
Wang et al. | Incorporating selective victim cache into GPGPU for high‐performance computing | |
Das et al. | Towards a better cache utilization by selective data storage for CMP last level caches | |
Lira et al. | Analysis of non-uniform cache architecture policies for chip-multiprocessors using the parsec benchmark suite | |
Payami et al. | A hybrid instruction prefetching mechanism for ultra low-power multicore clusters | |
Ros et al. | Extending magny-cours cache coherence | |
Chtioui et al. | A dynamic hybrid cache coherency protocol for shared-memory MPSoC architectures |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20170104 Termination date: 20190409 |
|
CF01 | Termination of patent right due to non-payment of annual fee |