CN101441615A - 面向任务流的高效能立体并行柔性可重构计算架构模型 - Google Patents

面向任务流的高效能立体并行柔性可重构计算架构模型 Download PDF

Info

Publication number
CN101441615A
CN101441615A CNA2008102310098A CN200810231009A CN101441615A CN 101441615 A CN101441615 A CN 101441615A CN A2008102310098 A CNA2008102310098 A CN A2008102310098A CN 200810231009 A CN200810231009 A CN 200810231009A CN 101441615 A CN101441615 A CN 101441615A
Authority
CN
China
Prior art keywords
task
processing element
task processing
tppg
computing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2008102310098A
Other languages
English (en)
Inventor
邬江兴
赵荣彩
瞿进
陈庶民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
PLA Information Engineering University
Original Assignee
PLA Information Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by PLA Information Engineering University filed Critical PLA Information Engineering University
Priority to CNA2008102310098A priority Critical patent/CN101441615A/zh
Publication of CN101441615A publication Critical patent/CN101441615A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Multi Processors (AREA)

Abstract

本发明涉及一种面向任务流的高效能立体并行柔性可重构计算架构模型;该架构模型含有n个计算节点PE,每个计算节点PE含有m个相对独立的任务处理部件组TPPG,每个任务处理部件组TPPG含有k个具有不同粒度的任务处理能力的分布于不同层次的任务处理部件TPP,各计算节点PE之间通过高速交换网络连接,各任务处理部件组TPPG间通过共享存储器或共享寄存器或高速总线进行数据的传递,各个任务处理部件TPP间通过共享存储器或共享寄存器来交换所需数据;本发明提出了一种面向任务流的高效能立体并行柔性可重构计算架构模型,该计算架构模型通过柔性重构立体并行机制,提高了超级计算机任务处理部件对不同任务的适用性和高效性。

Description

面向任务流的高效能立体并行柔性可重构计算架构模型
(一)、技术领域:本发明涉及一种可重构计算架构模型,特别涉及一种面向任务流的高效能立体并行柔性可重构计算架构模型。
(二)、背景技术:计算机系统的三大支柱是:处理部件,存储部件和通信部件(包括I/O和网络互联)。在传统的计算机模型中,处理部件和内存被分离放置在不同的芯片中。内存存贮数据,处理部件进行计算。数据要被传输到处理部件后才能进行计算。由于处理部件和内存芯片在设计技术和制造工艺上的差异,它们之间的性能差异越来越大。
由这些芯片构成的超级计算机系统,往往包含成千上万个处理部件和存储部件,这些处理部件和存储部件由网络互联。由于受传统计算模型和体系结构的影响,加上处理部件、存储部件和通信部件发展的不平衡,超级计算机系统的存储墙和通信墙问题日趋严重。对超级计算发展过程中存在的诸多问题,当前的各种解决手段几乎都是针对计算机系统的三要素——计算、存储和通信的某一项指标性能的提升为目标,普遍存在着头痛医头,脚痛医脚的现象,而没有从整体的角度来思考。如针对存储墙问题,目前的解决方法基本上都是通过增加存储层次,加大各级存储部件容量来缓解存储器和处理器速度差异,但这种解决思路又使得不同层次间高速数据传递的矛盾变得突出。从高性能计算的现状和发展趋势来看,仅仅通过网络优化和规模扩展来构建超级计算机系统,已很难逾越存储墙、规模墙、高能耗、高成本、低利用率等瓶颈问题。
为了克服存储墙和通信墙等问题,提高超级计算机系统效能,迫切需要在计算概念和计算模型等方面有所创新。
(三)、发明内容:
本发明要解决的技术问题是:针对高效能超级计算机系统研制面临的主要问题,提出了一种面向任务流的高效能立体并行柔性可重构计算架构模型,该计算架构模型根据计算机系统的三大要素——计算、存储、通信之间的关系,通过柔性重构立体并行机制,提高了超级计算机任务处理部件对不同任务的适用性和高效性,实现高效能超级计算机在计算架构模型上的创新。
本发明的技术方案:
一种面向任务流的高效能立体并行柔性可重构计算架构模型,含有n个计算节点PE,每个计算节点PE含有m个相对独立的任务处理部件组TPPG,每个任务处理部件组TPPG含有k个具有不同粒度的任务处理能力的分布于不同层次的任务处理部件TPP,每一个任务处理部件TPP为通用CPU、通用GPU、可重构计算部件、具有自计算能力的Cache、具有自计算能力的存储器Memory、具有自计算能力的外部磁盘阵列Storage中的任一种,其中,n、m、k为自然数,各计算节点PE之间通过高速交换网络连接,以满足各计算节点PE间的快速数据交换需求,各任务处理部件组TPPG间通过共享存储器或共享寄存器或高速总线进行数据的传递,各个任务处理部件TPP间通过共享存储器或共享寄存器来交换所需数据。
任务处理部件TPP是具有一定计算、存储、通信能力并能够对任务流中的某类任务进行处理的计算部件,可重构计算部件为FPGA,高速交换网络为全局寄存器。
为了使计算发生在最接近数据存储的地方,该计算架构模型支持对多个层次的资源进行动态重构,当一个应用根据任务流模型被划分成一组任务时,在该计算架构模型下,除了能利用计算节点PE的资源和任务处理部件组TPPG的资源对任务进行并行处理外,还能利用每个任务处理部件组TPPG内部不同层次的任务处理部件TPP和不同任务处理部件组TPPG中同一层次的任务处理部件TPP对任务进行并行处理,形成一个多层次的立体并行处理架构模型。
任务流模型是将应用以任务为单位进行描述,把应用表达为一组相互关联和并行执行的任务,通过合适的任务流模型有效刻画应用中各子任务的特性、相互关系以及对它们进行高效执行的自然模式。
根据任务的特性对计算资源进行重新划分和配置,包括处理器内部结构配置、处理部件配置、内存访问路径、结点间网络配置、可重构部件配置,使不同粒度的任务被调度到适合处理的不同层次的任务处理部件TPP上去进行处理,使得计算发生在最接近数据存储的位置,以最佳的路径重构数据通路,对不同的应用都尽可能达到最佳的利用率。
本发明的有益效果:
本发明可用于创新体系结构高效能计算机的设计中,它通过发掘开发计算系统内部各级存储设备的可计算功能,使计算尽可能在最适合的处理部件中进行,这样,一个应用除了能开发利用传统的多结点和多CPU并行处理外,还能充分发掘利用不同层次的新型计算部件的处理能力和并行性,从而大大提高计算机系统的效能和性价比。
(四)、附图说明:
图1为传统超级计算机系统的二维并行计算架构模型示意图;
图2为面向任务流的高效能立体并行柔性可重构计算架构模型的结构示意图;
图3为面向任务流的高效能立体并行柔性可重构计算架构模型的三维示意图;
图4为任务处理部件组TPPG计算能力层次结构图;
图5为各计算节点PE间的数据交换示意图;
图6为计算节点PE内部各任务处理部件组TPPG间的数据交换示意图;
图7为任务处理部件组TPPG内部各个层次的任务处理部件TPP间数据交换示意图。
(五)、具体实施方式:
图1为传统超级计算机系统的二维并行计算架构模型示意图,传统的超级计算机系统对并行计算的挖掘主要集中在两个层次:一是节点之间的并行;二是节点内部多CPU之间的并行,它们构成了一个二维的并行计算架构模型。
本发明通过综合研究计算、存储和通信三者的关系,为超级计算的发展寻求一条新的思路。从表面上看,计算、存储、通信这三者是相互独立的。但事实上,在一定条件下,三者之间可以互相转化,如在给定的硬件资源下,通过算法的改变,时间换空间、空间换时间、存储换通信等;或通过器件自身来实现硬件资源的转化,通过在CPU上减少计算逻辑增加Cache,使用可重构Cache和PIM等来实现计算资源与存储资源、通信资源与存储资源的转换等。
在理想状态下,计算、存储、通信之间的转化应能非常平滑地实现,使得各类不同的应用任务,在其不同的执行阶段能够得到其所需要的不同计算、存储和通信资源。但在传统体系结构中,计算、存储、通信之间的转化不平滑,很被动,受很多条件限制。如何通过对计算模型和体系结构的创新,使计算、存储、通信这三者之间能够进行主动的、较为平滑的转化,是需要深入研究的。
为更好地实现计算、存储和通信之间的转化,我们提出了任务流模型。任务流模型是将应用以任务为单位进行描述,把应用表达为一组相互关联和并行执行的任务,通过合适的任务流模型有效刻画应用中各子任务的特性、相互关系以及对它们进行高效执行的自然模式。
为支持对任务流的处理,针对科学计算中数据量大、计算密集、数据可重用性小的特点,基于对未来器件工艺水平进步的预期,我们提出了一种“计算在最适合的处理部件中发生”的思想。通过开发计算系统内部各级存储部件的可计算功能(不妨称之为新型计算部件),使传统的多级存储层次都具备一定的数据处理能力,从而改变现有计算机系统中几乎所有计算任务处理都依赖CPU的状况。根据任务的特性对计算资源进行重新划分和配置,包括处理器内部结构配置、处理部件配置、内存访问路径、结点间网络配置、可重构部件配置等,使不同粒度的任务被调度到适合处理的不同层次的计算部件上去进行处理,使得计算发生在最接近数据存储的位置,以最佳的路径重构数据通路,对不同的应用都尽可能达到最佳的利用率。
基于上述设计思想,本发明提出了基于任务流的立体并行柔性可重构计算架构模型,如图2~图7所示。面向任务流的高效能立体并行柔性可重构计算架构模型含有n个计算节点PE,每个计算节点PE含有m个相对独立的任务处理部件组TPPG(Task Process Part Group),每个任务处理部件组TPPG含有k个具有不同粒度的任务处理能力的分布于不同层次的任务处理部件TPP(TaskProcess Part),每一个任务处理部件TPP为通用CPU、通用GPU、可重构计算部件、具有自计算能力的Cache、具有自计算能力的存储器Memory、具有自计算能力的外部磁盘阵列Storage中的任一种,其中,n、m、k为自然数,各计算节点PE之间通过高速交换网络连接,以满足各计算节点PE间的快速数据交换需求,各任务处理部件组TPPG间通过共享存储器或共享寄存器或高速总线进行数据的传递,各个任务处理部件TPP间通过共享存储器或共享寄存器来交换所需数据。
任务处理部件TPP是具有一定计算、存储、通信能力并能够对任务流中的某类任务进行处理的计算部件,各层次的任务处理部件TPP由具有一定计算能力的新型低功耗器件组成,可根据任务处理需求,支持置换和扩展选择;可重构计算部件为FPGA;高速交换网络为全局寄存器。
为了使计算发生在最接近数据存储的地方,该计算架构模型支持对多个层次的资源进行动态重构,当一个应用根据任务流模型被划分成一组任务时,在该计算架构模型下,除了能利用计算节点PE的资源和任务处理部件组TPPG的资源对任务进行并行处理外,还能利用每个任务处理部件组TPPG内部不同层次的任务处理部件TPP和不同任务处理部件组TPPG中同一层次的任务处理部件TPP对任务进行并行处理,形成一个多层次的立体并行处理架构模型。
任务流模型是将应用以任务为单位进行描述,把应用表达为一组相互关联和并行执行的任务,通过合适的任务流模型有效刻画应用中各子任务的特性、相互关系以及对它们进行高效执行的自然模式。
根据任务的特性对计算资源进行重新划分和配置,包括处理器内部结构配置、处理部件配置、内存访问路径、结点间网络配置、可重构部件配置,使不同粒度的任务被调度到适合处理的不同层次的任务处理部件TPP上去进行处理,使得计算发生在最接近数据存储的位置,以最佳的路径重构数据通路,对不同的应用都尽可能达到最佳的利用率。
基于任务流的立体并行柔性可重构计算架构模型体现了面向任务流的层次并行思想,支持立体的并行架构概念,揭示了计算、存储和通信能力之间的可交换性。
根据以上计算架构模型,本领域的技术人员在不脱离本发明原理的基础上,可以作出各种无实质差别的修改或者变换。

Claims (5)

1、一种面向任务流的高效能立体并行柔性可重构计算架构模型,其特征是:含有n个计算节点PE,每个计算节点PE含有m个相对独立的任务处理部件组TPPG,每个任务处理部件组TPPG含有k个具有不同粒度的任务处理能力的分布于不同层次的任务处理部件TPP,每一个任务处理部件TPP为通用CPU、通用GPU、可重构计算部件、具有自计算能力的Cache、具有自计算能力的存储器Memory、具有自计算能力的外部磁盘阵列Storage中的任一种,其中,n、m、k为自然数,各计算节点PE之间通过高速交换网络连接,以满足各计算节点PE间的快速数据交换需求,各任务处理部件组TPPG间通过共享存储器或共享寄存器或高速总线进行数据的传递,各个任务处理部件TPP间通过共享存储器或共享寄存器来交换所需数据。
2.根据权利要求1所述的面向任务流的高效能立体并行柔性可重构计算架构模型,其特征是:任务处理部件TPP是具有一定计算、存储、通信能力并能够对任务流中的某类任务进行处理的计算部件,可重构计算部件为FPGA,高速交换网络为全局寄存器。
3.根据权利要求1或2所述的面向任务流的高效能立体并行柔性可重构计算架构模型,其特征是:为了使计算发生在最接近数据存储的地方,该计算架构模型支持对多个层次的资源进行动态重构,当一个应用根据任务流模型被划分成一组任务时,在该计算架构模型下,除了能利用计算节点PE的资源和任务处理部件组TPPG的资源对任务进行并行处理外,还能利用每个任务处理部件组TPPG内部不同层次的任务处理部件TPP和不同任务处理部件组TPPG中同一层次的任务处理部件TPP对任务进行并行处理,形成一个多层次的立体并行处理架构模型。
4.根据权利要求3所述的面向任务流的高效能立体并行柔性可重构计算架构模型,其特征是:所述任务流模型是将应用以任务为单位进行描述,把应用表达为一组相互关联和并行执行的任务,通过合适的任务流模型有效刻画应用中各子任务的特性、相互关系以及对它们进行高效执行的自然模式。
5.根据权利要求3所述的面向任务流的高效能立体并行柔性可重构计算架构模型,其特征是:根据任务的特性对计算资源进行重新划分和配置,包括处理器内部结构配置、处理部件配置、内存访问路径、结点间网络配置、可重构部件配置,使不同粒度的任务被调度到适合处理的不同层次的任务处理部件TPP上去进行处理,使得计算发生在最接近数据存储的位置,以最佳的路径重构数据通路,对不同的应用都尽可能达到最佳的利用率。
CNA2008102310098A 2008-11-24 2008-11-24 面向任务流的高效能立体并行柔性可重构计算架构模型 Pending CN101441615A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNA2008102310098A CN101441615A (zh) 2008-11-24 2008-11-24 面向任务流的高效能立体并行柔性可重构计算架构模型

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNA2008102310098A CN101441615A (zh) 2008-11-24 2008-11-24 面向任务流的高效能立体并行柔性可重构计算架构模型

Publications (1)

Publication Number Publication Date
CN101441615A true CN101441615A (zh) 2009-05-27

Family

ID=40726056

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2008102310098A Pending CN101441615A (zh) 2008-11-24 2008-11-24 面向任务流的高效能立体并行柔性可重构计算架构模型

Country Status (1)

Country Link
CN (1) CN101441615A (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102591418A (zh) * 2010-12-16 2012-07-18 微软公司 具有qos保证的可缩放多媒体计算机系统体系结构
CN101706741B (zh) * 2009-12-11 2012-10-24 中国人民解放军国防科学技术大学 一种基于负载平衡的cpu和gpu两级动态任务划分方法
CN103336756A (zh) * 2013-07-19 2013-10-02 中国人民解放军信息工程大学 一种数据计算节点的生成装置
CN105700956A (zh) * 2014-11-28 2016-06-22 国际商业机器公司 用于处理分布式作业的方法和系统
CN105760599A (zh) * 2016-02-16 2016-07-13 东南大学 一种用于大型电力系统暂态稳定研究的小型化超级仿真器
CN106687927A (zh) * 2014-09-12 2017-05-17 英特尔公司 促进在计算装置上的图形处理单元的命令分组的动态并行调度
CN107196792A (zh) * 2017-05-17 2017-09-22 南京大学 可扩展的支持动态部分重构的可重构计算配置网络系统
CN110297779A (zh) * 2018-03-23 2019-10-01 余晓鹏 一种内存难解性算法的解决方法
CN111444020A (zh) * 2020-03-31 2020-07-24 中国科学院计算机网络信息中心 一种超融合计算系统架构及融合服务平台
US10747280B2 (en) 2018-11-27 2020-08-18 International Business Machines Corporation Reconfigurble CPU/GPU interconnect to mitigate power/thermal throttling
CN113672413A (zh) * 2021-10-25 2021-11-19 摩尔线程智能科技(北京)有限责任公司 独立显卡的数据流控制方法、装置和独立显卡
WO2021254135A1 (zh) * 2020-06-19 2021-12-23 华为技术有限公司 任务执行方法及存储设备
CN113986496A (zh) * 2021-10-25 2022-01-28 吉林大学 一种嵌套式通用计算并行处理架构
WO2023115272A1 (zh) * 2021-12-20 2023-06-29 华为技术有限公司 一种芯片管理装置及相关方法

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101706741B (zh) * 2009-12-11 2012-10-24 中国人民解放军国防科学技术大学 一种基于负载平衡的cpu和gpu两级动态任务划分方法
CN102591418B (zh) * 2010-12-16 2015-07-01 微软公司 具有qos保证的可缩放多媒体计算机系统体系结构
CN102591418A (zh) * 2010-12-16 2012-07-18 微软公司 具有qos保证的可缩放多媒体计算机系统体系结构
CN103336756A (zh) * 2013-07-19 2013-10-02 中国人民解放军信息工程大学 一种数据计算节点的生成装置
CN103336756B (zh) * 2013-07-19 2016-01-27 中国人民解放军信息工程大学 一种数据计算节点的生成装置
CN106687927A (zh) * 2014-09-12 2017-05-17 英特尔公司 促进在计算装置上的图形处理单元的命令分组的动态并行调度
CN105700956A (zh) * 2014-11-28 2016-06-22 国际商业机器公司 用于处理分布式作业的方法和系统
CN105760599A (zh) * 2016-02-16 2016-07-13 东南大学 一种用于大型电力系统暂态稳定研究的小型化超级仿真器
CN105760599B (zh) * 2016-02-16 2019-02-22 东南大学 一种用于大型电力系统暂态稳定研究的小型化超级仿真器
CN107196792B (zh) * 2017-05-17 2020-08-04 南京大学 可扩展的支持动态部分重构的可重构计算配置网络系统
CN107196792A (zh) * 2017-05-17 2017-09-22 南京大学 可扩展的支持动态部分重构的可重构计算配置网络系统
CN110297779A (zh) * 2018-03-23 2019-10-01 余晓鹏 一种内存难解性算法的解决方法
US10747280B2 (en) 2018-11-27 2020-08-18 International Business Machines Corporation Reconfigurble CPU/GPU interconnect to mitigate power/thermal throttling
CN111444020A (zh) * 2020-03-31 2020-07-24 中国科学院计算机网络信息中心 一种超融合计算系统架构及融合服务平台
CN111444020B (zh) * 2020-03-31 2022-07-12 中国科学院计算机网络信息中心 一种超融合计算系统架构及融合服务平台
WO2021254135A1 (zh) * 2020-06-19 2021-12-23 华为技术有限公司 任务执行方法及存储设备
CN113672413A (zh) * 2021-10-25 2021-11-19 摩尔线程智能科技(北京)有限责任公司 独立显卡的数据流控制方法、装置和独立显卡
CN113986496A (zh) * 2021-10-25 2022-01-28 吉林大学 一种嵌套式通用计算并行处理架构
CN113672413B (zh) * 2021-10-25 2022-02-11 摩尔线程智能科技(北京)有限责任公司 独立显卡的数据流控制方法、装置和独立显卡
WO2023115272A1 (zh) * 2021-12-20 2023-06-29 华为技术有限公司 一种芯片管理装置及相关方法

Similar Documents

Publication Publication Date Title
CN101441615A (zh) 面向任务流的高效能立体并行柔性可重构计算架构模型
Pal et al. Outerspace: An outer product based sparse matrix multiplication accelerator
Azarkhish et al. Neurostream: Scalable and energy efficient deep learning with smart memory cubes
Besta et al. Graph processing on fpgas: Taxonomy, survey, challenges
US11436400B2 (en) Optimization method for graph processing based on heterogeneous FPGA data streams
CN102073481B (zh) 多核dsp可重构专用集成电路系统
Huang et al. A heterogeneous PIM hardware-software co-design for energy-efficient graph processing
Tehre et al. Survey on coarse grained reconfigurable architectures
CN102799563A (zh) 一种可重构计算阵列及构建方法
Gagliardi et al. The international race towards Exascale in Europe
Chen et al. Towards efficient allocation of graph convolutional networks on hybrid computation-in-memory architecture
CN101441616B (zh) 基于寄存器文件的快速数据交换结构及其管理方法
Yue et al. A 28nm 16.9-300TOPS/W computing-in-memory processor supporting floating-point NN inference/training with intensive-CIM sparse-digital architecture
Wang et al. Reconfigurable hardware accelerators: Opportunities, trends, and challenges
Scrbak et al. Processing-in-memory: Exploring the design space
CN104125293A (zh) 一种云服务器及其使用方法
CN106776044B (zh) 基于数据流的硬件加速方法及系统
Islam et al. Improving node-level mapreduce performance using processing-in-memory technologies
CN112446471B (zh) 基于异构众核处理器的卷积加速方法
Li et al. SGCNAX: A scalable graph convolutional neural network accelerator with workload balancing
Yang et al. Efficient FPGA-based graph processing with hybrid pull-push computational model
Li et al. PIMS: A lightweight processing-in-memory accelerator for stencil computations
Su et al. Graph sampling with fast random walker on hbm-enabled FPGA accelerators
Chen et al. Rubik: A hierarchical architecture for efficient graph learning
Cao et al. CPU/GPU computing for a multi-block structured grid based high-order flow solver on a large heterogeneous system

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Open date: 20090527