CN101441615A

CN101441615A - 面向任务流的高效能立体并行柔性可重构计算架构模型

Info

Publication number: CN101441615A
Application number: CNA2008102310098A
Authority: CN
Inventors: 邬江兴; 赵荣彩; 瞿进; 陈庶民
Original assignee: PLA Information Engineering University
Current assignee: PLA Information Engineering University
Priority date: 2008-11-24
Filing date: 2008-11-24
Publication date: 2009-05-27

Abstract

本发明涉及一种面向任务流的高效能立体并行柔性可重构计算架构模型；该架构模型含有n个计算节点PE，每个计算节点PE含有m个相对独立的任务处理部件组TPPG，每个任务处理部件组TPPG含有k个具有不同粒度的任务处理能力的分布于不同层次的任务处理部件TPP，各计算节点PE之间通过高速交换网络连接，各任务处理部件组TPPG间通过共享存储器或共享寄存器或高速总线进行数据的传递，各个任务处理部件TPP间通过共享存储器或共享寄存器来交换所需数据；本发明提出了一种面向任务流的高效能立体并行柔性可重构计算架构模型，该计算架构模型通过柔性重构立体并行机制，提高了超级计算机任务处理部件对不同任务的适用性和高效性。

Description

面向任务流的高效能立体并行柔性可重构计算架构模型

(一)、技术领域：本发明涉及一种可重构计算架构模型，特别涉及一种面向任务流的高效能立体并行柔性可重构计算架构模型。

(二)、背景技术：计算机系统的三大支柱是：处理部件，存储部件和通信部件(包括I/O和网络互联)。在传统的计算机模型中，处理部件和内存被分离放置在不同的芯片中。内存存贮数据，处理部件进行计算。数据要被传输到处理部件后才能进行计算。由于处理部件和内存芯片在设计技术和制造工艺上的差异，它们之间的性能差异越来越大。

由这些芯片构成的超级计算机系统，往往包含成千上万个处理部件和存储部件，这些处理部件和存储部件由网络互联。由于受传统计算模型和体系结构的影响，加上处理部件、存储部件和通信部件发展的不平衡，超级计算机系统的存储墙和通信墙问题日趋严重。对超级计算发展过程中存在的诸多问题，当前的各种解决手段几乎都是针对计算机系统的三要素——计算、存储和通信的某一项指标性能的提升为目标，普遍存在着头痛医头，脚痛医脚的现象，而没有从整体的角度来思考。如针对存储墙问题，目前的解决方法基本上都是通过增加存储层次，加大各级存储部件容量来缓解存储器和处理器速度差异，但这种解决思路又使得不同层次间高速数据传递的矛盾变得突出。从高性能计算的现状和发展趋势来看，仅仅通过网络优化和规模扩展来构建超级计算机系统，已很难逾越存储墙、规模墙、高能耗、高成本、低利用率等瓶颈问题。

为了克服存储墙和通信墙等问题，提高超级计算机系统效能，迫切需要在计算概念和计算模型等方面有所创新。

(三)、发明内容：

本发明要解决的技术问题是：针对高效能超级计算机系统研制面临的主要问题，提出了一种面向任务流的高效能立体并行柔性可重构计算架构模型，该计算架构模型根据计算机系统的三大要素——计算、存储、通信之间的关系，通过柔性重构立体并行机制，提高了超级计算机任务处理部件对不同任务的适用性和高效性，实现高效能超级计算机在计算架构模型上的创新。

本发明的技术方案：

一种面向任务流的高效能立体并行柔性可重构计算架构模型，含有n个计算节点PE，每个计算节点PE含有m个相对独立的任务处理部件组TPPG，每个任务处理部件组TPPG含有k个具有不同粒度的任务处理能力的分布于不同层次的任务处理部件TPP，每一个任务处理部件TPP为通用CPU、通用GPU、可重构计算部件、具有自计算能力的Cache、具有自计算能力的存储器Memory、具有自计算能力的外部磁盘阵列Storage中的任一种，其中，n、m、k为自然数，各计算节点PE之间通过高速交换网络连接，以满足各计算节点PE间的快速数据交换需求，各任务处理部件组TPPG间通过共享存储器或共享寄存器或高速总线进行数据的传递，各个任务处理部件TPP间通过共享存储器或共享寄存器来交换所需数据。

任务处理部件TPP是具有一定计算、存储、通信能力并能够对任务流中的某类任务进行处理的计算部件，可重构计算部件为FPGA，高速交换网络为全局寄存器。

为了使计算发生在最接近数据存储的地方，该计算架构模型支持对多个层次的资源进行动态重构，当一个应用根据任务流模型被划分成一组任务时，在该计算架构模型下，除了能利用计算节点PE的资源和任务处理部件组TPPG的资源对任务进行并行处理外，还能利用每个任务处理部件组TPPG内部不同层次的任务处理部件TPP和不同任务处理部件组TPPG中同一层次的任务处理部件TPP对任务进行并行处理，形成一个多层次的立体并行处理架构模型。

任务流模型是将应用以任务为单位进行描述，把应用表达为一组相互关联和并行执行的任务，通过合适的任务流模型有效刻画应用中各子任务的特性、相互关系以及对它们进行高效执行的自然模式。

根据任务的特性对计算资源进行重新划分和配置，包括处理器内部结构配置、处理部件配置、内存访问路径、结点间网络配置、可重构部件配置，使不同粒度的任务被调度到适合处理的不同层次的任务处理部件TPP上去进行处理，使得计算发生在最接近数据存储的位置，以最佳的路径重构数据通路，对不同的应用都尽可能达到最佳的利用率。

本发明的有益效果：

本发明可用于创新体系结构高效能计算机的设计中，它通过发掘开发计算系统内部各级存储设备的可计算功能，使计算尽可能在最适合的处理部件中进行，这样，一个应用除了能开发利用传统的多结点和多CPU并行处理外，还能充分发掘利用不同层次的新型计算部件的处理能力和并行性，从而大大提高计算机系统的效能和性价比。

(四)、附图说明：

图1为传统超级计算机系统的二维并行计算架构模型示意图；

图2为面向任务流的高效能立体并行柔性可重构计算架构模型的结构示意图；

图3为面向任务流的高效能立体并行柔性可重构计算架构模型的三维示意图；

图4为任务处理部件组TPPG计算能力层次结构图；

图5为各计算节点PE间的数据交换示意图；

图6为计算节点PE内部各任务处理部件组TPPG间的数据交换示意图；

图7为任务处理部件组TPPG内部各个层次的任务处理部件TPP间数据交换示意图。

(五)、具体实施方式：

图1为传统超级计算机系统的二维并行计算架构模型示意图，传统的超级计算机系统对并行计算的挖掘主要集中在两个层次：一是节点之间的并行；二是节点内部多CPU之间的并行，它们构成了一个二维的并行计算架构模型。

本发明通过综合研究计算、存储和通信三者的关系，为超级计算的发展寻求一条新的思路。从表面上看，计算、存储、通信这三者是相互独立的。但事实上，在一定条件下，三者之间可以互相转化，如在给定的硬件资源下，通过算法的改变，时间换空间、空间换时间、存储换通信等；或通过器件自身来实现硬件资源的转化，通过在CPU上减少计算逻辑增加Cache，使用可重构Cache和PIM等来实现计算资源与存储资源、通信资源与存储资源的转换等。

在理想状态下，计算、存储、通信之间的转化应能非常平滑地实现，使得各类不同的应用任务，在其不同的执行阶段能够得到其所需要的不同计算、存储和通信资源。但在传统体系结构中，计算、存储、通信之间的转化不平滑，很被动，受很多条件限制。如何通过对计算模型和体系结构的创新，使计算、存储、通信这三者之间能够进行主动的、较为平滑的转化，是需要深入研究的。

为更好地实现计算、存储和通信之间的转化，我们提出了任务流模型。任务流模型是将应用以任务为单位进行描述，把应用表达为一组相互关联和并行执行的任务，通过合适的任务流模型有效刻画应用中各子任务的特性、相互关系以及对它们进行高效执行的自然模式。

为支持对任务流的处理，针对科学计算中数据量大、计算密集、数据可重用性小的特点，基于对未来器件工艺水平进步的预期，我们提出了一种“计算在最适合的处理部件中发生”的思想。通过开发计算系统内部各级存储部件的可计算功能(不妨称之为新型计算部件)，使传统的多级存储层次都具备一定的数据处理能力，从而改变现有计算机系统中几乎所有计算任务处理都依赖CPU的状况。根据任务的特性对计算资源进行重新划分和配置，包括处理器内部结构配置、处理部件配置、内存访问路径、结点间网络配置、可重构部件配置等，使不同粒度的任务被调度到适合处理的不同层次的计算部件上去进行处理，使得计算发生在最接近数据存储的位置，以最佳的路径重构数据通路，对不同的应用都尽可能达到最佳的利用率。

基于上述设计思想，本发明提出了基于任务流的立体并行柔性可重构计算架构模型，如图2～图7所示。面向任务流的高效能立体并行柔性可重构计算架构模型含有n个计算节点PE，每个计算节点PE含有m个相对独立的任务处理部件组TPPG(Task Process Part Group)，每个任务处理部件组TPPG含有k个具有不同粒度的任务处理能力的分布于不同层次的任务处理部件TPP(TaskProcess Part)，每一个任务处理部件TPP为通用CPU、通用GPU、可重构计算部件、具有自计算能力的Cache、具有自计算能力的存储器Memory、具有自计算能力的外部磁盘阵列Storage中的任一种，其中，n、m、k为自然数，各计算节点PE之间通过高速交换网络连接，以满足各计算节点PE间的快速数据交换需求，各任务处理部件组TPPG间通过共享存储器或共享寄存器或高速总线进行数据的传递，各个任务处理部件TPP间通过共享存储器或共享寄存器来交换所需数据。

任务处理部件TPP是具有一定计算、存储、通信能力并能够对任务流中的某类任务进行处理的计算部件，各层次的任务处理部件TPP由具有一定计算能力的新型低功耗器件组成，可根据任务处理需求，支持置换和扩展选择；可重构计算部件为FPGA；高速交换网络为全局寄存器。

基于任务流的立体并行柔性可重构计算架构模型体现了面向任务流的层次并行思想，支持立体的并行架构概念，揭示了计算、存储和通信能力之间的可交换性。

根据以上计算架构模型，本领域的技术人员在不脱离本发明原理的基础上，可以作出各种无实质差别的修改或者变换。

Claims

1、一种面向任务流的高效能立体并行柔性可重构计算架构模型，其特征是：含有n个计算节点PE，每个计算节点PE含有m个相对独立的任务处理部件组TPPG，每个任务处理部件组TPPG含有k个具有不同粒度的任务处理能力的分布于不同层次的任务处理部件TPP，每一个任务处理部件TPP为通用CPU、通用GPU、可重构计算部件、具有自计算能力的Cache、具有自计算能力的存储器Memory、具有自计算能力的外部磁盘阵列Storage中的任一种，其中，n、m、k为自然数，各计算节点PE之间通过高速交换网络连接，以满足各计算节点PE间的快速数据交换需求，各任务处理部件组TPPG间通过共享存储器或共享寄存器或高速总线进行数据的传递，各个任务处理部件TPP间通过共享存储器或共享寄存器来交换所需数据。

2.根据权利要求1所述的面向任务流的高效能立体并行柔性可重构计算架构模型，其特征是：任务处理部件TPP是具有一定计算、存储、通信能力并能够对任务流中的某类任务进行处理的计算部件，可重构计算部件为FPGA，高速交换网络为全局寄存器。

3.根据权利要求1或2所述的面向任务流的高效能立体并行柔性可重构计算架构模型，其特征是：为了使计算发生在最接近数据存储的地方，该计算架构模型支持对多个层次的资源进行动态重构，当一个应用根据任务流模型被划分成一组任务时，在该计算架构模型下，除了能利用计算节点PE的资源和任务处理部件组TPPG的资源对任务进行并行处理外，还能利用每个任务处理部件组TPPG内部不同层次的任务处理部件TPP和不同任务处理部件组TPPG中同一层次的任务处理部件TPP对任务进行并行处理，形成一个多层次的立体并行处理架构模型。

4.根据权利要求3所述的面向任务流的高效能立体并行柔性可重构计算架构模型，其特征是：所述任务流模型是将应用以任务为单位进行描述，把应用表达为一组相互关联和并行执行的任务，通过合适的任务流模型有效刻画应用中各子任务的特性、相互关系以及对它们进行高效执行的自然模式。

5.根据权利要求3所述的面向任务流的高效能立体并行柔性可重构计算架构模型，其特征是：根据任务的特性对计算资源进行重新划分和配置，包括处理器内部结构配置、处理部件配置、内存访问路径、结点间网络配置、可重构部件配置，使不同粒度的任务被调度到适合处理的不同层次的任务处理部件TPP上去进行处理，使得计算发生在最接近数据存储的位置，以最佳的路径重构数据通路，对不同的应用都尽可能达到最佳的利用率。