CN101441616A

CN101441616A - 基于寄存器文件的快速数据交换结构及其管理方法

Info

Publication number: CN101441616A
Application number: CNA2008102310115A
Authority: CN
Inventors: 韩文报; 庞建民; 张丹; 斯雪明
Original assignee: PLA Information Engineering University
Current assignee: PLA Information Engineering University
Priority date: 2008-11-24
Filing date: 2008-11-24
Publication date: 2009-05-27
Anticipated expiration: 2028-11-24
Also published as: CN101441616B

Abstract

本发明涉及一种基于寄存器文件的快速数据交换结构及其管理方法；基于寄存器文件的快速数据交换结构含有全局寄存器文件和n个计算节点，每个计算节点通过专用总线分别与全局寄存器文件连接，计算节点含有局部寄存器文件和不同层次的任务流处理部件，任务流处理部件之间以及任务流处理部件与局部寄存器文件之间通过交叉总线连接；对该结构的管理方法为：每一个计算节点均可以对全局寄存器文件进行共享访问，全局寄存器文件的大小可以根据计算节点的资源规模进行动态分配和调整；本发明提供了一种面向任务流的可应用于高效能计算系统中的易扩展、高带宽、低延迟的基于寄存器文件的快速数据交换结构及其管理方法。

Description

基于寄存器文件的快速数据交换结构及其管理方法

(一)、技术领域：本发明涉及面向任务流的基于寄存器文件的数据交换结构，特别涉及一种基于寄存器文件的快速数据交换结构及其管理方法。

(二)、背景技术：计算机系统中三大支柱是：处理部件，存储部件和通信部件(包括I/O和网络互联)。从表面上看，计算、存储、通信这三者是相互独立的。但事实上，在一定条件下，计算、存储、通信之间可以互相转化。在许多高性能并行计算的应用中，数据的通信能力往往是制约其性能提高的瓶颈，即系统最终的整体性能往往由系统节点间的数据交换能力所决定。但当前高性能计算系统对这个问题的解决思路非常单一，基本上都是通过各种方式优化和改善计算节点间互联网络的性能来实现的。

MPP系统通过SMP、CC-NUMA、Cluster-NUMA、多线程体系结构及各种混合式结构的使用解决整机互连问题，其网络设计复杂度、网络直径和通信延迟随整机规模扩大迅速增大。而采用Cluster体系结构集群系统，具有可自由伸缩、高度可管理、高可用、高性能价格比等诸多优点；但其通信开销和延迟大，随着CPU和计算结点数目的增加，对交换机的数量和性能要求越来越高。

对可扩展、高带宽、低延迟的高效能并行计算机系统而言，网络直径和延时随着系统规模的增加而大幅增长所带来的影响已经非常突出，高效能计算系统中可重构、可分区、可配置特性也变得越来越重要。如何突破互联网络这种单一数据交换模式，获得比MPP耦合网络结构和Cluster松耦合网络结构更高的效能是一个亟待解决的问题。

(三)、发明内容：

本发明要解决的技术问题是：克服现有技术的缺陷，提供一种面向任务流的可应用于高效能计算系统中的易扩展、高带宽、低延迟的基于寄存器文件的快速数据交换结构及其管理方法，本发明突破当前高性能计算系统设计中通常所采用的互连网络这种单一数据通信模式，是一种不受网络直径限制，比以往MPP耦合网络结构和Cluster松耦合网络结构更加稳定、高效的数据交换结构，同时本发明还可与当前高性能计算系统中具有各种拓扑结构的互连网络配合应用，提高系统整体的数据通信能力。

本发明的技术方案：

一种基于寄存器文件的快速数据交换结构，含有全局寄存器文件和n个计算节点，n为自然数，每个计算节点通过专用总线分别与全局寄存器文件连接，每个计算节点之间的专用总线不存在交叉或共用，计算节点含有局部寄存器文件和不同层次的任务流处理部件，任务流处理部件之间以及任务流处理部件与局部寄存器文件之间通过交叉总线连接。

总线按其功能可以分成专用总线和非专用总线，都属于数据总线。专用总线是指只连接一对物理部件的总线，从物理位置上来说属于外总线的一种，在此，专用总线是连接计算节点和全局寄存器文件，进行数据传输的通道。

交叉总线从物理位置上来说属于内总线。计算节点内的各任务流处理部件之间、任务流处理部件与局部寄存器文件之间均通过交叉总线进行互联。交叉总线为各个任务流处理部件之间的数据交互、任务流处理部件与局部寄存器文件之间的数据交互提供了传输通道。

局部寄存器文件通过寄存器文件逻辑端口接交叉总线，局部寄存器文件根据计算节点的层次结构，为计算节点中的各个任务流处理部件提供可访问的寄存器文件逻辑端口；全局寄存器文件通过寄存器文件逻辑端口接专用总线，全局寄存器文件为不同的计算节点提供不同的寄存器文件逻辑端口，为同一计算节点中不同的任务流处理部件提供单一的物理端口，通过时间分片为不同的任务流处理部件提供可同时访问的寄存器文件逻辑端口。

全局寄存器文件为存储各计算节点中间结果的寄存器文件组，局部寄存器文件为存储计算节点内进行任务处理时的所有操作数和中间结果的寄存器文件组，任务流处理部件含有FPGA阵列、CPU阵列、GPU阵列、共享存储器加速装置Shared memory accelerator、多核共享快速缓冲贮存区Cache sharedmulti-core、主存储器Main memory和存储器Storage。

寄存器文件组含有m个寄存器文件，每个寄存器文件含有寄存器文件控制器和k个存储簇，存储簇由寄存器构成，m和k为自然数，寄存器文件控制器通过统一的交叉总线连接，存储簇之间通过数据总线进行连接，寄存器文件控制器和存储簇之间采用集中式的串行链接方式。

GPU为图形处理单元(Graphic Process Unit)的缩写。近年来，随着芯片集成度的提高，在GPU中可以集成大量的处理单元(处理核)，其专用处理性能可以非常高(相当于一个众核CPU)，因此现在高性能计算对GPU资源的利用也非常重视。目前GPU不仅局限于图像处理、虚拟现实、计算机仿真等图像处理相关领域，图形处理以外的通用计算也希望利用GPU多核资源进行高性能计算。另外，由于GPU具有流处理、高密度并行运算、可编程流水线等特性，使得GPU较好的高性能计算能力和应用范围。

将GPU用于通用计算的主要目的是为了加速计算，加速的主要动力来自GPU在高性能计算方面所具有的优势：高效并行性、高密集的运算和超长图形流水线。由于GPU在并行处理和计算密集型问题求解等方面所具有的诸多优势，同时GPU的发展速度已远远超过通用处理器，特别是随着可编程能力、并行处理能力和应用范围方面得到不断提升和扩展，使得GPU已成为当前计算机系统中具备高性能处理能力的部件，如何将计算任务在CPU和GPU之间进行分配，使得其高效协调工作是一个关键问题。

一种对所述基于寄存器文件的快速数据交换结构的管理方法，具体为：每一个计算节点均可以对全局寄存器文件进行共享访问，以发掘各计算节点间的任务流数据重用，全局寄存器文件的大小可以根据计算节点的资源规模进行动态分配和调整，当计算节点内各任务流处理部件间进行数据通信时，局部寄存器文件为相应的数据交换提供支持。

计算节点与全局寄存器文件之间采用统一的数据格式进行数据交互，根据各计算节点上运行任务所需数据量大小可将全局寄存器文件动态划分出相应的寄存器空间，用于计算节点间的数据交换；对寄存器文件控制器和存储簇的访问通过寄存器文件的物理地址进行控制，在使用寄存器文件时，直接通过交叉总线按照寄存器文件的物理地址进行访问，寄存器文件控制器与存储簇之间使用的接口即为存储簇的物理地址，也就是寄存器文件的物理地址，例如在对寄存器文件1中的第1号存储簇进行访问时，其访问的接口地址为000001000001，寄存器文件6中的第6号存储簇进行访问时，其访问的接口地址为000110000110。

对全局寄存器文件同一区域的读取与写入操作是不能同时进行的，但是当一个计算节点完成写入后，其它计算节点可以同时读取数据，共享寄存器文件中不同区域之间的读/写操作可以同时进行。

在多个计算节点同时使用全局寄存器文件执行任务流中的任务时，可以根据不同计算节点所执行任务的优先级高低，优先将全局寄存器文件空间分配给优先级较高的计算节点，若计算节点在执行任务时所需要交换的数据量变化较大，还可根据全局寄存器文件中剩余空间大小进行动态调整，根据优先级高低尽可能的满足所有计算节点的数据量需求。

各计算节点之间进行数据交换时，首先将待交换数据存放至全局寄存器文件的指定区域，然后再由需要接收数据的计算节点从全局寄存器文件中的指定区域中读出。

局部寄存器文件对任务操作的所有操作数和中间结果进行暂存，各任务流处理部件通过各计算节点内的交叉总线传递并缓存到局部寄存器文件中，计算节点在计算过程中，各任务流处理部件不需要去访问外部存储器或全局寄存器文件，只有在各计算节点间需要数据交互时，才将结果写回全局寄存器文件或外部存储器。局部寄存器增强了各任务流处理部件之间的数据局部性，提供了计算节点内的快速数据交换能力。

本发明的有益效果：

1、本发明灵活运用了计算机系统中存储能力、计算能力和通信能力间的可交换性思想，具有时延小、易于扩展和便于配置管理的优点。

2、本发明采用全局共享和局部私有两级寄存器文件层次结构，突破了当前高性能计算系统设计中通常所采用的互连网络单一数据通信模式，是一种不受网络直径限制，比以往MPP耦合网络结构和Cluster松耦合网络结构更加稳定、高效的数据交换结构，能够随用户数据的动态变换而动态调整自身结构。同时，该结构具有良好的可扩展性，在运行过程中能够动态分配使用，充分体现了用存储资源换取快速数据通信能力的思想，实现了存储和通信的互相转化。

3、本发明采用了寄存器文件的形式实现计算资源之间的高速数据交换，该数据交换结构采用了两级寄存器文件层次，具有全交换选择数据交换、高速存储交换等技术优点，灵活运用了计算机系统中存储、计算和通信能力间的可交换性，以存储代价换取了高速数据通信能力，保证各层次计算所需要的数据带宽，使得高效能计算系统能够充分发挥其潜在的强大计算能力，有效提高系统扩展的性能价格比。

(四)、附图说明：

图1为基于寄存器文件的快速数据交换结构的示意图；

图2为基于寄存器文件的快速数据交换结构的内部详细结构示意图。

(五)、具体实施方式：

参见图1～图2，一种基于寄存器文件的快速数据交换结构，含有全局寄存器文件和n个计算节点，n为自然数，每个计算节点通过专用总线分别与全局寄存器文件连接，每个计算节点之间的专用总线不存在交叉或共用，全局寄存器的带宽远高于存储带宽，因此全局寄存器增强了各计算节点间的数据局部性，提供了快速数据交换能力。

计算节点含有局部寄存器文件和不同层次的任务流处理部件，任务流处理部件之间以及任务流处理部件与局部寄存器文件之间通过交叉总线连接。

基于寄存器文件的快速数据交换结构具有灵活的交换方式和良好的可扩展性，能够在任务执行过程中动态分配使用寄存器文件资源，支持存储资源换取计算资源和数据交换资源的实现，充分体现了存储和通信互相转化的思想。

计算节点是用于执行任务流中不同任务的基本单元，它含有不同层次的任务流处理部件，计算节点内部的各计算层次之间的数据交互通过局部寄存器文件进行。局部寄存器文件对任务操作的所有操作数和中间结果进行暂存，各任务流处理部件通过各计算节点内的交叉总线传递并缓存到局部寄存器文件中，其运行机制与全局寄存器文件的数据交互方式相同。

计算节点在计算过程中，各任务流处理部件不需要去访问外部存储器或全局寄存器文件，只有在各计算节点间需要数据交互时，才将结果写回全局寄存器文件或外部存储器，比如，对任务流的所有操作全部执行完毕后，才将结果写回外部存储器。局部寄存器增强了各任务流处理部件之间的数据局部性，提供了计算节点内的快速数据交换能力。

Claims

1、一种基于寄存器文件的快速数据交换结构，其特征是：含有全局寄存器文件和n个计算节点，n为自然数，每个计算节点通过专用总线分别与全局寄存器文件连接，计算节点含有局部寄存器文件和不同层次的任务流处理部件，任务流处理部件之间以及任务流处理部件与局部寄存器文件之间通过交叉总线连接。

2.根据权利要求1所述的基于寄存器文件的快速数据交换结构，其特征是：局部寄存器文件通过寄存器文件逻辑端口接交叉总线，局部寄存器文件根据计算节点的层次结构，为计算节点中的各个任务流处理部件提供可访问的寄存器文件逻辑端口；全局寄存器文件通过寄存器文件逻辑端口接专用总线，全局寄存器文件为不同的计算节点提供不同的寄存器文件逻辑端口，为同一计算节点中不同的任务流处理部件提供单一的物理端口，通过时间分片为不同的任务流处理部件提供可同时访问的寄存器文件逻辑端口。

3.根据权利要求1或2所述的基于寄存器文件的快速数据交换结构，其特征是：全局寄存器文件为存储各计算节点中间结果的寄存器文件组，局部寄存器文件为存储计算节点内进行任务处理时的所有操作数和中间结果的寄存器文件组，任务流处理部件含有FPGA阵列、CPU阵列、GPU阵列、共享存储器加速装置Shared memory accelerator、多核共享快速缓冲贮存区Cache sharedmulti-core、主存储器Main memory和存储器Storage。

4.根据权利要求3所述的基于寄存器文件的快速数据交换结构，其特征是：所述寄存器文件组含有m个寄存器文件，每个寄存器文件含有寄存器文件控制器和k个存储簇，存储簇由寄存器构成，m和k为自然数，寄存器文件控制器通过统一的交叉总线连接，存储簇之间通过数据总线进行连接，寄存器文件控制器和存储簇之间采用集中式的串行链接方式。

5.一种对权利要求1所述的基于寄存器文件的快速数据交换结构的管理方法，其特征是：所述每一个计算节点均可以对全局寄存器文件进行共享访问，以发掘各计算节点间的任务流数据重用，全局寄存器文件的大小可以根据计算节点的资源规模进行动态分配和调整，当计算节点内各任务流处理部件间进行数据通信时，局部寄存器文件为相应的数据交换提供支持。

6.根据权利要求5所述的对基于寄存器文件的快速数据交换结构的管理方法，其特征是：计算节点与全局寄存器文件之间采用统一的数据格式进行数据交互，根据各计算节点上运行任务所需数据量大小可将全局寄存器文件动态划分出相应的寄存器空间，用于计算节点间的数据交换；对寄存器文件控制器和存储簇的访问通过寄存器文件的物理地址进行控制，在使用寄存器文件时，直接通过交叉总线按照寄存器文件的物理地址进行访问，寄存器文件控制器与存储簇之间使用的接口即为存储簇的物理地址，也就是寄存器文件的物理地址。

7、根据权利要求5或6所述的对基于寄存器文件的快速数据交换结构的管理方法，其特征是：对全局寄存器文件同一区域的读取与写入操作是不能同时进行的，但是当一个计算节点完成写入后，其它计算节点可以同时读取数据，共享寄存器文件中不同区域之间的读/写操作可以同时进行。

8.根据权利要求5或6所述的对基于寄存器文件的快速数据交换结构的管理方法，其特征是：在多个计算节点同时使用全局寄存器文件执行任务流中的任务时，可以根据不同计算节点所执行任务的优先级高低，优先将全局寄存器文件空间分配给优先级较高的计算节点，若计算节点在执行任务时所需要交换的数据量变化较大，还可根据全局寄存器文件中剩余空间大小进行动态调整，根据优先级高低尽可能的满足所有计算节点的数据量需求。

9.根据权利要求5或6所述的对基于寄存器文件的快速数据交换结构的管理方法，其特征是：各计算节点之间进行数据交换时，首先将待交换数据存放至全局寄存器文件的指定区域，然后再由需要接收数据的计算节点从全局寄存器文件中的指定区域中读出。

10.根据权利要求5或6所述的对基于寄存器文件的快速数据交换结构的管理方法，其特征是：局部寄存器文件对任务操作的所有操作数和中间结果进行暂存，各任务流处理部件通过各计算节点内的交叉总线传递并缓存到局部寄存器文件中，计算节点在计算过程中，各任务流处理部件不需要去访问外部存储器或全局寄存器文件，只有在各计算节点间需要数据交互时，才将结果写回全局寄存器文件或外部存储器。