CN113986496A

CN113986496A - 一种嵌套式通用计算并行处理架构

Info

Publication number: CN113986496A
Application number: CN202111251850.5A
Authority: CN
Inventors: 胡俊成; 车喜龙; 胡亮; 王国毓; 阚博文; 陈甲旺; 张园博
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2021-10-25
Filing date: 2021-10-25
Publication date: 2022-01-28

Abstract

本发明适用于并行计算任务处理以及处理器技术领域，提供了一种嵌套式通用计算并行处理架构，包括通用计算任务执行组件，所述通用计算任务执行组件通过嵌套的方式包括多级，每个级别相当于若干通用计算任务执行组件，第i+1级所述通用计算任务执行组件

包括：第i级若干子通用任务执行组件PE_i、第i级核心数据交换组件Memory_i和第i级控制单元CU_i。该发明通过嵌套执行的方式从粗粒度和细粒度两方面对并行计算任务处理效率进行提高，使系统架构资源达到最大利用率和并行度。本发明适用于当前所有形式的大数据并行计算任务处理过程，同时具有灵活的扩展性与可移植性。

Description

一种嵌套式通用计算并行处理架构

技术领域

本发明属于并行计算任务处理以及处理器技术领域，尤其涉及一种嵌套式通用计算并行处理架构。

背景技术

随着近年来各行业应用数据量激增，人们对数据的处理要求日益提高，多核CPU和多核GPU的出现引入了高性能计算的新一个高潮，研究表明，当今或未来情况下，数据处理的能力包括处理器效率、存储资源、访存技术等的发展都不及人们的需求。虽然GPGPU通过计算掩盖访存的方式提升了效率，但传统芯片架构已经基本定型，内存墙这一问题始终得不到很好的解决，这也阻碍了芯片架构的发展并且驱动着芯片在架构层面上的革新。

在并行计算中，连续使用的和使用率高的数据都会存放在低级Cache中，催生了现代计算机的多层级存储结构，也就是类似CPU的内外存，但更低级的Cache总会有更小的时间开销但同时有更小的空间以及昂贵的造价和更复杂的调度过程，相反更高级别的硬盘虽然时间开销多但是也有更低廉的造价和简单的调用过程。

在并行计算算力需求增加这样的大背景下，GPGPU作为新型计算平台应运而生。它可以通过本身的层级结构以及最小的warp支持高并发的线程操作。GPGPU以他独有的调度方式使计算开销与访存开销进行overlap；CUDA计算架构以程序中可并行程序段为子操作对象进行并行执行，无论是层级还是子任务都启发了人们对芯片架构的崭新要求。

对于计算机来说处理这些数据的最根本也就莫过于程序设计了，程序设计语言分为高级语言、低级语言、二进制。每一段程序被计算机执行的过程都是从高级语言到中间语言再到低级语言再到二进制编码的层层编译解释过程，最后才是执行。从计算机操作角度，让计算机执行的每一个任务也都会被拆分成子任务，一直到最终的执行，这其中都有每一层级背后的对当前任务的划分派发，子任务的调度，需求数据访存，计算任务处理等，鉴于此，为了日后设计更适合并行计算任务处理的处理器，一种嵌套式多层次的多核通用计算并行处理的架构设计显得更加契合实际任务需要。

以PRAM模型为基础的并行计算架构，也称为共享存储的SIMD架构，很适合关于并行计算架构的表达，很多关于并行计算机的底层细节包括处理器间通信，存储系统管理和进程的同步都被隐含在架构当中，但共享的单一存储器的设计显然不适合分布存储结构的MIMD机器，并且这种大同步的模式更加耗费同步的时间开销，无法反映并行计算机的异步性。单位时间访问共享内存的方式、通信无延迟以及带宽、略去了诸如资源竞争以及有限的带宽等合理细节也是不现实的，故只能作为一个抽象表示，并不能成为一个通用计算并行处理架构发展导向。

以BSP、LogP模型为基础的并行计算架构，也称为分布式存储的MIMD架构，BSP强调了计算任务和通信任务的分离，引入了一个叫做“超级步”的特殊概念，将计算分割，有效的避免了死锁，路由器仅仅完成点到点的消息传递。共享存储的PRAM架构和互联网络的SIMD架构对于当今的并行计算机表达得不够合适，因为他们既没有包含符合并行计算导向的分布存储的情况也没考虑通信和同步等实际因素，不利于芯片架构的实际投产，并且当今并行计算的规模之大，仅仅采用单层的亦或是少数层级的计算架构模式已经不足以面对庞大的数据计算任务了。

在并行计算架构的描述方面，传统的并行计算模型过于抽象，并没有描述架构中详细的组件以及他们的逻辑关系，随着GPGPU的发展，更多的通用计算放到了GPU上进行，关于GPU的多版本架构白皮书上对GPU架构内部的组件、组件个数、所支持的编程方式等也进行了层次的划分，有了并行计算处理器发展的雏形，但依然没有详细的表达组件之间的逻辑关系以及他们的执行模型，不利于业界对其架构发展的深入探讨。

综上所述，给出一个满足当今并行计算数据规模和特点的，更适合对任务进行并行处理的，并且阐述出完全白盒的执行模式和组件逻辑关系的嵌套式通用计算并行处理架构，已经成为较为突出的需求。

发明内容

本发明实施例的目的在于提供一种嵌套式通用计算并行处理架构，旨在解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：

一种嵌套式通用计算并行处理架构，包括通用计算任务执行组件，所述通用计算任务执行组件通过嵌套的方式包括多级，每个级别相当于若干通用计算任务执行组件，第i+1级所述通用计算任务执行组件

包括：第i级若干子通用任务执行组件PE_i、第i级核心数据交换组件Memory_i和第i级控制单元CU_i。

进一步的，所述通用任务执行组件PE包括通用访存任务执行组件PE_d和通用计算任务执行组件PE_c。

进一步的，每个所述通用访存任务执行组件PE_d通过消耗通用访存任务脚本块PS_d的方式完成对核心数据交换组件Memory的访存指令，实现stage-in和stage-out步骤。

进一步的，每个所述通用计算任务执行组件PE_c通过消耗通用计算任务脚本块PS_c的方式完成任务的继续分配或底层的数据计算。

进一步的，还包括第i级控制单元CU_i，每层第i级控制单元CU_i包括第i级任务接受组件TU_i、第i级任务缓冲区TB_i和第i级若干调度任务执行组件SE_i，通过配合第i级若干子通用任务执行组件PE_i和第i级核心数据交换组件Memory_i完成层间交互以及层内调度的任务。

进一步的，所述调度任务执行组件SE_i通过消耗调度脚本块SS_i的方式驱动通用任务脚本块PS_i的流向。

进一步的，架构最底层设有由多个处理器核心组成的若干个一级通用任务执行组件组PE₁、一级核心数据交换组件Memory₁、若干个一级调度任务执行组件组SE₁、若干个一级接受任务组件TU₁和一级任务缓冲区TB₁。

与现有技术相比，该嵌套式通用计算并行处理架构通过嵌套执行的方式从粗粒度和细粒度两方面对并行计算任务处理效率进行提高，使系统架构资源达到最大利用率和并行度，解决了现有技术存在的上述问题。本发明以当前主流的多核处理器件、并行计算编程框架、大规模超级计算机节点框架与其整个系统原型为基础进行抽象建模，适用于当前大数据并行计算任务处理过程，并且同时具有灵活的扩展性与可移植性。

附图说明

图1为嵌套式通用计算并行处理架构的单个节点内部结构图。

图2为嵌套式通用计算并行处理架构中的宏观架构图。

图3为嵌套式通用计算并行处理架构中的层次拆分示意图。

图4为嵌套式通用计算并行处理架构中的stage-in时序图。

图5为嵌套式通用计算并行处理架构中的stage-out时序图。

图6为嵌套式通用计算并行处理架构中的系统流程图。

图7为嵌套式通用计算并行处理架构与NVIDIA GPU的组件对应关系与任务执行映射图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

以下结合具体实施例对本发明的具体实现进行详细描述。

如图1所示，为本发明一个实施例提供的一种嵌套式通用计算并行处理架构，包括通用计算任务执行组件，所述通用计算任务执行组件通过嵌套的方式包括多级，每个级别相当于若干通用计算任务执行组件，第i+1级所述通用计算任务执行组件

在本发明实施例中，参考图1，嵌套式通用计算并行处理架构最本质的基础组成——单层单节点，包括核心数据交换组件Memory，互联网络IN，控制单元CU和通用任务执行组件组PE，其中控制单元CU包括任务接受组件TU、任务缓冲区TB和若干调度任务执行组件SE；通用任务执行组件组PE包括若干通用访存任务执行组件PE_d和若干通用计算任务执行组件PE_c。另外，图中组件布局与互联网络IN仅用于说明，不表示硬件架构中实际的存在位置。

如图2所示，作为本发明的一种优选实施例，所述通用任务执行组件PE包括通用访存任务执行组件PE_d和通用计算任务执行组件PE_c。

在本发明实施例中，参考图2，嵌套式通用计算并行处理架构包括多级，不同级别结构对不同层级的通用子任务进行执行，该图为嵌套式通用计算并行处理架构，该架构以树型拓扑方式展开，根节点为任务执行发起点，通过若干

原子性拆分得到若干子节点以及内部组件，进而形成树形嵌套式任务处理架构，有效的对指令以及数据加以分配调度，以实现效率提升。

如图3所示，作为本发明的一种优选实施例，每个所述通用访存任务执行组件PE_d通过消耗通用访存任务脚本块PS_d的方式完成对核心数据交换组件Memory的访存指令，实现stage-in和stage-out步骤。

在本发明实施例中，参考图3，嵌套式通用计算并行处理架构的原子性拆分主要体现在对通用任务执行组件组PE中的通用计算任务执行组件PE_c的进一步划分中，每一层调度任务执行组件组SE所执行的调度任务SS，为通用任务PS的分发服务，通用访存任务PS_d实现了数据移动的驱动，为最根本的通用计算任务PS_c服务，并达到最终解决通用计算任务并行处理的目的。在通用任务的调度与多核多层的任务处理操作期间，产生层间数据的移动。总的来说可以概括为三个处理阶段：数据向下分配(stage-in)、通用任务处理(computing)和数据向上传递(stage-out)。

如图4所示，作为本发明的一种优选实施例，每个所述通用计算任务执行组件PE_c通过消耗通用计算任务脚本块PS_c的方式完成任务的继续分配或底层的数据计算。

在本发明实施例中，参考图4，该时序图展示了从级别i+1中的子任务处理组件PE_i接收到任务PS_i+1，由任务接受组件TU_i接收并形成了脚本索引SL_i存入任务缓冲区TB_i、形成调度脚本块SS_i以及通用任务脚本块PS_i存入核心数据交换组件Memory_i，调度任务执行组件SE_i通过消耗调度脚本块SS_i驱动并分配通用任务脚本块PS_i，通用计算任务脚本块

继续向下分配，传入下层任务接受组件TU_i-1；通用访存任务脚本块

被通用访存任务执行组件

消耗并产生向上层核心数据交换组件Memory_i+1的访存行为，最终驱动由核心数据交换组件Memory_i+1到Memory_i的数据移动，完成层间stage-in过程。

如图5所示，作为本发明的一种优选实施例，还包括第i级控制单元CU_i，每层第i级控制单元CU_i包括第i级任务接受组件TU_i、第i级任务缓冲区TB_i和第i级若干调度任务执行组件SE_i，通过配合第i级若干子通用任务执行组件PE_i和第i级核心数据交换组件Memory_i完成层间交互以及层内调度的任务。

在本发明实施例中，参考图5，该时序图展示了从级别i+1中的子任务处理组件PE_i接收到任务PS_i+1，由任务接受组件TU_i接收并形成了脚本索引SL_i存入任务缓冲区TB_i、形成调度脚本块SS_i和通用任务脚本块PS_i存入核心数据交换组件Memory_i，调度任务执行组件SE_i通过消耗调度脚本块SS_i驱动并分配通用任务脚本块PS_i，通用计算任务脚本块

继续向下分配，传入下层任务接收组件TU_i-1；通用访存任务脚本块

被通用访存任务执行组件

消耗并产生向上层核心数据交换组件Memory_i+1的访存行为，最终产生由核心数据交换组件Memory_i+1到Memory_i的数据移动，完成层间stage-in过程。

如图6所示，作为本发明的一种优选实施例，所述调度任务执行组件SE通过消耗调度脚本块SS的方式驱动通用任务脚本块PS的流向。

在本发明实施例中，参考图6，该时序图展示了当级别i+1中的子任务处理组件完成子任务处理过程Compute并且下层子组件已经将计算结果返回至当前层核心数据交换组件Memory_i时，第i层对当前层数据进行stage-out的过程。调度任务执行组件SE_i通过消耗核心数据交换组件Memory_i中调度脚本块SS_i分配通用访存任务脚本块

到通用访存任务执行组件

通用访存任务执行组件

通过消耗通用访存任务脚本块

产生对本层核心数据交换组件Memory_i的访存行为，并且驱动数据由本层核心数据交换组件Memory_i移动至上层核心数据交换组件Memory_i+1，完成层间stage-out过程。

如图7所示，作为本发明的一种优选实施例，架构最底层设有由多个处理器核心组成的若干个一级通用任务执行组件组PE₁、一级核心数据交换组件Memory₁、若干个一级调度任务执行组件组SE₁、若干个一级接受任务组件TU₁和一级任务缓冲区TB₁。

在本发明实施例中，上述组件组成若干个二级通用任务执行组件组PE₂，也就形成了若干二级通用计算任务执行组件；对应若干二级通用任务执行组件组也有相应大小的二级核心数据交换组件Memory₂，若干个二级调度任务执行组件组SE₂，若干个二级接受任务组件TU₂，二级任务缓冲区TB₂；上述组件组成了若干个三级通用任务执行组件组PE₃，也就形成了若干三级通用计算任务执行组件；以此类推。参考图7为本架构所述系统与当前主流并行处理芯片NVIDIA GPU的组件对应关系与任务执行映射，以配有Fermi架构的小型机处理计算任务为例，若该计算系统为当前情况下最高层通用计算任务执行组件(第三层PE₃)，则GPU为其子PE₂，CPU为其子SE₂，某通用计算任务为GPU执行的PS₂，调度该任务的主机指令为CPU执行的SS₂等。

本发明的工作原理是：

该嵌套式通用计算并行处理架构，通过嵌套执行的方式从粗粒度和细粒度两方面对并行计算任务处理效率进行提高，使系统架构资源达到最大利用率和并行度，解决了现有技术存在的上述问题。本发明以当前主流的多核处理器件、并行计算编程框架、大规模超级计算机节点框架与其整个系统原型为基础进行抽象建模，适用于当前大数据并行计算任务处理过程，并且同时具有灵活的扩展性与可移植性。

以上仅是本发明的优选实施方式，应当指出，对于本领域的技术人员来说，在不脱离本发明构思的前提下，还可以作出若干变形和改进，这些也应该视为本发明的保护范围，这些均不会影响本发明实施的效果和专利的实用性。

Claims

1.一种嵌套式通用计算并行处理架构，其特征在于，包括通用计算任务执行组件，所述通用计算任务执行组件通过嵌套的方式包括多级，每个级别相当于若干通用计算任务执行组件的集合，第i+1级所述通用计算任务执行组件

2.根据权利要求1所述的嵌套式通用计算并行处理架构，其特征在于，所述通用任务执行组件PE包括通用访存任务执行组件PE_d和通用计算任务执行组件PE_c。

3.根据权利要求2所述的嵌套式通用计算并行处理架构，其特征在于，每个所述通用访存任务执行组件PE_d通过消耗通用访存任务脚本块PS_d的方式完成对核心数据交换组件Memory的访存指令，实现stage-in和stage-out步骤。

4.根据权利要求2所述的嵌套式通用计算并行处理架构，其特征在于，每个所述通用计算任务执行组件PE_c通过消耗通用计算任务脚本块PS_c的方式完成任务的继续分配或底层的数据计算。

5.根据权利要求1所述的嵌套式通用计算并行处理架构，其特征在于，还包括第i级控制单元CU_i，每层第i级控制单元CU_i包括第i级任务接受组件TU_i、第i级任务缓冲区TB_i和第i级若干调度任务执行组件SE_i，通过配合第i级若干子通用任务执行组件PE_i和第i级核心数据交换组件Memory_i完成层间交互以及层内调度的任务。

6.根据权利要求5所述的嵌套式通用计算并行处理架构，其特征在于，所述调度任务执行组件SE_i通过消耗调度脚本块SS_i的方式驱动通用任务脚本块PS_i的流向。

7.根据权利要求1-6任一所述的嵌套式通用计算并行处理架构，其特征在于，架构最底层设有由多个处理器核心组成的若干个一级通用任务执行组件组PE₁、一级核心数据交换组件Memory₁、若干个一级调度任务执行组件组SE₁、若干个一级接受任务组件TU₁和一级任务缓冲区TB₁。