CN107391432A

CN107391432A - 一种异构并行计算装置及运算节点互联网络

Info

Publication number: CN107391432A
Application number: CN201710683470.6A
Authority: CN
Inventors: 全大英; 刘恒良; 陶波; 孔维太
Original assignee: China Jiliang University
Current assignee: China Jiliang University
Priority date: 2017-08-11
Filing date: 2017-08-11
Publication date: 2017-11-24
Anticipated expiration: 2037-08-11
Also published as: CN107391432B

Abstract

本发明提出了一种异构并行计算装置及其运算节点互联网络，能够针对雷达、通信和人工智能的实时信号处理和并行计算；异构并行计算装置包含一个中心控制节点、多个GPU运算节点和一个运算节点互联网络；运算节点互联网络采用星形网络，中心控制节点可以直接与所有GPU运算节点实现点对点通信，用于传递实时控制信息和实时并行计算任务以及数据，适用于所执行的计算具备突发、并行的特点的场合；运算节点互联网络采用环形网络，中心控制节点给GPU节点逐级分配任务，而所处理的数据可以通过环形网络逐级传递而不需要通过中心控制节点，以减轻中心控制节点的数据吞吐率，适合于大规模的流水线式运算处理的场合。

Description

一种异构并行计算装置及运算节点互联网络

技术领域

本发明涉及运用到雷达、通信、和人工智能的高性能计算的技术领域，具体为一种异构并行计算装置及其运算节点互联网络。

背景技术

在雷达、通信、和人工智能的高性能计算领域，对于运算的数据吞吐率、单位时间运算能力和处理实时性的要求越来越高。在这些领域，传统的处理器主要包括MCU、CPU、DSP、FPGA等。从系统开发和软件编程的角度看，上述器件的开发难度大体上存在从易到难的趋势。但是从大规模运算的实时性来看，MCU和CPU的处理实时性最低，DSP居中，而FPGA最高。

随着桌面和移动计算机的发展，作为显卡的核心芯片图形处理器GPU的处理能力越来越强，甚至已经采用GPU核心开发出了专门针对移动设备应用的应用处理器，比如NVIDIA公司的Tegra TX1系列处理器。因此也出现了一些采用GPU进行雷达成像、通信系统计算和人工智能算法实现的设计。还出现了一些采用CPU结合GPU的处理器架构。这些方案的优点是采用高级语言在PC平台上进行编程，相比传统的DSP和FPGA平台，开发难度较低，开发周期短。但是存在以下不足：

1）在诸如雷达成像和高速通信等要求计算强实时性的场合，缺乏手段进行严格的时序控制；

2）多GPU系统往往采用复杂的网络连接，需要较多的系统开销，进一步降低了系统的运算能力；

3）适合于采用PC机和服务器的场合，无法满足大量的嵌入式设备的需求。

因此，针对雷达、通信和人工智能的实时信号处理和并行计算领域，为了弥补上述不足，有必要开发兼顾实时性和运算能力，并具备嵌入式应用能力的异构并行计算装置及运算节点互联网络。

发明内容

本发明所要解决的技术问题是提供应用于雷达、通信和人工智能的实时信号处理和并行计算领域的一种异构并行计算装置。为此，本发明采用如下技术方案：

一种异构并行计算装置，其特征在于，包括以下3个组成部分：

1-a）一个中心控制节点，其作用是实现实时运算加速、任务分配、时序控制和外部通信；

所述中心控制节点由FPGA构成；

所述实时运算加速是指能够完成实时的逻辑和算术运算；

所述任务分配，是指将具备流水或者并行处理的计算任务分配到不同的运算节点完成；将处理逻辑复杂的海量计算交由GPU运算节点完成，而高实时性的逻辑和算术运算交由中心控制节点完成；

所述时序控制，是指为各运算节点提供统一的时间基准和相互间的握手通信；

所述外部通信，是指从外部接受运算任务和数据，并提供运算结果；

1-b）多个GPU运算节点，用作完成运算任务；

1-c）运算节点互联网络，其作用是实现中心控制节点和所有GPU运算节点的通信互联。

本发明还提供了一种用于异构并行计算装置的运算节点互联网络，其特征在于，包括以下3个组成部分：

2-a）一个星形网络，以中心控制节点为中心，通过数据交换节点和每个GPU运算节点进行点对点互联；

2-b）一个环形网络，每个GPU运算节点与相邻的GPU运算节点互联，组成一个环形网络；

2-c）若干数据交换节点，用于中心控制节点、相邻的GPU运算节点之间完成数据转发，是上述星形网络和环形网络的数据交换装置。

优选的，所述中心控制节点可以直接与所有GPU运算节点实现点对点通信，用于传递实时控制信息和实时并行计算任务以及数据。

优选的，所述环形网络适合于大规模的流水线式运算处理；所处理的数据可以通过环形网络逐级传递而不需要通过中心控制节点，以减轻中心控制节点的数据吞吐率。

优选的，所述数据交换节点能够支持4个节点的数据交换能力，并且支持如下的数据交换方式：

5-a) 所述的数据交换节点支持中心控制节点与GPU运算节点的点对点通信；

5-b) 所述的数据交换节点支持当前GPU运算节点与其相邻两个GPU运算节点的点对点通信。

本发明提出了一种异构并行计算装置及其运算节点互联网络，能够针对雷达、通信和人工智能的实时信号处理和并行计算；运算节点互联网络采用星形网络，中心控制节点可以直接与所有GPU运算节点实现点对点通信，用于传递实时控制信息和实时并行计算任务以及数据，适用于所执行的计算具备突发、并行的特点的场合；运算节点互联网络采用环形网络，中心控制节点给GPU节点逐级分配任务，而所处理的数据可以通过环形网络逐级传递而不需要通过中心控制节点，以减轻中心控制节点的数据吞吐率，适合于大规模的流水线式运算处理的场合。

附图说明

图1为本发明所述异构并行计算装置组成框图。

图2为本发明所述运算节点互联网络组成框图。

图3为本发明所述数据交换节点工作模式一的原理框图。

图4为本发明所述数据交换节点工作模式二的原理框图。

具体实施方式

为了充分理解本发明的技术内容，下面给出具体实施例，结合附图对本发明的技术方案进行较为详细的介绍和说明。

图1为异构并行计算装置组成框图，该装置由3部分组成，分别是中心控制节点11、运算节点互联网络12和多个GPU（图形处理器，Graphics Processing Unit）运算节点GPU1131~GPUn 133组成。其中，中心控制节点由高性能FPGA构成，根据运算能力的要求，可以包含1个到多个的GPU运算节点。其中中心控制节点11，用于实时运算加速、任务分配、时序控制和外部通信。其中所述实时运算加速，是指能够在FPGA完成高实时性的逻辑和算术运算，用于弥补CPU的实时不足问题；所述任务分配，是指将具备流水或者并行处理的计算任务分配到不同的运算节点完成，其中，运算节点包括中心控制节点和GPU运算节点，将处理逻辑复杂的海量计算交由GPU运算节点完成，而高实时性的逻辑和算术运算交由中心控制节点完成；所述时序控制，是指为各运算节点提供统一的时间基准和相互间的握手通信；所述外部通信，是指从外部接受运算任务和数据，并提供运算结果。多个GPU运算节点GPU1 131~GPUn 133，用作完成复杂运算任务。所述GPU是专门用于图形运算的微处理器，能够完成复杂的数学和几何计算。一个运算节点互联网络12，其作用是实现中心控制节点11和所有GPU运算节点GPU1 131~GPUn 133的通信互联。

所述方案的中心控制节点FPGA和GPU运算节点通过运算节点互联网络进行通信。假设采用4个GPU运算节点，则异构并行计算装置即运算节点互联网如图2所示。运算节点互联网络在逻辑上由以下3部分组成：

1-a）一个星形网络，以中心控制节点21为中心，通过数据交换装置SW1 221~ SW4 224分别和每个GPU运算节点GPU1 231~GPUn 234进行点对点互联；

2-b）一个环形网络，每个GPU运算节点GPU1 231~GPUn 234与相邻的GPU运算节点GPU1231~GPUn 234互联，组成一个环形网络；

2-c）若干数据交换节点SW1 221~ SW4 224，用于中心控制节点21、相邻的GPU运算节点之间进行数据转发，是上述星形网络和环形网络的数据交换装置。

更进一步，采用上述的星形网络，中心控制节点可以直接与所有GPU运算节点实现点对点通信，也就是说，中心控制节点21分别通过数据交换节点SW1 221、SW2 222、SW3223、SW4 224与GPU运算节点GPU1 231、GPU2 232、GPU3 233、GPU4 234进行点对点通信，用于传递实时控制信息和实时并行计算任务以及数据；适用于所执行的计算具备突发、并行的特点的场合。

采用上述的环形网络，GPU运算节点GPU1 231通过数据交换节点SW1 221和SW2222与GPU运算节点GPU2 232通信；GPU运算节点GPU3 233通过数据交换节点SW1 222和SW2223与GPU运算节点GPU3 233通信；以此类推，形成一个环形网络。此时中心控制节点21首先通过星形网络给各GPU节点逐级分配任务，而所处理的数据可以通过环形网络逐级传递而不需要通过中心控制节点21，以减轻中心控制节点21的数据吞吐率；适合于大规模的流水线式运算处理的场合。

图3和图4给出了用于星形网络和环形网络的数据交换节点SW1 321~ SW3 323、SW1 421~ SW3 423的两种工作模式。这些节点采用FPGA实现，通过高速口与中心控制节点31、中心控制节点41、GPU运算节点GPU2 332、GPU2 432、其他相邻数据交换节点SW1 321、SW3 323、SW1 421、SW3 423进行高速通信，接口可以是高速串行口、PCIe等，能够支持4个节点的数据交换能力，并且支持如下的数据交换方式。

2-a) 模式一：所述的数据交换节点支持中心控制节点与GPU运算节点的点对点通信；如图3所示，这时数据交换节点SW2 322完成中心控制节点31和GPU运算节点GPU2 332的数据通信转发。

2-b) 模式二：所述的数据交换节点支持当前GPU运算节点与其相邻两个GPU运算节点的点对点通信。如图4所示，这时数据交换节点SW2 422完成GPU运算节点GPU2 432分别与SW1 421和SW3 423之间的数据通信转发。而SW1 421和SW3 423又各自分别与GPU运算节点GPU1 431和GPU运算节点GPU3 433直接通信，所以构成了GPU运算节点GPU1 432分别和GPU运算节点GPU1 431以及GPU运算节点GPU3 433的点对点通信。进而，所有的GPU运算节点组成了环形网络。

应当理解的是，以上所述从具体实施例的角度对本发明的技术内容进一步地披露，其目的在于让大家更容易了解本发明的内容，但不代表本发明的实施方式和权利保护局限于此。本发明保护范围阐明于所附权利要求书中，凡是在本发明的宗旨之内的显而易见的修改，亦应归于本发明的保护之内。

Claims

1.种异构并行计算装置，其特征在于，包括以下3个组成部分：

所述中心控制节点由FPGA构成；

所述实时运算加速是指能够完成实时的逻辑和算术运算；

1-b）多个GPU运算节点，用作完成运算任务；

2.一种用于异构并行计算装置的运算节点互联网络，其特征在于，包括以下3个组成部分：

3.根据权利要求2所述的运算节点互联网络，其特征在于，所述中心控制节点可以直接与所有GPU运算节点实现点对点通信，用于传递实时控制信息和实时并行计算任务以及数据。

4.根据权利要求2所述的运算节点互联网络，其特征在于，所述环形网络适合于大规模的流水线式运算处理；所处理的数据可以通过环形网络逐级传递而不需要通过中心控制节点，以减轻中心控制节点的数据吞吐率。

5.根据权利要求2所述的运算节点互联网络，其特征在于，所述数据交换节点能够支持4个节点的数据交换能力，并且支持如下的数据交换方式：