CN103345458A

CN103345458A - 一种面向高性能计算的多fpga互联结构及逻辑划分方法

Info

Publication number: CN103345458A
Application number: CN2013102535459A
Authority: CN
Inventors: 黄樟钦; 肖春华
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2013-06-24
Filing date: 2013-06-24
Publication date: 2013-10-09

Abstract

本发明提供的一种面向高性能计算的多FPGA互联结构，包含两级通讯互联网络：本地通讯互联网络和全局通讯互联网络。所述本地通讯互联网络为全互联结构，各FPGA节点可直接与在同一本地通讯互联网络中的其它FPGA节点通信；所述全局通讯互联网络为高速通讯互联通道，用于各本地通讯网络之间的通讯；本发明提供的一种面向高性能计算的多FPGA逻辑划分方法，包括如下步骤：（1）集群结构参数初始化；（2）逻辑资源映射；本发明所提供的多FPGA互联结构及逻辑划分方法，充分利用了大规模计算“局部性”及“异构性”的特点，将拓扑结构和逻辑划分算法相结合，降低系统通信互联开销，实现大规模设计向多FPGA高性能计算平台的快速、高效映射，加速高性能可配置计算系统的设计实现。

Description

一种面向高性能计算的多FPGA互联结构及逻辑划分方法

技术领域

本发明涉及高性能计算领域，具体涉及一种多FPGA拓扑结构及逻辑划分方法。

背景技术

高性能计算HPC (High Performance Computing) 是指利用具有超强计算能力的高性能计算机解算当今超大、超高、超复杂的计算任务。HPC已经成为科学技术发展继“理论”和“试验”之后的第三大重要科研手段，并在空间科学、过程工程、地球科学、生物信息、高能物理等国家科技、国防、产业及金融等重要领域发挥着越来越重要的作用。目前国内外实现高性能计算的主要方案是采用对称多处理机（SMP）和集群机（Cluster）两种。集群系统由多个独立的服务器(节点)通过交换机连接在一起，每个节点拥有自己的独立内存及操作系统。由于其具有性价比高，配置灵活度高，后期维护成本低等优势，基于集群体系结构的高性能计算机已经占据了高性能计算中的主流地位，在最新的发布的TOP500高性能计算机中采用Cluster体系架构的高性能机比例高达80%以上，占据排行榜中的垄断地位。

高性能计算一般面向大规模计算领域，通常由几百个机柜，成千上万个节点构成一个庞大的计算系统，而每个节点通常集成了多个、几十个甚至上百个处理器核心。在这样的大规模计算系统中，某个计算单元与其他计算资源之间的通讯交互通常是非均匀的，具有“局部性”，即距离较近的结点间相互通信的概率比相邻较远的结点要大得多，不同的连接方法在连接不同规模网络时具有相异的性能。

随着半导体工艺的不断进步，现场可编程门阵列FPGA（Field Programmable Gate Array）不仅能够像ASIC（Application SpecificIntegrated Circuit,专用集成电路）一样实现各种复杂定制的逻辑功能，而且能够集成数字信号处理DSP（Digital Signal Processing）单元和各种高速通讯接口模块，在复杂运算应用中发挥强大的计算能力，加速大规模高性能计算。同时，FPGA配置灵活，可以重新配置实现新的逻辑功能，易于设备的维护及升级，大幅降低应用成本。不断提升的计算性能和可重构的灵活性使得FPGA能够应对传统高性能计算机体系结构已难以应对的系统高效能挑战，在高性能计算应用领域获得更好的性价比。

RISC架构的先驱者之一、加州大学伯克利分校电子工程教授Dave Patterson曾在一次研讨会上举例对比基于多FPGA的高性能计算系统和传统计算机集群在成本和功耗等方面的优势：如果在一个FPGA芯片中加入25个处理器，就可以在40个FPFA芯片中加入1000个处理器。这种计算机的造价大约需要10万美元。这种功能强大的计算机占用的面积比较小，仅相当于一台机架占地面积的三分之一，耗电量只有1.5千瓦。相比较而言，相当于这种计算能力的计算机集群的造价大约需要200万美元，占用12个机架，耗电量为120千瓦。

近年来，已有公司及科研机构成功设计高性能可重构计算机HPRCs(High Performance Reconfigurable Computers)。2007年，SGI公司设计实现了当时世界上最大规模的FPGA超级计算机，对复杂BLAST-n查询加速性能超过900倍以上；2009年7月，可重构超级计算机Novo-G设计完成，集成了96个高端Altera Stratix FPGA；2009年11月，Pico Computing 公司宣布利用基于112FPGA集群，在计算生物信息序列以及散点图算法的加速比达到了5000以上，且功耗不到300W。

但这些基于多FPGA的高性能计算系统大多针对专门的应用特别定制，其互联拓扑结构和逻辑资源划分方法难以标准化、通用化，导致设计周期延长，且限制了系统的灵活性和可移植性。传统的典型多FPGA互联拓扑结构，如线阵结构，MESH网格结构、交叉互联结构和交叉混合互联结构等，扩展性较差，当多FPGA的数量增加时，互联代价及通信路由成本大幅增加，很难满足当今高性能计算大规模计算系统的需求。

现有的多FPGA逻辑划分方法，单纯考虑FPGA之间的互联度，没有针对所映射设计本身的互联特性，结合多FPGA拓扑结构，从系统的角度降低多FPGA的通讯互联成本，很难应用于高性能计算。

因此，如能提供一种面向高性能计算的，适用性较强的多FPGA系统互联结构及逻辑资源划分方法，必能加速HPRCs的设计实现，一定程度上促进高性能计算的发展。发明者通过查阅所能及的公开文献及资料，尚未发现针对于此的有效解决方案。

发明内容：

有鉴于此，本发明的主要目的是，针对高性能计算高能效、低功耗的要求，结合大规模计算“局部性”及“异构性”的特点，提供一种适应性较强的面向高性能计算的多FPGA的拓扑结构，并给出相应的逻辑划分方法，能够实现大规模设计向多FPGA高性能计算平台的快速映射，加速高性能可配置计算系统的设计实现。

为了达到上述目的，本发明提供一种面向高性能计算的多FPGA拓扑结构，其特征在于，包含两级通讯互联网络：本地通讯互联网络和全局通讯互联网络。其中，所述本地通讯互联网络为全互联结构，各FPGA节点可直接与在同一本地通讯互联网络中的其它FPGA节点通信；所述全局通讯互联网络为高速通讯互联通道，用于各本地通讯网络之间的通讯，即当某FPGA节点需要和不在同一本地通讯网络中的FPGA节点通讯时；所述本地通讯互联网络中至少有一个节点为层级传递节点，实现本地互联通讯和全局互联通讯的连接，所有不在同一本地通讯网络中的FPGA节点通讯，都需要通过该传递节点实现全局通讯。

所述拓扑结构，其特征在于，所述层级传递节点由FPGA实现，且该传递节点可以承担计算功能，也可以只执行层级通信传递功能。

所述拓扑结构，其特征还在于，所述高速通讯互联通道，采用光通信、毫米波射频通信或数据率高于1Gbps的高速无线通信互联。

本发明还提供一种面向高性能计算的基于多FPGA集群的逻辑划分方法，其特征在于，其特征在于，所述逻辑划分方法包括如下步骤：

（1）集群结构参数初始化；

（2）逻辑资源映射；

其中，所述集群结构参数初始化，是指根据输入设计的规模，以及所映射的FPGA的约束（如容量、管脚数等），确定集群的个数及各集群所含FPGA的个数；所述逻辑资源映射，是指将所述输入设计映射到所述各集群FPGA；

所述的逻辑划分方法，其特征在于，所述将输入设计映射到所述各集群FPGA，首先将设计映射到各集群，然后将映射到各集群的设计进一步映射到各集群目标FPGA。

所述的逻辑划分方法，其特征还在于，实现所述逻辑资源映射，优先映射规模较大的功能模块或者电路模块，且将选中的模块优先映射到使得映射目标集合剩余资源最小的位置。

所述的逻辑划分方法，其特征还在于，当所映射的模块由于规模太大无法实现目标映射时，根据所包含的子功能块或函数等进行模块分解和细化。

所述的逻辑划分方法，其特征还在于，在完成逻辑资源映射后，可进一步进行逻辑资源划分优化，即采用KL算法或FM算法使得各集群FPGA之间，以及集群内部各FPGA之间的互联度最低。

本发明的优点

本发明提供的一种面向高性能计算的多FPGA互联结构，充分利用了大规模计算“局部性”及“异构性”的特点，将通讯互联网络分为本地全互联和全局高速互联，实现高效能通信，满足高性能计算中高性能、低功耗的要求；提供的一种面向高性能计算的多FPGA逻辑划分方法，首次提出将基于集群的拓扑结构和逻辑划分算法相结合，降低系统通信互联开销，能够实现大规模设计向多FPGA高性能计算平台的快速、高效映射，加速高性能可配置计算系统的设计实现。

附图说明：

图1为根据本发明实施例的拓扑结构；

图2为根据本发明实施例的多FPGA逻辑划分方法流程；

图3为本发明逻辑划分方法应用实施例的Cluster 1逻辑资源划分；

图4为本发明逻辑划分方法应用实施例中采用的逻辑分割优化算法MP2流程及伪代码；

具体实施方式：

为使本发明的目的、技术方案和优点更加清楚明白，以下参照附图，对本发明的具体实施方法做进一步说明。

图1为根据本发明实施例的拓扑结构，如图所示，该拓扑结构包括两个两级通讯互联网络：本地通讯互联网络，全局通讯互联网络。其中本地通讯互联网络中各节点为全互联有线通信，任何在同一本地通讯网络中的两节点都可以直接One-hop通信；示例中的全局通讯互联网络采用了高速无线射频互联RF-I，任何不在同一本地通讯网络的两节点通信都需要通过该全局通讯网络。每一个本地通讯互联网络至少有一个节点为层级传递节点，实现本地互联通讯和全局互联通讯的连接，该层级传送节点与其所在的本地通讯互联网络中的各节点直接相连，与所有本地通讯网络中的层级传送节点都可直接通讯；所有不在同一本地通讯网络中的FPGA节点通讯，都需要通过层级传递节点实现全局通讯。本应用实施拓扑结构中的全局通讯互联采用无线RF-I互联，也可以采用高速有线互联（如光纤互联），高速无线互联等其它有线/无线高速互联。

图2为根据本发明实施例的多FPGA逻辑划分方法流程图，为了更清楚详尽的表述本发明提出的划分方法，结合一个具体的设计介绍具体实施方式和步骤。本发明逻辑划分方法应用实施的输入设计为一个语音识别工程设计，该设计为基于VHDL描述的设计，所给定的输入设计包含6个顶层模块，采用Synopsys综合后，共包含8490 LUTs，7384 Flip Flop，1339 Pins。各顶层模块的规模如下所示：

本应用示例选择Xilinx 4013E-1 FPGA为映射目标板（此应用实例所映射的多FPGA系统硬件平台为同一个型号的FPGA，实际应用时也可选择不同型号的FPGA），即将该输入设计映射到多个Xilinx4013E-1 FPGAs。

根据本发明所提出的逻辑划分流程，第1步初始化集群结构参数，根据输入设计规模及映射目标FPGA的约束，确定集群数量及规模。本应用实例目标FPGA的关键参数约束为：1152 LUTs, 1152 Flip Flops(FFs), 192 I/Os。考虑到布局布线的可行性，我们在映射时，预留25%的资源，从而保证映射后的设计的可实现性。因此本应用实施例的目标FPGA资源约束为{864 LUTs, 864 FFs, 144 I/O s}。我们通过计算关键参数的比值来确定映射的FPGA的个数：

本设计中，

，即输入设计将映射到10个目标FPGA。

下面我们需要根据目标FPGA的个数，确定集群的个数。集群的大小通常是系统性能和成本的折中，当一个系统的集群个数越少，即单个集群所包含的FPGA个数越多的时候，集群传递节点的通信瓶颈压力就越大，通信的延时就会增加，但是由于减少了传递节点的硬件开销，所以系统成本降低；反之，集群个数越多，各集群所包含的FPAG个数越少，系统的通信效率越高，而成本却将增加。通常，我们保证每个集群的FPGA个数为3个或者4个，根据实验经验值，这能保证系统性能和成本达到一个最佳的平衡点。因此，在集群所包含的FPGA个数可以是3或者4的情况下，我们优先选择集群个数少的策略。例如，若Num_FPGAs=12，可能的集群初始化策略可能为{4,4,4}或者{3,3,3,3}，我们将选择{4,4,4}策略，因为这样的集群个数为3，比{3,3,3,3}策略少一个集群开销。

因此在本应用示例中，我们根据所计算出Num_FPGAs=10，把系统分为3个集群，Cluster1，Cluster2，Cluster3，各个Cluster包含的FPGA个数分别为4，3，3，那么各个Cluster的资源量为：

Cluster1: { 3456 LUTs, 3456 Flip Flops (FFs), 576 I/Os }；

Cluster2: { 2592 LUTs, 2592 Flip Flops (FFs), 432 I/Os }；

Cluster3: { 2592 LUTs, 2592 Flip Flops (FFs), 432 I/Os }；

根据本发明所提出的逻辑划分方法，优先映射规模较大的功能模块或者电路模块，在本应用示例中，规模最大的为模块D{3470 LUTs, 2897 Flip Flops,330 I/Os}，但其模块大小超出了映射集群的资源量(最大的集群，Cluster1只有3456 LUTs的资源容量)，因此将其分解，按照互联度和功能将其划分为两个模块D1和D2：D1{1470 LUTs,1024 Flip Flops,130 I/Os}，D2{2000 LUTs, 1873Flip Flops,200 I/Os}。

模块D分解后，输入设计的顶层模块更新为7个，如下所示:

根据本发明所提出的逻辑划分流程，第2步实现基于集群的逻辑资源划分。该步骤包括两级划分，1）将设计映射到各集群；2）将映射到各集群的设计进一步映射到各集群目标FPGA。这两级划分虽然层次不同，但是划分算法原理一致，即按照映射模块的大小及优先级选择合适的映射位置（placement position）。本发明逻辑划分方法首先将映射模块按照大小规模进行排序，优先映射规模较大的模块到目标集群，且将选中的模块优先映射到使得映射目标集合剩余资源最小的位置。当映射模块找不到满足其需要的目标位置时，进行模块分解后重新映射。

根据本发明所提出的映射方法，本应用示例输入设计的7个模块按照模块大小的映射优先依次为，模块C→D2→D1→A→E→F→B。因为模块C{2100 LUTs, 1879Flip Flops,220 I/Os}是第1个进行映射的模块，因此其有3个选择，

Cluster1: { 3456 LUTs, 3456 Flip Flops (FFs), 576I/Os }；

Cluster2: { 2592 LUTs, 2592 Flip Flops (FFs), 432 I/Os }；

Cluster3: { 2592 LUTs, 2592 Flip Flops (FFs), 432 I/Os }；

如果将模块C映射到目标位置Cluster1，那么Cluster1的剩余资源量为{ 1356 LUTs, 1577 Flip Flops, 356 I/Os }；如果将模块C映射到目标位置Cluster2或Cluster3，那么Cluster2或Cluster3的剩余资源量为{ 492 LUTs, 713 Flip Flops, 212 I/Os }；按照本发明所提出的将模块优先映射到使得映射目标集合剩余资源最小的位置，将模块C映射到Cluster2或者Cluster3为最佳方案，因此本应用示例中我们将模块C映射到Cluster2，映射后各集合的剩余资源量为：

Cluster1: { 3456 LUTs, 3456 Flip Flops (FFs), 576 I/Os }；

Cluster2: {492 LUTs, 713Flip Flops (FFs), 212 I/Os}；

Cluster3: { 2592 LUTs, 2592 Flip Flops (FFs), 432 I/Os }；

接下来，我们映射大小规模次之的模块D2{2000 LUTs, 1873FlipFlops,200 I/Os}，由于D2的大小已经超出了Cluster2的剩余资源量，因此只能将其映射到Cluster1或者Cluster3。如果将模块D2映射到目标位置Cluster1，那么Cluster1的剩余资源量为{ 1456 LUTs,1583 Flip Flops, 376 I/Os }；如果将模块C映射到目标位置Cluster3，那么Cluster3的剩余资源量为{ 592 LUTs, 719 FlipFlops, 232 I/Os }；按照本发明所提出的将模块优先映射到使得映射目标集合剩余资源最小的位置，将模块D2映射到Cluster3。映射后各集合的剩余资源量为：

Cluster1: { 3456 LUTs, 3456 Flip Flops (FFs), 576 I/Os }；

Cluster2: {492 LUTs, 713Flip Flops (FFs), 212 I/Os }；

Cluster3: { 592 LUTs,719 Flip Flops (FFs), 232 I/Os}；

依次类推，我们将得到如下的映射结果：

Module C → Cluster 2；

Module D2 → Cluster 3；

Module D1 → Cluster 1；

Module A → Cluster 1；

进行到模块E时，各集合的剩余资源量为：

Cluster1: {756 LUTs, 1445 Flip Flops (FFs), 346 I/Os}；

Cluster2: {492 LUTs, 713Flip Flops (FFs), 212 I/Os}；

Cluster3: { 592 LUTs,719 Flip Flops (FFs), 232 I/Os}；

这时模块E{954 LUTs, 800Flip Flops,129 I/Os}在映射时已找不到满足其规模大小的映射位置，因此我们将模块E按照子功能分解为两个模块E1和E2：E1{554 LUTs, 420Flip Flops,70 I/Os}和E2{400 LUTs, 380Flip Flops,59 I/Os}。分解后，尚未映射的模块就变成了Module E2，Module E1，Module F，Module B。按照本发明所提出的逻辑划分方法，待映射的模块按照大小规模排序，得到优先映射顺序为：模块F→模块E1→模块E2→模块B。

按照如上文所述的映射方法，各模块的映射结果为：

Module E1 → Cluster2；

Module E2 → Cluster 3；

Module B → Cluster 1；

综上，整个设计映射到3个Cluster的映射结果为：

Cluster1: { Module D1, Module A, Module F, Module B}；

Cluster2: { Module C, Module E1}；

Cluster3: { Module D2, Module E2}；

下面我们根本发明所提出的逻辑划分方法，将设计进一步由集群向集群内部的各FPGA进行映射，因为这一步骤映射的原理和上文所述流程实质相同，所以这里仅举集群1（Cluster 1）进行介绍。

按照应用示例中步骤1所得到的初始化映射参数，Cluster 1包含4个FPGA，各FPGA型号都为Xilinx 4013E-1，即映射目标为：

FPGA 1: { 864 LUTs, 864 FFs, 144 I/O s }；

FPGA 2: { 864 LUTs, 864 FFs, 144 I/O s }；

FPGA 3: { 864 LUTs, 864 FFs, 144 I/O s }；

FPGA 4: { 864 LUTs, 864 FFs, 144 I/O s }；

映射设计为前文所述的映射到Cluster1的设计部分，即：

Cluster1: { Module D1, Module A, Module F, Module B}；其中各模块的大小详细参数如前文所述。

在实现Cluster 1的映射时，由于Module D 和Module A的大小超出了映射目标的容量，因此需要将其分解；在映射过程中，分解后的Module A在映射时已找不到合适的映射位置，因此需要进行进一步的分解。Cluster 1的模块映射分解流程及最终模块详细参数如图3所示。根据映射算法，得到Cluster 1的最终映射结果为：

FPGA 1: { Module B, Module D1_1 }；

FPGA 2: { Module A1, Module A2_1}；

FPGA 3: { Module F, Module A2_3}；

FPGA 4：{ Module D1_2, Module A2_2}；

在完成逻辑资源映射后，可进一步进行逻辑资源划分优化，使得各集群FPGA之间，以及集群内部各FPGA之间的互联度最低。在本应用示例中，我们采用Nam-Sung Woo等人提出的MP2算法（属于经典KL算法中的一种），MP2算法流程及伪代码如图4所示。

上述实施例只是本发明的优选的应用实施例，本发明的保护范围并不局限于该实施例。凡在本发明的精神和原则范围内，所作的任何修改、改进、等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种面向高性能计算的多FPGA拓扑结构，其特征在于，包含两级通讯互联网络：本地通讯互联网络和全局通讯互联网络。其中，所述本地通讯互联网络为全互联结构，各FPGA节点可直接与在同一所述本地通讯互联网络中的其它FPGA节点通信；所述全局通讯互联网络为高速通讯互联通道，用于各所述本地通讯网络之间的通讯，即当某FPGA节点需要和不在所述同一本地通讯网络中的FPGA节点通讯时；所述本地通讯互联网络中至少有一个节点为层级传递节点，实现本地互联通讯和全局互联通讯的连接，所有不在同一所述本地通讯网络中的FPGA节点通讯，都需要通过该传递节点实现全局通讯。

2.如权利要求1所述的拓扑结构，其特征在于，所述层级传递节点由FPGA实现，且该传递节点可以承担计算功能，也可以只执行层级通信传递功能。

3.如权利要求1所述的拓扑结构，其特征在于，所述高速通讯互联通道，采用光通信、毫米波射频通信或数据率高于1Gbps的高速无线通信互联。

4.应用权利要求1所述的拓扑结构进行一种面向高性能计算的多FPGA逻辑划分方法，其特征在于，所述逻辑划分方法包括如下步骤：

（1）集群结构参数初始化；

（2）逻辑资源映射；

其中，所述集群结构参数初始化，是指根据输入设计的规模，以及所映射的FPGA的约束，确定集群的个数及各集群所含FPGA的个数；所述逻辑资源映射，是指将所述输入设计映射到所述各集群目标FPGA。

5.如权利要求4所述的逻辑划分方法，其特征在于，所述将输入设计映射到所述各集群FPGA，首先将设计映射到各集群，然后将映射到各集群的设计进一步映射到各集群目标FPGA。

6.如权利要求4或5所述的逻辑划分方法，其特征在于，实现所述逻辑资源映射，优先映射规模较大的功能模块或者电路模块，且将选中的模块优先映射到使得映射目标集合剩余资源最小的位置。

7.如权利要求4、5或6所述的逻辑划分方法，其特征在于，当所映射的模块由于规模太大无法实现目标映射时，根据所包含的子功能进行模块分解和细化，模块分解后重新按照规模大小进行排序并优先映射规模较大的模块。

8.如权利要求4所述的逻辑划分方法，其特征在于，在完成逻辑资源映射后，采用KL算法或FM算法使得各集群FPGA之间，以及集群内部各FPGA之间的互联度最低。