CN101086729A

CN101086729A - 一种基于fpga的动态可重构高性能运算方法与装置

Info

Publication number: CN101086729A
Application number: CN 200710018207
Authority: CN
Inventors: 苗保刚; 张卫军; 付国军; 谢国鹏; 郭忠峰; 高兴利; 梁光勤; 张致远
Original assignee: XI'AN FEIYING TECHNOLOGY Co Ltd
Current assignee: XI'AN FEIYING TECHNOLOGY Co Ltd
Priority date: 2007-07-09
Filing date: 2007-07-09
Publication date: 2007-12-12

Abstract

本发明公开的一种基于FPGA的动态可重构高性能运算方法，采用至少一个计算单元HCU实现并行运算，并通过主控计算设备发送指令和参数，控制计算单元HCU的运行，并接收其运算结果，计算单元HCU的运算是采用至少两个大容量可编程门阵列FPGA进行基本计算逻辑的并行处理，并通过高速LVDS实现相互之间的数据传输，最终将大容量可编程门阵列FPGA的处理结果通过通讯接口传输出去。实现该方法的装置包括至少一个计算单元HCU、控制计算单元HCU运行的主控计算设备以及实现两者之间数据交换的通讯接口。本发明充分利用了大容量可编程门阵列FPGA的可重构特性和并行处理特性，将运算进行流水线和并行改造，实现了超高速处理的功能，又具有功耗低、体积小、计算成本低的特点。

Description

一种基于FPGA的动态可重构高性能运算方法与装置

技术领域

本发明属于电子信息与高性能运算技术领域，涉及一种利用FPGA器件实现动态可重构高性能运算的方法，本发明还涉及实现该方法的装置。

背景技术

在数值模拟、仿真计算等领域，目前是以通用处理器为核心的运算系统来实现其运算功能的，由于以通用处理器为核心的系统存在顺序执行架构的局限性，需要大量运算指令才能完成工作，因此无法实现特定需求下所需要的超高速处理能力，使用者往往需要降低运算规模，甚至不得不求助于超级计算机或者机群系统才能获得令人满意的计算结果，但是现有的超级计算机或者机群系统往往存在系统复杂、体积庞大、功耗大、计算成本高的问题。

发明内容

本发明的目的是提供一种基于FPGA的动态可重构高性能运算方法，解决了现有技术中无法同时实现超高速计算和体积小、功耗小、计算成本低的问题。

本发明的另一目的是提供一种实现上述方法的装置。

本发明所采用的技术方案是，一种基于FPGA的动态可重构高性能运算方法，该方法包括以下步骤，

采用至少一个计算单元HCU实现并行的运算；

将上步得到的每一个计算单元HCU的运算结果通过通讯接口传输给主控计算设备；

主控计算设备发送指令和参数又通过通讯接口传输给每一个计算单元HCU，控制计算单元HCU的运行；

其中计算单元HCU的运算是，

采用至少两个大容量可编程门阵列FPGA进行基本计算逻辑的并行处理；

将上步得到的每一个大容量可编程门阵列FPGA的处理结果以及运算参数和中间变量存储于与之对应相连接的外部RAM中，大容量可编程门阵列FPGA通过高速低压差分信号LVDS实现相互之间的数据传输；

将最终的大容量可编程门阵列FPGA的处理结果通过通讯接口传输出去。

本发明所采用的另一技术方案是，实现上述方法的装置，包括：

(a)至少一个计算单元HCU，用于并行计算，其中，每个计算单元HCU包括

至少两个大容量可编程门阵列FPGA，用于完成基本计算逻辑的并行处理，

高速低压差分信号LVDS，连接于上述多个大容量可编程门阵列FPGA之间，用于实现上述大容量可编程门阵列FPGA之间的相互数据传输，

至少两个外部RAM，每个外部RAM与一个大容量可编程门阵列FPGA相连接，用于存储大容量可编程门阵列FPGA的运算参数、中间变量和结果，

通讯接口，用于接收主控计算设备的指令和参数，并将大容量可编程门阵列FPGA的运算结果传输给主控计算设备；

(b)主控计算设备，用于发送指令和参数给各个计算单元HCU，并接收各个计算单元HCU的计算结果，控制计算单元HCU的运行；

(c)通讯接口，用于完成计算单元HCU与主控计算设备之间的数据通讯。

本发明充分利用了大容量可编程门阵列FPGA的可重构特性和并行处理特性，将需计算的算法进行流水线和并行改造。本发明方法相对于以通用处理器为核心的系统实现了超高速处理的功能，相对传统的超级计算机或机群系统，具有功耗低、体积小、计算成本低的特点，计算能力介于超级计算机和普通计算服务器之间，适用于各种常规的需要中小规模密集运算的场合以及对体积和功耗要求较高的嵌入式密集运算场合，在大学、科研院所、军事装备研究与应用、安全部门、大型企业以及政府部门有着广阔的应用前景。

附图说明

图1是本发明装置组成结构示意图；

图2是本发明装置中计算单元HCU的结构示意图；

图3是本发明方法的工作过程示意图；

图4是本发明方法中各计算单元HCU内部并行计算过程示意图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

在传统的以通用处理器为核心的系统中，由于其顺序执行架构的局限性，无法实现特定需求下所需要的超高速处理能力，而由大容量可编程门阵列FPGA构成的计算系统在并行工作方面则具有很大的优势。对于传统的处理器需要大量运算指令才能完成的工作，大容量可编程门阵列FPGA只需一个时钟周期时间即可完成。即使在顺序执行方面，大容量可编程门阵列FPGA也要比传统的处理器快，这是因为大容量可编程门阵列FPGA中可以使用各种状态机或使用嵌入式处理器来完成，并且每一顺序工作的时钟周期中都能够同时并行完成多个任务，而传统的处理器却无法实现。

本发明充分利用了大容量可编程门阵列FPGA的特点，采用多个大容量可编程门阵列FPGA并行进行运算处理，实现了主控计算系统内部性能的改进。

本发明的方法包括以下步骤，

采用至少一个计算单元HCU(Hyper Computing Unit，简称HCU)实现并行的运算；

其中计算单元HCU的运算是，

采用至少两个大容量可编程门阵列FPGA进行基本计算逻辑的并行处理，大容量可编程门阵列领域中是指百万门级；

图1所示的是实现本发明方法的装置，包括，

高性能计算单元HCU：是进行并行计算的基本单元，可以根据计算量的大小在本装置中配备多个。

PCI/PCI-x/PCI-E/网络/LVDS等通讯接口：完成计算单元HCU与主控计算设备之间的数据通讯接口，包括主控计算设备发送计算指令和参数给计算单元HCU，以及计算单元HCU可通过此接口将计算结果发给主控计算设备，同时也包括在计算过程中的一些必要的数据交互。

主控计算机或者嵌入式主控设备：控制计算单元HCU的运行，发送指令和参数给各个计算单元HCU，并接收各个计算单元HCU计算结果，并可进行进一步的分析。

计算单元HCU的实现方式如图2所示，主要包括：

多个大容量(百万门级)大容量可编程门阵列FPGA：完成基本计算逻辑的并行处理，并通过低压差分信号LVDS互相通讯，可将中间数据存储到外部RAM中；

外部RAM：存储大容量可编程门阵列FPGA计算的参数、中间变量和结果等；

高速低压差分信号LVDS：完成大容量可编程门阵列FPGA之间的高速数据传输；

PCI/PCI-x/PCI-E/网络/LVDS等通讯接口：接收主控计算设备的指令和参数，并将大容量可编程门阵列FPGA计算的结果通过所选择的通讯方式传输给主控计算设备。

本发明的工作过程如图3所示，

步骤01：主控计算机或嵌入式主控设备的初始化，包括主控设备的初始化以及必要的对于计算单元HCU驱动的初始化工作；

步骤02：主控计算机或嵌入式主控设备根据计算的需要将计算指令和计算参数分别发送给所需要的计算单元HCU单元，由计算单元HCU单元进行并行的计算；

步骤03：各计算单元HCU单元根据接收到的计算指令和参数进行并行的计算处理，各个计算单元HCU之间也是并行的；

步骤04：主控计算机或嵌入式主控设备接收各个计算单元HCU的计算数据，可进行进一步的处理；

步骤05：由主控计算机或嵌入式主控设备决定是否需要继续计算，如需要则分别准备针对各个计算单元HCU的计算指令和计算参数并执行步骤02，否则本流程结束。

计算单元HCU内部计算分析的步骤如图4所示，主要包括以下步骤：

步骤10：计算单元HCU接收来自主控计算机或嵌入式主控设备的计算指令和计算参数，准备进行计算处理；

步骤11：计算单元HCU调用相关的并行计算逻辑，并行的完成所需计算的逻辑算法；

步骤12：并行计算协调处理逻辑负责各个并行计算逻辑之间的协调处理，并进行数据的汇总和分发工作；

步骤13：计算结束，计算结果送至缓冲区自动传送给主控计算机或嵌入式主控设备；

步骤14：查询是否有新的指令正在等待，如果有，则执行步骤10作进一不处理，否则结束本流程。

将本发明的方法应用于等离子体的模拟计算中，由于计算量巨大，普通基于PC的计算平台无法满足要求，以前只能采用租用超级计算机的方法来进行计算，但是由于成本太高，因此采用本发明的方法进行计算分析，采用了一片由两块高容量FPGA组成的HCU单元，此单元通过64bit的PCI总线与一台PC机连接，完成核心的计算部分；并基于本发明的方法进行了算法的并行设计，并在HCU的FPGA中进行并行实现。和目前主流的PC平台(配置为Pentinum IV 2.8，1G内存，操作系统为SUSE9.0)相比，试验对比数据如下：

硬件配置	软件配置	等离子数量：512K	等离子数量：1G
硬件配置	软件配置	等离子数量：512K	等离子数量：1G	PIV2.8+1G DDR	SUSE9.0	每步耗时：350s	无法计算
PIV2.8+本发明的装置	SUSE9.0+本发明的方法实现	每步耗时：3s	每步耗时：1000s	PIV2.8+1G DDR	SUSE9.0	每步耗时：350s	无法计算

测试结果表明，本发明的方法实现了比主流PC快两个数量级的计算速度，计算性能提高两个数量级以上。

Claims

1.一种基于FPGA的动态可重构高性能运算方法，其特征在于，该方法包括以下步骤，

采用至少一个计算单元HCU实现并行的运算；

所述计算单元HCU的运算是，

2.一种实现权利要求1所述方法的装置，其特征在于，所述装置包括：

高速低压差分信号LVDS，连接于上述多个大容量可编程门阵列FPGA之间，用于实现上述多个大容量可编程门阵列FPGA之间的相互数据传输，