CN108776649A

CN108776649A - 一种基于cpu+fpga异构计算系统及其加速方法

Info

Publication number: CN108776649A
Application number: CN201810593724.XA
Authority: CN
Inventors: 彭福来; 于治楼; 陈乃阔
Original assignee: Shandong Chaoyue CNC Electronics Co Ltd
Current assignee: Shandong Chaoyue CNC Electronics Co Ltd
Priority date: 2018-06-11
Filing date: 2018-06-11
Publication date: 2018-11-09

Abstract

本发明公开一种基于CPU+FPGA异构计算系统，涉及异构计算技术领域，采用多个FPGA加速单元协同CPU主控单元完成同一计算任务；CPU主控单元负责逻辑判断、管理控制，对FPGA加速单元进行计算任务分配；FPGA加速单元负责对计算任务进行加速；FPGA加速单元内部划分为静态区域：负责实现PCIe‑DMA通信、SRIO通信、DDR控制；以及动态可重构区域：执行CPU主控单元下发的kernel函数，对计算任务进行加速。本发明针对不同的任务类型，实现对计算任务的并行加速处理与流水加速处理，能够大幅提升任务处理的吞吐率，缩短任务执行时间，极大提高计算机的计算性能。

Description

一种基于CPU+FPGA异构计算系统及其加速方法

技术领域

本发明涉及异构计算技术领域，具体的说是一种基于CPU+FPGA异构计算系统及其加速方法。

背景技术

大数据，是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据不适用随机分析法抽样调查，而采用所有数据进行分析处理。大数据具有如下特点：Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。

人工智能(Artificial Intelligence，简称AI)，是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新技术科学。人工智能是计算机科学的一个分支，目的在于生产出一种新的能以人类智慧相似的方式作出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。

网络安全是指网络系统的硬件、软件及其系统中的数据受到保护，不因偶然的或恶意的原因遭受到破坏、更好、泄露，系统连续可靠正常地运行，网络服务不中断。网络安全主要特性包括：保密性、完整性、可用性、可控性、可审查性。

上述大数据、人工智能、网络安全等领域对计算机的计算性能提出了较高要求，通过纵向提高CPU的处理性能已经遇到了制作工艺、功耗等技术瓶颈。为了进一步提高计算机的计算性能，CPU+协处理器的异构加速模式成为主流技术手段。

常用的协处理器有GPU、FPGA等加速器件，由于FPGA具有较高的性能功耗比，备受业界关注。传统的CPU+FPGA异构计算一般采用一个FPGA计算卡，加速能力有限，无法满足一些大型计算任务量的计算需求。因此，本发明提出了运用多个FPGA计算卡+CPU的异构计算系统，来克服目前使用一个FPGA计算卡加速性能受限的缺点，进一步提高计算机的计算性能以满足日益增加的计算需求。

发明内容

本发明针对目前技术发展的需求和不足之处，提供一种基于CPU+FPGA异构计算系统及其加速方法。

本发明所述一种基于CPU+FPGA异构计算系统，解决上述技术问题采用的技术方案如下：所述基于CPU+FPGA异构计算系统采用OpenCL编程模型进行编程；其系统架构包括：CPU主控单元和若干FPGA加速单元；所述FPGA加速单元通过PCIe-DMA总线与CPU主控单元互联通信；若干FPGA加速单元协同CPU主控单元完成同一计算任务，

所述CPU主控单元，负责逻辑判断、管理控制，对FPGA加速单元进行计算任务分配；

所述FPGA加速单元，设置多个，负责对计算任务进行加速；多个FPGA加速单元之间采用SRIO总线互联通信；

所述FPGA加速单元内部划分为静态区域、动态可重构区域两部分；所述静态区域，负责实现PCIe-DMA通信、SRIO通信、DDR控制器功能；所述动态可重构区域，用来执行CPU主控单元下发的kernel函数，对计算任务进行加速。

具体的，所述CPU主控单元下发的kernel函数采用离线编译方式进行事先编译，生成FPGA加速单元可执行文件；所述CPU主控单元通过OpenCL的运行支持库实现FPGA加速单元可执行文件的下发。

具体的，所述FPGA加速单元配置成多种加速模式，包括：并行加速模式、流水加速模式、流水与并行混合加速模式；

所述FPGA加速单元的并行加速模式：每个FPGA加速单元内部部署多个相同的算法模块kernel，待处理数据通过CPU主控单元进行管理，并下发到FPGA加速单元，算法模块并行执行对数据并行处理，并将处理结果发送给CPU主控单元进行整合；

所述FPGA加速单元的流水加速模式：每个FPGA加速单元内部部署不同的算法模块kernel，算法模块之间具有逻辑级联关系，每一个算法模块将处理完的数据输出到下一级算法模块，下一级算法模块接收上一级算法模块的输出数据，并对数据进一步处理；每一个算法模块处理完本地数据后，通过中断的方式通知下一级算法模块，以接收新的处理数据；

所述FPGA加速单元的流水与并行混合加速模式：同一FPGA加速单元内部部署多个相同的算法模块kernel，不同FPGA加速单元内部部署不同的算法模块；上一级FPGA加速单元对数据进行并行处理，并将结果传输给下一级FPGA加速单元进行进一步处理。

具体的，所述CPU主控单元与FPGA加速单元之间采用PCIe 3.0x8总线进行通信；所述CPU主控单元通过PCIe Switch对PCIe接口进行扩展，所述FPGA加速单元连接到PCIeSwitch扩展出的PCIe接口上；

所述FPGA加速单元提供SRIO x4接口，通过SRIO x4接口实现与其他FPGA异构计算单元的通信；通过该互联结构，多个FPGA加速单元之间实现计算任务的流水并行处理。

具体的，所述FPGA加速单元采用Xilinx KU115芯片；所述FPGA加速单元内部部署的算法模块kernel，采用C/C++高级语言进行开发，或者采用RTL传统方式进行开发；所述FPGA加速单元内部算法模块kernel之间采用pipe进行数据传输。

本发明还提出了一种基于CPU+FPGA异构计算系统的加速方法，主要内容包括：

采用多个FPGA加速单元协同CPU主控单元完成同一计算任务；多个FPGA加速单元协同CPU主控单元形成CPU+FPGA异构计算系统，该CPU+FPGA异构计算系统采用OpenCL编程模型进行编程；所述FPGA加速单元通过PCIe-DMA总线与CPU主控单元互联通信；多个FPGA加速单元之间采用SRIO总线互联通信；

由所述CPU主控单元负责逻辑判断、管理控制、对FPGA加速单元进行计算任务分配；由所述FPGA加速单元对计算任务进行加速，并且FPGA加速单元内部分为静态区域、动态可重构区域；通过FPGA加速单元的静态区域进行PCIe-DMA通信、SRIO通信、DDR控制；通过FPGA加速单元的动态可重构区域执行CPU主控单元下发的kernel函数，对计算任务进行加速。

具体的，将FPGA加速单元配置成多种加速模式，包括：并行加速模式、流水加速模式、流水与并行混合加速模式；

所述并行加速模式的流程包括：所有FPGA加速单元中部署多个相同的算法模块kernel，算法模块之间并行执行，CPU主控单元作为管理单元，将待处理的不同数据段下发到不同的算法模块进行处理，算法模块并行处理各数据段，并将处理结果返回到CPU主控单元，CPU主控单元对处理结果进行整合；

所述流水加速模式的流程包括：每个FPGA内部署不同的算法模块kernel，算法模块之间具有逻辑级联关系，CPU主控单元将待处理数据下发到第一个算法模块进行处理，第一个算法模块将处理结果输入到第二个算法模块进一步处理，第二个算法模块再传给第三个算法模块，以此类推，当每一个算法模块处理完成后，以中断的方式通知上一级算法模块，以接收新的处理数据；

所述流水与并行混合加速模式的流程包括：同一FPGA加速单元内部部署多个相同的算法模块kernel，不同FPGA加速单元部署不同的算法模块，上一级FPGA加速单元对数据进行并行处理，并将处理结果传输给下一级FPGA加速单元，进行进一步处理。

本发明所述一种基于CPU+FPGA异构计算系统及其加速方法，与现有技术相比具有的有益效果是：本发明采用多个FFGP加速单元协同完成同一个计算任务；针对不同类型的计算任务需求，将FPGA加速单元配置成并行加速模式、流水加速模式、流水与并行混合加速模式，实现对计算任务的并行加速处理与流水加速处理相结合的计算方式，能够大幅提升任务处理的吞吐率，缩短任务执行时间，进而较大幅度的提高计算机的计算性能。

附图说明

为了更清楚的说明本发明实施例或现有技术中的技术内容，下面对本发明实施例或现有技术中所需要的附图做简单介绍。显而易见的，下面所描述附图仅仅是本发明的一部分实施例，对于本领域技术人员来说，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，但均在本发明的保护范围之内。

附图1为实施例2所述FPGA加速单元的并行加速模式的示意图；

附图2为实施例2所述FPGA加速单元的流水加速模式的示意图；

附图3为实施例2所述FPGA加速单元的流水与并行混合加速模式的示意图。

具体实施方式

为使本发明的技术方案、解决的技术问题和技术效果更加清楚明白，以下结合具体实施例，对本发明的技术方案进行清查、完整的描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下获得的所有实施例,都在本发明的保护范围之内。

实施例1:

本实施例提出一种基于CPU+FPGA异构计算系统，该CPU+FPGA异构计算系统采用OpenCL编程模型进行编程；其系统架构包括：CPU主控单元和若干FPGA加速单元；所述FPGA加速单元通过PCIe-DMA总线与CPU主控单元互联通信；

所述CPU主控单元，负责逻辑判断、管理控制，对FPGA加速单元进行计算任务分配；所述FPGA加速单元，设置多个，负责对计算任务进行加速；多个FPGA加速单元之间采用SRIO总线互联通信；

所述FPGA加速单元内部划分为静态区域、动态可重构区域两部分；所述静态区域，负责实现PCIe-DMA通信、SRIO通信、DDR控制器等功能；所述动态可重构区域，用来执行CPU主控单元下发的kernel函数，对计算任务进行加速。用户可以根据不同的应用需求，将不同的kernel函数通过静态区域下载到动态可重构区域，从而实现不同的应用加速需求。

同时，所述CPU主控单元下发的kernel函数采用离线编译方式进行事先编译，生成FPGA加速单元可执行文件；CPU主控单元通过OpenCL的运行支持库实现FPGA加速单元可执行文件的下发。并且，所述CPU主控单元将任务处理完成后，以中断的形式通知CPU主控模块。

本实施例基于CPU+FPGA异构计算系统，采用多个FPGA加速单元协同CPU主控单元完成同一计算任务，FPGA加速单元内部划分为静态区域、动态可重构区域，可以根据不同的应用需求实现不同的应用加速；与传统CPU+FPGA异构计算系统的计算方式相比，克服了使用单一FPGA计算卡计算性能有限的缺陷；能够提高计算任务处理的吞吐率，缩短任务执行时间，提高计算机的计算性能。

本发明还提出了一种基于CPU+FPGA异构计算系统的加速方法，其技术方案与实施例1基于CPU+FPGA异构计算系统的技术方案可以相互参考。该基于CPU+FPGA异构计算系统的加速方法的主要内容包括：

采用多个FPGA加速单元协同CPU主控单元形成CPU+FPGA异构计算系统，该CPU+FPGA异构计算系统采用OpenCL编程模型进行编程；FPGA加速单元通过PCIe-DMA总线与CPU主控单元互联通信；多个FPGA加速单元之间采用SRIO总线互联通信；

由CPU主控单元负责逻辑判断、管理控制、对FPGA加速单元进行计算任务分配；由FPGA加速单元对计算任务进行加速，并且FPGA加速单元内部分为静态区域、动态可重构区域；通过FPGA加速单元的静态区域进行PCIe-DMA通信、SRIO通信、DDR控制；通过FPGA加速单元的动态可重构区域执行CPU主控单元下发的kernel函数，对计算任务进行加速。

本实施例一种基于CPU+FPGA异构计算系统的加速方法，采用多个FPGA加速单元协同CPU主控单元完成同一计算任务，与传统CPU+FPGA异构计算系统的计算方式相比，克服了使用单一FPGA计算卡计算性能有限的缺陷，能够提高计算任务处理的吞吐率，缩短任务执行时间，提高计算机的计算性能。

实施例2：

本实施例提出的一种基于CPU+FPGA异构计算系统，是本发明的另一个具体实施方式，在实施例1基于CPU+FPGA异构计算系统的基础上，为了满足不同类型的计算任务需求，所述FPGA加速单元配置成多种加速模式，包括：并行加速模式、流水加速模式、流水与并行混合加速模式；实现对计算任务的并行加速处理与流水加速处理，能够大幅提升任务处理的吞吐率。

本实施例基于CPU+FPGA异构计算系统，以三个FPGA加速单元协同CPU主控单元为例，来详细说明本发明的技术方案和技术优点。

所述FPGA加速单元的并行加速模式，具体的内容包括：

每个FPGA加速单元内部部署多个相同的算法模块(kernel)，待处理数据通过CPU主控单元进行管理，并下发到FPGA加速单元，算法模块并行执行对数据并行处理，并将处理结果发送给CPU主控单元进行整合。

所述FPGA加速单元的流水加速模式，具体的内容包括：

每个FPGA加速单元内部部署不同的算法模块(kernel)，算法模块之间具有逻辑级联关系，每一个算法模块将处理完的数据输出到下一级算法模块，下一级算法模块接收上一级算法模块的输出数据，并对数据进一步处理；每一个算法模块处理完本地数据后，通过中断的方式通知下一级算法模块，以接收新的处理数据；所述流水加速模式的各计算模块kernel运算量(执行时间)要尽量一致，以保证流水效率。

所述FPGA加速单元的流水与并行混合加速模式，具体的内容包括：

同一FPGA加速单元内部部署多个相同的算法模块(kernel)，不同FPGA加速单元内部部署不同的算法模块，形成FPGA加速单元内部并行加速模式、流水加速模式的混合加速模式；上一级FPGA加速单元对数据进行并行处理，并将结果传输给下一级FPGA加速单元进行进一步处理。

本实施例基于CPU+FPGA异构计算系统，所述CPU主控单元与FPGA加速单元之间采用PCIe 3.0x8总线进行通信；所述CPU主控单元通过PCIe Switch对PCIe接口进行扩展。所述FPGA加速单元连接到PCIe Switch扩展出的PCIe接口上。

并且，所述FPGA加速单元提供SRIO x4接口，通过SRIO x4接口实现与其他FPGA异构计算单元的通信；通过该互联结构，多个FPGA加速单元之间实现计算任务的流水并行处理。所述FPGA加速单元采用Xilinx KU115芯片；FPGA加速单元内部部署的算法模块kernel，采用C/C++高级语言进行开发，或者采用RTL传统方式进行开发；FPGA加速单元内部算法模块kernel之间采用pipe进行数据传输。

本实施例基于CPU+FPGA异构计算系统，采用多个FPGA加速单元协同完成同一计算任务，针对不同的任务类型，可将FPGA加速模式配置成并行加速模式、流水加速模式以及流水与并行混合加速模式，实现对计算任务的并行加速处理与流水加速处理，能够大幅提升任务处理的吞吐率，缩短任务执行时间。

本实施例还提出了一种基于CPU+FPGA异构计算系统的加速方法，其技术方案与实施例2基于CPU+FPGA异构计算系统的技术方案可以相互参考。在实施例1基于CPU+FPGA异构计算系统的加速方法的基础上，为了满足不同类型的计算任务需求，将FPGA加速单元配置成多种加速模式，包括：并行加速模式、流水加速模式、流水与并行混合加速模式；实现对计算任务的并行加速处理与流水加速处理，能够大幅提升任务处理的吞吐率。

附图1为实施例2所述FPGA加速单元的并行加速模式的示意图，如附图1所示，所有FPGA加速单元中部署多个相同的算法模块kernel，kernel之间并行执行，CPU主控单元作为管理单元，将待处理的不同数据段下发到不同的kernel进行处理，kernel并行处理各数据段，并将处理结果返回到CPU主控单元，CPU主控单元对处理结果进行整合。

附图2为实施例2所述FPGA加速单元的流水加速模式的示意图，如附图2所示，每个FPGA内部署不同的算法模块(kernel)，算法模块之间具有逻辑级联关系，CPU主控单元将待处理数据下发到第一个算法模块kernel 1进行处理，kernel 1将处理结果输入到kernel 2进一步处理，kernel 2再传给kernel 3，以此类推，当每一个kernel处理完成后，以中断的方式通知上一级kernel，以接收新的处理数据，从而保证各kernel都能处于忙碌状态。

附图3为实施例2所述FPGA加速单元的流水与并行混合加速模式的示意图，如附图3所示，同一FPGA加速单元内部部署多个相同的算法模块kernel，不同FPGA加速单元部署不同的kernel，上一级FPGA加速单元对数据进行并行处理，并将处理结果传输给下一级FPGA加速单元，进行进一步处理。从而形成FPGA加速单元内部并行加速模式、FPGA加速单元之间流水加速模式的混合加速模式。

以上应用具体个例对本发明的原理及实施方式进行了详细阐述，这些实施例只是用于帮助理解本发明的核心技术内容，并不用于限制本发明的保护范围，本发明的技术方案不限制于上述具体实施方式内。基于本发明的上述具体实施例，本技术领域的技术人员在不脱离本发明原理的前提下，对本发明所作出的任何改进和修饰，皆应落入本发明的专利保护范围。

Claims

1.一种基于CPU+FPGA异构计算系统，其特征在于，采用OpenCL编程模型进行编程；其系统架构包括：CPU主控单元和若干FPGA加速单元；所述FPGA加速单元通过PCIe-DMA总线与CPU主控单元互联通信；若干FPGA加速单元协同CPU主控单元完成同一计算任务，

2.根据权利要求1所述一种基于CPU+FPGA异构计算系统，其特征在于，所述CPU主控单元下发的kernel函数采用离线编译方式进行事先编译，生成FPGA加速单元可执行文件；所述CPU主控单元通过OpenCL的运行支持库实现FPGA加速单元可执行文件的下发。

3.根据权利要求2所述一种基于CPU+FPGA异构计算系统，其特征在于，所述FPGA加速单元配置成多种加速模式，包括：并行加速模式、流水加速模式、流水与并行混合加速模式；

4.根据权利要求3所述一种基于CPU+FPGA异构计算系统，其特征在于，所述CPU主控单元与FPGA加速单元之间采用PCIe 3.0x8总线进行通信；所述CPU主控单元通过PCIe Switch对PCIe接口进行扩展，所述FPGA加速单元连接到PCIe Switch扩展出的PCIe接口上；

5.根据权利要求4所述一种基于CPU+FPGA异构计算系统，其特征在于，具体的，所述FPGA加速单元采用Xilinx KU115芯片；所述FPGA加速单元内部部署的算法模块kernel，采用C/C++高级语言进行开发，或者采用RTL传统方式进行开发；所述FPGA加速单元内部算法模块kernel之间采用pipe进行数据传输。

6.一种基于CPU+FPGA异构计算系统的加速方法，其特征在于，采用多个FPGA加速单元协同CPU主控单元完成同一计算任务；多个FPGA加速单元协同CPU主控单元形成CPU+FPGA异构计算系统，该CPU+FPGA异构计算系统采用OpenCL编程模型进行编程；所述FPGA加速单元通过PCIe-DMA总线与CPU主控单元互联通信；多个FPGA加速单元之间采用SRIO总线互联通信；

7.根据权利要求6所述一种基于CPU+FPGA异构计算系统的加速方法，其特征在于，所述CPU主控单元下发的kernel函数采用离线编译方式进行事先编译，生成FPGA加速单元可执行文件；所述CPU主控单元通过OpenCL的运行支持库实现FPGA加速单元可执行文件的下发。

8.根据权利要求7所述一种基于CPU+FPGA异构计算系统的加速方法，其特征在于，将FPGA加速单元配置成多种加速模式，包括：并行加速模式、流水加速模式、流水与并行混合加速模式；

9.根据权利要求8所述一种基于CPU+FPGA异构计算系统的加速方法，其特征在于，所述CPU主控单元与FPGA加速单元之间采用PCIe 3.0x8总线进行通信；所述CPU主控单元通过PCIe Switch对PCIe接口进行扩展，所述FPGA加速单元连接到PCIeSwitch扩展出的PCIe接口上；

10.根据权利要求9所述一种基于CPU+FPGA异构计算系统的加速方法，其特征在于，具体的，所述FPGA加速单元采用Xilinx KU115芯片；所述FPGA加速单元内部部署的算法模块kernel，采用C/C++高级语言进行开发，或者采用RTL传统方式进行开发；所述FPGA加速单元内部算法模块kernel之间采用pipe进行数据传输。