CN108804376B

CN108804376B - 一种基于gpu和fpga的小型异构处理系统

Info

Publication number: CN108804376B
Application number: CN201810611918.8A
Authority: CN
Inventors: 申学晋; 王允森; 崔伟光; 胡杨; 蔡奇; 安克
Original assignee: Shandong Institute of Space Electronic Technology
Current assignee: Shandong Institute of Space Electronic Technology
Priority date: 2018-06-14
Filing date: 2018-06-14
Publication date: 2021-11-19
Anticipated expiration: 2038-06-14
Also published as: CN108804376A

Abstract

本发明公开了一种基于GPU和FPGA的异构处理系统，两个GPU SOC模块通过PCIE X4连接到FPGA模块上，并作为FPGA的两个PCIE从设备进行数据交互；两个GPU SOC模块通过内设的以太网接口连接到所述千兆以太网交换模块上；FPGA模块通过PCIE X4连接到主机上，使得两个GPU SOC模块实现与主机之间的数据交互；千兆以太网交换模块通过CPCIE的网络接口连接到主机上，实现两个GPU SOC模块与主机之间的千兆网以太数据交互；具有功耗低、运算性能强、结构简单，设计灵活、开发简单，异构系统可级联以及适用场景多的特点。

Description

一种基于GPU和FPGA的小型异构处理系统

技术领域

本发明属于异构计算技术领域，具体涉及一种基于GPU和FPGA的小型异构处理系统。

背景技术

随着电子技术和信息技术的不断发展，处理器需要处理的数据量越来越大，这对系统的处理能力挑战越来越大，现有的处理系统已经无法满足当前任务需求，亟需研究新的高性能数据处理系统配合主机完成数据处理任务。

数据处理加速板卡作为一种小型异构数据处理系统，就是为了缓解工控机主板CPU运行图像处理算法的压力，作为主板CPU的协处理器完成数据处理加速的功能。数据处理加速板安装在数据处理工控机或工作站中，主要完成各种数据处理算法的加速功能，并为上位机软件提供算法调用接口。上位机软件将待处理的原始数据传输给数据处理加速板，经过加速板运行算法处理后，将结果数据传回上位机软件，以实现加速功能。

目前常用的异构数据处理系统架构主要包括：ARM、DSP、FPGA和GPU等。基于ARM的异构数据处理系统易于开发且成本低，但加速效果难以保证。基于DSP的数据处理系统软硬件设计灵活，可以适应多种主板通信接口，但二次开发相对比较复杂。目前流行的DSP+FPGA处理系统用DSP完成数据的复杂算法处理，FPGA进行数据的传输，但一般需要级联多个DSP，往往需要多个处理系统同时插入到主机中运行，且DSP对大型矩阵运算加速效果有限。采用FPGA级联的方式可以获得较好的加速效果，但FPGA本身成本较高。商业GPU是一种专业对图形图像处理的加速设备，加速比可观，但其功耗同样比较高，且使用条件相对苛刻。

发明内容

有鉴于此，本发明的目的是提供一种基于GPU和FPGA的小型异构处理系统，具有功耗低、运算效率高的特点。

本发明的一种基于GPU和FPGA的异构处理系统，包括两个GPU SOC模块、一个FPGA模块以及一个千兆以太网交换模块；

所述两个GPU SOC模块通过PCIE X4连接到FPGA模块上，并作为FPGA的两个PCIE从设备进行数据交互；所述两个GPU SOC模块通过内设的以太网接口连接到所述千兆以太网交换模块上；

所述FPGA模块通过PCIE X4连接到主机上，使得两个GPU SOC模块实现与主机之间的数据交互；

所述千兆以太网交换模块通过CPCIE的网络接口连接到主机上，实现两个GPU SOC模块与主机之间的千兆网以太数据交互。

进一步的，包括供电模块，采用CPCIE连接器上提供的12V电源为GPU模块供电。

较佳的，所述GPU SOC模块采用NVIDIA TegraX系列计算模块；所述FPGA模块采用Xilinx Virtex7系列FPGA；所述千兆以太网交换模块采用BCM5389千兆以太网交换芯片。

进一步的，每个所述GPU SOC模块还设置有USB接口和HDMI接口。

较佳的，所述FPGA模块带有不小于512MB的DDR3存储器。

较佳的，所述FPGA模块采用标准AXI接口；FPGA模块内设置DMA控制器和AXIS接口转换逻辑模块；FPGA模块的每个PCIE端口均对应一个DMA控制器；所述AXIS接口转换逻辑模块，负责将DMA控制器读写操作的数据流转换为AXI接口的数据流。

较佳的，所述DMA控制器用于将数据流在主机与所述两个GPU SOC模块之间实现以DMA方式实现读写操作。

较佳的，所述FPGA模块用于数据转发和预处理；所述GPU SOC模块用于数据的并行运算。

本发明具有如下有益效果：

(1)功耗低。架构中最耗电的为两个GPU模块，本发明架构中的GPU采用NVIDIA的TegraX嵌入式图像计算卡，功耗低，其中Tegra X1功耗低于5W，Tegra X2功耗于7.5W，低于普通CPU和商业GPU。

(2)运算性能强。该架构中包含两个GPU核心模块，若采用Tegra X1，则每片核心模块的处理能力不低于1T-Flops，而采用Tegra X2，则处理能力不低于1.5T-Flops，远高于现在流行的CPU及DSP处理器。

(3)可作为“大型ASIC”进行程序的固化，完成快速图像处理。采用本架构设计的PCIE异构系统，可以实现GPU Direct技术，即将程序固化到GPU中，并可通过内存直接进行数据的存取。

(4)结构简单，设计灵活。采用本架构搭建小型异构处理平台，可设计为标准6U尺寸，两个GPU，一个FPGA；也可设计为3U尺寸，一个GPU和一个FPGA。可设计为CPCIE板卡，插入工控机，通过CPCIE接口供电，也可外设独立电源，进行开发调试。架构中的核心模块包括FPGA和GPU，可根据需要选择，FPGA可选Virtex7系列，GPU可选NVIDIA TegraX系列。

(5)开发简单，异构系统可级联。本架构为每个GPU SOC设计了单独的USB接口和HDMI接口，可连接外设，每个GPU可独立开发，通过FPGA和网络接口和另外GPU进行数据交换和处理。同时采用本架构设计的处理模块可通过OpenVPX进行级联扩展，形成高速计算系统。

(6)适用场景：采用本架构设计基于CPU+FPGA+GPU的小型板卡，可以插入到PCIE主机中，进行图像及视频处理系统、目标识别系统的加速；可挂载到无人机，通过连接相机和摄像头，完成航拍数据的实时处理或目标识别等；可部署到各类地面站进行图像的预处理；可独立完成或辅助完成医学图像处理、三维情景重建、汽车导航等。同时该系统可应用于智能故障诊断、数据传输、大数据处理等。

附图说明

图1为本发明基于GPU和FPGA的小型异构处理系统架构图；

图2为本发明系统架构的时钟网络设计；

图3为本发明系统架构中的FPGA逻辑框图；

图4为本发明系统架构中PCIE接口逻辑内部结构；

图5为原始测试图像；

图6为采用本发明系统进行引导滤波后的图像。

具体实施方式

下面结合附图并举实施例，对本发明进行详细描述。

本发明系统架构主要包含两个GPU SOC模块、一个FPGA模块、一个千兆以太网交换模块、供电模块，外设接口包括两个USB接口、两个HDMI接口、CPCIE接口、RJ45网络，其中CPCIE接口包括数据交换接口、网络接口和供电接口。GPU中包含ARM处理器，进行任务的协调和分配；FPGA作为辅助协处理器，主要进行数据的转发和预处理；而GPU作为协处理器，进行数据的大型运算，如图像或视频的拼接、视频的编解码、视频融合、目标识别与跟踪、机器学习等。

本发明系统架构的GPU模块须采用NVIDIA TegraX系列计算模块。TegraX系列模块是GPU SOC处理器，其内含Maxell或Pascal架构GPU处理核心以及ARM架构CPU处理器核心。FPGA模块采用Xilinx Virtex7系列FPGA，该系列FPGA上带有不少于三个PCIE硬核，并含有不小于512M的DDR3内存。

架构中的两个GPU模块，通过PCIE X4连接到FPGA模块上，这两个GPU模块作为FPGA的两个PCIE从设备进行数据交互。若该系统通过PCIE接口连接到主机上，即FPGA通过PCIE连接到主机上，则主机与两个GPU模块均作为PCIE根节点连接到FPGA上，FPGA程序能够实现三个PCIE从设备，并可通过PCIE接口实现三个PCIE根节点之间的数据交互。

架构中的GPU模块主要用于实现各种图像处理、目标识别及深度学习算法，如图像的预处理：去噪、增强、复原、几何变换、亮度变换、对比度变换等；目标的检测、识别、跟踪算法，卷积神经网络、LeNet、AlexNet、GoogleNet等深度学习算法。通过安装OpenCV、Caffe、TensorFlow、OpenGL等工具，辅助完成图像处理、图形处理、目标识别等功能。

架构中设置1片千兆以太网交换芯片，板上的两个GPU核心模块的千兆以太网接口均连接到该以太网交换芯片上。同时将以太网交换芯片的两个端口分别引出到CPCIE外部接口实现主机与系统中GPU模块之间通过千兆以太网的数据通信。通过以太网交换芯片，可以将多个GPU互连，从而在局域网内、互联网上实现云计算、物联网等技术。另外，千兆以太网交换芯片还可以利用RJ45接口与主机的其它接口相连，或者与其它网络设备连接。

架构中供电模块直接采用CPCIE连接器上提供的12V电源为GPU模块供电，GPU模块的外围接口(USB、HDMI)需要5V、3.3V和1.8V供电，本架构设计采用一片Linear的LTM4644芯片提供这三种电源。FPGA模块所需电流较大，需要提供1V核电压，本架构设计采用BMR451系列DC-DC电源模块满足FPGA供电需求。

本发明系统架构设计三种时钟，分别是FPGA内部逻辑所需基础时钟，FPGA的PCIE接口所需时钟，千兆以太网交换芯片和PHY芯片所需时钟。

本架构为每个GPU SOC模块设计了USB接口和HMDI接口，USB接口可直接连接鼠标、键盘、U盘等外设，HDMI接口可以通过HDMI线缆或其他转换接线缆连接显示器。通过连接外接设备，可以对GPU的ARM模块进行数据导入导出、工具安装、程序修改和编译。

实施例：按照图1所示的本发明的异构处理系统架构图进行设计并生产的标准6U尺寸的图像处理加速板卡，具体分为核心硬件的选择、硬件设计、逻辑设计和驱动设计。

1核心硬件选择

本发明架构中的核心为两个GPU模块和一个FPGA模块。这里选用Xilinx公司Virtex7系列的XC7V585T FPGA构建了一个PCIE交换架构，该FPGA上带有不小于512MB的DDR3存储器。GPU模块则选择两片NVDIA公司的高性能处理器Tegra X1(简称TX1)，它拥有1T-Flops运算性能的Maxwell架构256核心GPU，64位四核心ARM A57CPU，板上带有4GBLPDDR4内存，16GB eMMC存储空间，运行Linux for Tegra系统。

另外，以太网交换芯选择BCM5389千兆以太网交换芯片，以实现主控板与TX1、两个TX1之间的千兆以太网数据通信。

2硬件设计

(1)GPU模块供电设计

根据设计，需要为TX1模块提供12V供电，这里直接采用CPCIE连接器上提供的12V电源为TX1模块供电。TX1模块的外围电路需要5V、3.3V和1.8V供电，这里采用一片Linear公司的LTM4644芯片提供这三种电源。

(2)FPGA供电设计

FPGA选用Xilinx公司的XC7V585T，需要为该FPGA提供1V核电压，1.8V VCCIO和VCCAUX、3.3V VCCIO、1V和1.2V的MGT供电。FPGA的1V核电压所需电流较大，需要使用独立模块提供，这里采用了爱立信公司的BMR451系列DC-DC电源模块，该模块可提供最高40A的电流，可充分满足大规模逻辑开发的需求。FPGA的1.8V VCCIO和VCCAUX、3.3V VCCIO分别通过两个LTM4644模块提供，FPGA的1V和1.2V的MGT分别通过一个TI公司的TPS74401和凌特公司LTM4606模块提供。

(3)时钟网络设计

根据本发明系统架构设计的图像处理板卡有三种时钟，分别是FPGA内部逻辑所需基础时钟，FPGA的PCIE接口所需时钟，千兆以太网交换芯片和PHY芯片所需时钟。

系统架构的时钟网络设计如图2所示。这里FPGA内部逻辑所需基础时钟采用200M差分时钟，经过FPGA内部PLL分别产生用于FPGA内部接口逻辑、DDR控制器等相关模块所需的时钟。FPGA实现的三个PCIE接口均为从设备接口，接口所需时钟均可从根节点设备获取，因此，板上不在单独提供PCIE接口所需的时钟，时钟可从FMC接插件和CPCIE接插件上获取

千兆以太网交换芯片和PHY芯片还需要25M时钟，可按照芯片要求选用25MHz单端时钟芯片通过一个1转4的时钟驱动器接入千兆以太网交换芯片和PHY芯片。

(4)外部接口设计

根据本发明系统架构设计的图像处理板卡，其外部接口分为前面板接口和后部连接器接口，后部连接器接口按照CPCI-E中的规范连接。前面板接口根据分别设计USB OTG调试接口，USB3.0接口，HDMI接口，千兆以太网接口。

3逻辑设计

根据本发明系统架构设计的图像处理板卡，FPGA选用Xilinx Virtex7系列FPGA，带有不少于3个PCIE硬核。FPGA内部逻辑模块采用标准AXI接口，保证能够嵌入用户算法模块。FPGA逻辑框图如图3所示，内部逻辑功能设计如下：

(1)每个PCIE端口通过FPGA实现DMA控制器，实现主机的DMA读写操作接口。读写操作采用全双工模式，单向带宽不小于400MB/s。

(2)DMA控制器连接DMA控制器到AXIS接口转换逻辑模块，负责将DMA读写操作的数据流转换为AXI接口的数据流。数据缓存也在该模块中实现，数据缓存在硬件上采用DDR3实现，在FPGA逻辑中实现为AXI接口的DDR控制器。

(3)在FPGA内部实现一个AXIS接口交换模块，实现将三个PCIE端口数据的交换，AXIS交换模块支持固定交换，即三个端口的数据流完全确认，不支持动态配置。目前实现为主机分别与板上两个TX1核心模块实现读写操作，不支持两个TX1模块之间通过PCIE的数据交换。

(4)PCIE接口逻辑采用Xilinx第三方IP核实现，该IP基于AXI标准接口，内部实现了PCIE DMA相关操作。PCIE接口逻辑内部结构如图4所示。

4逻辑设计

根据本发明系统架构设计的图像处理板卡，设计的驱动程序支持Windows7(32Bit/64Bit)/Linux/Unix操作系统，CPU端驱动程序支持如下功能：

(1)设备硬复位操作。完成硬件复位与初始化，硬复位包括对板上两片TX1核心模块的复位与程序重新加载。复位PCIE接口。

(2)设备软复位操作。实现对FPGA中除PCIE接口外的其他逻辑模块的复位，使各个模块处于初始状态，软复位主要用于清除FPGA内部暂存的数据，以便开始新的数据传输。

(3)寄存器读写操作。包括读取FPGA内部的状态寄存器和配置寄存器以及向配置寄存器中写入配置数据。各处理器模块可通过状态寄存器获取其他其他处理器的状态信息。系统启动完成初始化，各处理器模块均需将自身的状态信息写入到配置寄存器，由FPGA将处理器状态信息收集并通过状态寄存器反映给处理器。

(4)DMA读写操作。通过DMA方式与板上的TX1核心模块实现数据收发。DMA读写函数需要传入的参数由读写目标地址、数据长度、读写缓冲区地址。另外，DMA读写操作支持阻塞方式与非阻塞方式。采用阻塞方式读写，调用DMA读写操作的线程在DMA操作完成前处于阻塞状态，线程将被调度处处理器，等待DMA操作完成后才能返回到就绪状态，等待CPU调度。采用非阻塞方式读写，调用DMA读写操作会立刻得到返回，线程在下一次调用DMA读写操作前必须查询前一次操作是否完成，如果没有完成，不能调用新的DMA读写操作，否则可能造成系统死机。

TX1模块驱动程序支持如下功能：

(1)设备软复位操作。实现对FPGA中除PCIE接口外的其他逻辑模块的复位，使各个模块处于初始状态，软复位主要用于清除FPGA内部暂存的数据，以便开始新的数据传输。

(2)寄存器读写操作。包括读取FPGA内部的状态寄存器和配置寄存器以及向配置寄存器中写入配置数据。各处理器模块可通过状态寄存器获取其他其他处理器的状态信息。系统启动完成初始化，各处理器模块均需将自身的状态信息写入到配置寄存器，由FPGA将处理器状态信息收集并通过状态寄存器反映给处理器。

(3)DMA读写操作。通过DMA方式与板上的CPU模块实现数据收发。DMA读写函数需要传入的参数由读写目标地址、数据长度、读写缓冲区地址。另外，DMA读写操作支持阻塞方式与非阻塞方式。采用阻塞方式读写，调用DMA读写操作的线程在DMA操作完成前处于阻塞状态，线程将被调度处处理器，等待DMA操作完成后才能返回到就绪状态，等待CPU调度。采用非阻塞方式读写，调用DMA读写操作会立刻得到返回，线程在下一次调用DMA读写操作前必须查询前一次操作是否完成，如果没有完成，不能调用新的DMA读写操作，否则可能造成系统死机

寄存器读写设计：FPGA内部的寄存器以内存映射的方式映射到操作系统中，程序可以像访问内存地址一样访问FPGA内部的寄存器。

DMA读写设计：对于CPU与TX之间的数据交互，由于数据量较大，需要采用DMA方式进行数据读写，为了提高DMA读写的速度，采用的Scatter-Gather模式。驱动程序将一个地址链表传给DMA控制器，由DMA控制器使用链表中的地址完成DMA读写操作。

目前，已对图像处理板卡进行了实验验证，对2000×1000图像使用引导滤波算法进行去雾处理，在Intel i3CPU上运行时间为8800ms左右，在图像处理板卡上运行时间为500ms左右，可以达到15倍左右加速比，原始测试图像和去雾后的图像分别如图5、图6所示。

此外，在该图像处理板卡上进行故障诊断、深度学习、视频的编解码、目标识别与跟踪，均获得了5倍以上的加速效果，说明采用本发明设计的图像处理板卡具有良好的加速性能。经过测试，该采用本发明描述的小型异构处理系统架构生产加工的图像处理板卡，典型情况下功耗仅20W，最坏情况也不超过35W。

综上所述，以上仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于GPU和FPGA的异构处理系统，其特征在于，包括两个GPU SOC模块、一个FPGA模块以及一个千兆以太网交换模块；

2.如权利要求1所述的一种基于GPU和FPGA的异构处理系统，其特征在于，包括供电模块，采用CPCIE连接器上提供的12V电源为GPU模块供电。

3.如权利要求1所述的一种基于GPU和FPGA的异构处理系统，其特征在于，所述GPU SOC模块采用NVIDIA TegraX系列计算模块；所述FPGA模块采用Xilinx Virtex7系列FPGA；所述千兆以太网交换模块采用BCM5389千兆以太网交换芯片。

4.如权利要求1所述的一种基于GPU和FPGA的异构处理系统，其特征在于，每个所述GPUSOC模块还设置有USB接口和HDMI接口。

5.如权利要求1所述的一种基于GPU和FPGA的异构处理系统，其特征在于，所述FPGA模块带有不小于512MB的DDR3存储器。

6.如权利要求1所述的一种基于GPU和FPGA的异构处理系统，其特征在于，所述FPGA模块采用标准AXI接口；FPGA模块内设置DMA控制器和AXIS接口转换逻辑模块；FPGA模块的每个PCIE端口均对应一个DMA控制器；所述AXIS接口转换逻辑模块，负责将DMA控制器读写操作的数据流转换为AXI接口的数据流。

7.如权利要求6所述的一种基于GPU和FPGA的异构处理系统，其特征在于，所述DMA控制器用于将数据流在主机与所述两个GPU SOC模块之间实现以DMA方式实现读写操作。

8.如权利要求1所述的一种基于GPU和FPGA的异构处理系统，其特征在于，所述FPGA模块用于数据转发和预处理；所述GPU SOC模块用于数据的并行运算。