CN108804376B - 一种基于gpu和fpga的小型异构处理系统 - Google Patents

一种基于gpu和fpga的小型异构处理系统 Download PDF

Info

Publication number
CN108804376B
CN108804376B CN201810611918.8A CN201810611918A CN108804376B CN 108804376 B CN108804376 B CN 108804376B CN 201810611918 A CN201810611918 A CN 201810611918A CN 108804376 B CN108804376 B CN 108804376B
Authority
CN
China
Prior art keywords
fpga
gpu
module
processing system
interface
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810611918.8A
Other languages
English (en)
Other versions
CN108804376A (zh
Inventor
申学晋
王允森
崔伟光
胡杨
蔡奇
安克
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Institute of Space Electronic Technology
Original Assignee
Shandong Institute of Space Electronic Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Institute of Space Electronic Technology filed Critical Shandong Institute of Space Electronic Technology
Priority to CN201810611918.8A priority Critical patent/CN108804376B/zh
Publication of CN108804376A publication Critical patent/CN108804376A/zh
Application granted granted Critical
Publication of CN108804376B publication Critical patent/CN108804376B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/16Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs
    • G06F15/163Interprocessor communication
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/16Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs
    • G06F15/163Interprocessor communication
    • G06F15/173Interprocessor communication using an interconnection network, e.g. matrix, shuffle, pyramid, star, snowflake

Abstract

本发明公开了一种基于GPU和FPGA的异构处理系统,两个GPU SOC模块通过PCIE X4连接到FPGA模块上,并作为FPGA的两个PCIE从设备进行数据交互;两个GPU SOC模块通过内设的以太网接口连接到所述千兆以太网交换模块上;FPGA模块通过PCIE X4连接到主机上,使得两个GPU SOC模块实现与主机之间的数据交互;千兆以太网交换模块通过CPCIE的网络接口连接到主机上,实现两个GPU SOC模块与主机之间的千兆网以太数据交互;具有功耗低、运算性能强、结构简单,设计灵活、开发简单,异构系统可级联以及适用场景多的特点。

Description

一种基于GPU和FPGA的小型异构处理系统
技术领域
本发明属于异构计算技术领域,具体涉及一种基于GPU和FPGA的小型异构处理系统。
背景技术
随着电子技术和信息技术的不断发展,处理器需要处理的数据量越来越大,这对系统的处理能力挑战越来越大,现有的处理系统已经无法满足当前任务需求,亟需研究新的高性能数据处理系统配合主机完成数据处理任务。
数据处理加速板卡作为一种小型异构数据处理系统,就是为了缓解工控机主板CPU运行图像处理算法的压力,作为主板CPU的协处理器完成数据处理加速的功能。数据处理加速板安装在数据处理工控机或工作站中,主要完成各种数据处理算法的加速功能,并为上位机软件提供算法调用接口。上位机软件将待处理的原始数据传输给数据处理加速板,经过加速板运行算法处理后,将结果数据传回上位机软件,以实现加速功能。
目前常用的异构数据处理系统架构主要包括:ARM、DSP、FPGA和GPU等。基于ARM的异构数据处理系统易于开发且成本低,但加速效果难以保证。基于DSP的数据处理系统软硬件设计灵活,可以适应多种主板通信接口,但二次开发相对比较复杂。目前流行的DSP+FPGA处理系统用DSP完成数据的复杂算法处理,FPGA进行数据的传输,但一般需要级联多个DSP,往往需要多个处理系统同时插入到主机中运行,且DSP对大型矩阵运算加速效果有限。采用FPGA级联的方式可以获得较好的加速效果,但FPGA本身成本较高。商业GPU是一种专业对图形图像处理的加速设备,加速比可观,但其功耗同样比较高,且使用条件相对苛刻。
发明内容
有鉴于此,本发明的目的是提供一种基于GPU和FPGA的小型异构处理系统,具有功耗低、运算效率高的特点。
本发明的一种基于GPU和FPGA的异构处理系统,包括两个GPU SOC模块、一个FPGA模块以及一个千兆以太网交换模块;
所述两个GPU SOC模块通过PCIE X4连接到FPGA模块上,并作为FPGA的两个PCIE从设备进行数据交互;所述两个GPU SOC模块通过内设的以太网接口连接到所述千兆以太网交换模块上;
所述FPGA模块通过PCIE X4连接到主机上,使得两个GPU SOC模块实现与主机之间的数据交互;
所述千兆以太网交换模块通过CPCIE的网络接口连接到主机上,实现两个GPU SOC模块与主机之间的千兆网以太数据交互。
进一步的,包括供电模块,采用CPCIE连接器上提供的12V电源为GPU模块供电。
较佳的,所述GPU SOC模块采用NVIDIA TegraX系列计算模块;所述FPGA模块采用Xilinx Virtex7系列FPGA;所述千兆以太网交换模块采用BCM5389千兆以太网交换芯片。
进一步的,每个所述GPU SOC模块还设置有USB接口和HDMI接口。
较佳的,所述FPGA模块带有不小于512MB的DDR3存储器。
较佳的,所述FPGA模块采用标准AXI接口;FPGA模块内设置DMA控制器和AXIS接口转换逻辑模块;FPGA模块的每个PCIE端口均对应一个DMA控制器;所述AXIS接口转换逻辑模块,负责将DMA控制器读写操作的数据流转换为AXI接口的数据流。
较佳的,所述DMA控制器用于将数据流在主机与所述两个GPU SOC模块之间实现以DMA方式实现读写操作。
较佳的,所述FPGA模块用于数据转发和预处理;所述GPU SOC模块用于数据的并行运算。
本发明具有如下有益效果:
(1)功耗低。架构中最耗电的为两个GPU模块,本发明架构中的GPU采用NVIDIA的TegraX嵌入式图像计算卡,功耗低,其中Tegra X1功耗低于5W,Tegra X2功耗于7.5W,低于普通CPU和商业GPU。
(2)运算性能强。该架构中包含两个GPU核心模块,若采用Tegra X1,则每片核心模块的处理能力不低于1T-Flops,而采用Tegra X2,则处理能力不低于1.5T-Flops,远高于现在流行的CPU及DSP处理器。
(3)可作为“大型ASIC”进行程序的固化,完成快速图像处理。采用本架构设计的PCIE异构系统,可以实现GPU Direct技术,即将程序固化到GPU中,并可通过内存直接进行数据的存取。
(4)结构简单,设计灵活。采用本架构搭建小型异构处理平台,可设计为标准6U尺寸,两个GPU,一个FPGA;也可设计为3U尺寸,一个GPU和一个FPGA。可设计为CPCIE板卡,插入工控机,通过CPCIE接口供电,也可外设独立电源,进行开发调试。架构中的核心模块包括FPGA和GPU,可根据需要选择,FPGA可选Virtex7系列,GPU可选NVIDIA TegraX系列。
(5)开发简单,异构系统可级联。本架构为每个GPU SOC设计了单独的USB接口和HDMI接口,可连接外设,每个GPU可独立开发,通过FPGA和网络接口和另外GPU进行数据交换和处理。同时采用本架构设计的处理模块可通过OpenVPX进行级联扩展,形成高速计算系统。
(6)适用场景:采用本架构设计基于CPU+FPGA+GPU的小型板卡,可以插入到PCIE主机中,进行图像及视频处理系统、目标识别系统的加速;可挂载到无人机,通过连接相机和摄像头,完成航拍数据的实时处理或目标识别等;可部署到各类地面站进行图像的预处理;可独立完成或辅助完成医学图像处理、三维情景重建、汽车导航等。同时该系统可应用于智能故障诊断、数据传输、大数据处理等。
附图说明
图1为本发明基于GPU和FPGA的小型异构处理系统架构图;
图2为本发明系统架构的时钟网络设计;
图3为本发明系统架构中的FPGA逻辑框图;
图4为本发明系统架构中PCIE接口逻辑内部结构;
图5为原始测试图像;
图6为采用本发明系统进行引导滤波后的图像。
具体实施方式
下面结合附图并举实施例,对本发明进行详细描述。
本发明系统架构主要包含两个GPU SOC模块、一个FPGA模块、一个千兆以太网交换模块、供电模块,外设接口包括两个USB接口、两个HDMI接口、CPCIE接口、RJ45网络,其中CPCIE接口包括数据交换接口、网络接口和供电接口。GPU中包含ARM处理器,进行任务的协调和分配;FPGA作为辅助协处理器,主要进行数据的转发和预处理;而GPU作为协处理器,进行数据的大型运算,如图像或视频的拼接、视频的编解码、视频融合、目标识别与跟踪、机器学习等。
本发明系统架构的GPU模块须采用NVIDIA TegraX系列计算模块。TegraX系列模块是GPU SOC处理器,其内含Maxell或Pascal架构GPU处理核心以及ARM架构CPU处理器核心。FPGA模块采用Xilinx Virtex7系列FPGA,该系列FPGA上带有不少于三个PCIE硬核,并含有不小于512M的DDR3内存。
架构中的两个GPU模块,通过PCIE X4连接到FPGA模块上,这两个GPU模块作为FPGA的两个PCIE从设备进行数据交互。若该系统通过PCIE接口连接到主机上,即FPGA通过PCIE连接到主机上,则主机与两个GPU模块均作为PCIE根节点连接到FPGA上,FPGA程序能够实现三个PCIE从设备,并可通过PCIE接口实现三个PCIE根节点之间的数据交互。
架构中的GPU模块主要用于实现各种图像处理、目标识别及深度学习算法,如图像的预处理:去噪、增强、复原、几何变换、亮度变换、对比度变换等;目标的检测、识别、跟踪算法,卷积神经网络、LeNet、AlexNet、GoogleNet等深度学习算法。通过安装OpenCV、Caffe、TensorFlow、OpenGL等工具,辅助完成图像处理、图形处理、目标识别等功能。
架构中设置1片千兆以太网交换芯片,板上的两个GPU核心模块的千兆以太网接口均连接到该以太网交换芯片上。同时将以太网交换芯片的两个端口分别引出到CPCIE外部接口实现主机与系统中GPU模块之间通过千兆以太网的数据通信。通过以太网交换芯片,可以将多个GPU互连,从而在局域网内、互联网上实现云计算、物联网等技术。另外,千兆以太网交换芯片还可以利用RJ45接口与主机的其它接口相连,或者与其它网络设备连接。
架构中供电模块直接采用CPCIE连接器上提供的12V电源为GPU模块供电,GPU模块的外围接口(USB、HDMI)需要5V、3.3V和1.8V供电,本架构设计采用一片Linear的LTM4644芯片提供这三种电源。FPGA模块所需电流较大,需要提供1V核电压,本架构设计采用BMR451系列DC-DC电源模块满足FPGA供电需求。
本发明系统架构设计三种时钟,分别是FPGA内部逻辑所需基础时钟,FPGA的PCIE接口所需时钟,千兆以太网交换芯片和PHY芯片所需时钟。
本架构为每个GPU SOC模块设计了USB接口和HMDI接口,USB接口可直接连接鼠标、键盘、U盘等外设,HDMI接口可以通过HDMI线缆或其他转换接线缆连接显示器。通过连接外接设备,可以对GPU的ARM模块进行数据导入导出、工具安装、程序修改和编译。
实施例:按照图1所示的本发明的异构处理系统架构图进行设计并生产的标准6U尺寸的图像处理加速板卡,具体分为核心硬件的选择、硬件设计、逻辑设计和驱动设计。
1核心硬件选择
本发明架构中的核心为两个GPU模块和一个FPGA模块。这里选用Xilinx公司Virtex7系列的XC7V585T FPGA构建了一个PCIE交换架构,该FPGA上带有不小于512MB的DDR3存储器。GPU模块则选择两片NVDIA公司的高性能处理器Tegra X1(简称TX1),它拥有1T-Flops运算性能的Maxwell架构256核心GPU,64位四核心ARM A57CPU,板上带有4GBLPDDR4内存,16GB eMMC存储空间,运行Linux for Tegra系统。
另外,以太网交换芯选择BCM5389千兆以太网交换芯片,以实现主控板与TX1、两个TX1之间的千兆以太网数据通信。
2硬件设计
(1)GPU模块供电设计
根据设计,需要为TX1模块提供12V供电,这里直接采用CPCIE连接器上提供的12V电源为TX1模块供电。TX1模块的外围电路需要5V、3.3V和1.8V供电,这里采用一片Linear公司的LTM4644芯片提供这三种电源。
(2)FPGA供电设计
FPGA选用Xilinx公司的XC7V585T,需要为该FPGA提供1V核电压,1.8V VCCIO和VCCAUX、3.3V VCCIO、1V和1.2V的MGT供电。FPGA的1V核电压所需电流较大,需要使用独立模块提供,这里采用了爱立信公司的BMR451系列DC-DC电源模块,该模块可提供最高40A的电流,可充分满足大规模逻辑开发的需求。FPGA的1.8V VCCIO和VCCAUX、3.3V VCCIO分别通过两个LTM4644模块提供,FPGA的1V和1.2V的MGT分别通过一个TI公司的TPS74401和凌特公司LTM4606模块提供。
(3)时钟网络设计
根据本发明系统架构设计的图像处理板卡有三种时钟,分别是FPGA内部逻辑所需基础时钟,FPGA的PCIE接口所需时钟,千兆以太网交换芯片和PHY芯片所需时钟。
系统架构的时钟网络设计如图2所示。这里FPGA内部逻辑所需基础时钟采用200M差分时钟,经过FPGA内部PLL分别产生用于FPGA内部接口逻辑、DDR控制器等相关模块所需的时钟。FPGA实现的三个PCIE接口均为从设备接口,接口所需时钟均可从根节点设备获取,因此,板上不在单独提供PCIE接口所需的时钟,时钟可从FMC接插件和CPCIE接插件上获取
千兆以太网交换芯片和PHY芯片还需要25M时钟,可按照芯片要求选用25MHz单端时钟芯片通过一个1转4的时钟驱动器接入千兆以太网交换芯片和PHY芯片。
(4)外部接口设计
根据本发明系统架构设计的图像处理板卡,其外部接口分为前面板接口和后部连接器接口,后部连接器接口按照CPCI-E中的规范连接。前面板接口根据分别设计USB OTG调试接口,USB3.0接口,HDMI接口,千兆以太网接口。
3逻辑设计
根据本发明系统架构设计的图像处理板卡,FPGA选用Xilinx Virtex7系列FPGA,带有不少于3个PCIE硬核。FPGA内部逻辑模块采用标准AXI接口,保证能够嵌入用户算法模块。FPGA逻辑框图如图3所示,内部逻辑功能设计如下:
(1)每个PCIE端口通过FPGA实现DMA控制器,实现主机的DMA读写操作接口。读写操作采用全双工模式,单向带宽不小于400MB/s。
(2)DMA控制器连接DMA控制器到AXIS接口转换逻辑模块,负责将DMA读写操作的数据流转换为AXI接口的数据流。数据缓存也在该模块中实现,数据缓存在硬件上采用DDR3实现,在FPGA逻辑中实现为AXI接口的DDR控制器。
(3)在FPGA内部实现一个AXIS接口交换模块,实现将三个PCIE端口数据的交换,AXIS交换模块支持固定交换,即三个端口的数据流完全确认,不支持动态配置。目前实现为主机分别与板上两个TX1核心模块实现读写操作,不支持两个TX1模块之间通过PCIE的数据交换。
(4)PCIE接口逻辑采用Xilinx第三方IP核实现,该IP基于AXI标准接口,内部实现了PCIE DMA相关操作。PCIE接口逻辑内部结构如图4所示。
4逻辑设计
根据本发明系统架构设计的图像处理板卡,设计的驱动程序支持Windows7(32Bit/64Bit)/Linux/Unix操作系统,CPU端驱动程序支持如下功能:
(1)设备硬复位操作。完成硬件复位与初始化,硬复位包括对板上两片TX1核心模块的复位与程序重新加载。复位PCIE接口。
(2)设备软复位操作。实现对FPGA中除PCIE接口外的其他逻辑模块的复位,使各个模块处于初始状态,软复位主要用于清除FPGA内部暂存的数据,以便开始新的数据传输。
(3)寄存器读写操作。包括读取FPGA内部的状态寄存器和配置寄存器以及向配置寄存器中写入配置数据。各处理器模块可通过状态寄存器获取其他其他处理器的状态信息。系统启动完成初始化,各处理器模块均需将自身的状态信息写入到配置寄存器,由FPGA将处理器状态信息收集并通过状态寄存器反映给处理器。
(4)DMA读写操作。通过DMA方式与板上的TX1核心模块实现数据收发。DMA读写函数需要传入的参数由读写目标地址、数据长度、读写缓冲区地址。另外,DMA读写操作支持阻塞方式与非阻塞方式。采用阻塞方式读写,调用DMA读写操作的线程在DMA操作完成前处于阻塞状态,线程将被调度处处理器,等待DMA操作完成后才能返回到就绪状态,等待CPU调度。采用非阻塞方式读写,调用DMA读写操作会立刻得到返回,线程在下一次调用DMA读写操作前必须查询前一次操作是否完成,如果没有完成,不能调用新的DMA读写操作,否则可能造成系统死机。
TX1模块驱动程序支持如下功能:
(1)设备软复位操作。实现对FPGA中除PCIE接口外的其他逻辑模块的复位,使各个模块处于初始状态,软复位主要用于清除FPGA内部暂存的数据,以便开始新的数据传输。
(2)寄存器读写操作。包括读取FPGA内部的状态寄存器和配置寄存器以及向配置寄存器中写入配置数据。各处理器模块可通过状态寄存器获取其他其他处理器的状态信息。系统启动完成初始化,各处理器模块均需将自身的状态信息写入到配置寄存器,由FPGA将处理器状态信息收集并通过状态寄存器反映给处理器。
(3)DMA读写操作。通过DMA方式与板上的CPU模块实现数据收发。DMA读写函数需要传入的参数由读写目标地址、数据长度、读写缓冲区地址。另外,DMA读写操作支持阻塞方式与非阻塞方式。采用阻塞方式读写,调用DMA读写操作的线程在DMA操作完成前处于阻塞状态,线程将被调度处处理器,等待DMA操作完成后才能返回到就绪状态,等待CPU调度。采用非阻塞方式读写,调用DMA读写操作会立刻得到返回,线程在下一次调用DMA读写操作前必须查询前一次操作是否完成,如果没有完成,不能调用新的DMA读写操作,否则可能造成系统死机
寄存器读写设计:FPGA内部的寄存器以内存映射的方式映射到操作系统中,程序可以像访问内存地址一样访问FPGA内部的寄存器。
DMA读写设计:对于CPU与TX之间的数据交互,由于数据量较大,需要采用DMA方式进行数据读写,为了提高DMA读写的速度,采用的Scatter-Gather模式。驱动程序将一个地址链表传给DMA控制器,由DMA控制器使用链表中的地址完成DMA读写操作。
目前,已对图像处理板卡进行了实验验证,对2000×1000图像使用引导滤波算法进行去雾处理,在Intel i3CPU上运行时间为8800ms左右,在图像处理板卡上运行时间为500ms左右,可以达到15倍左右加速比,原始测试图像和去雾后的图像分别如图5、图6所示。
此外,在该图像处理板卡上进行故障诊断、深度学习、视频的编解码、目标识别与跟踪,均获得了5倍以上的加速效果,说明采用本发明设计的图像处理板卡具有良好的加速性能。经过测试,该采用本发明描述的小型异构处理系统架构生产加工的图像处理板卡,典型情况下功耗仅20W,最坏情况也不超过35W。
综上所述,以上仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于GPU和FPGA的异构处理系统,其特征在于,包括两个GPU SOC模块、一个FPGA模块以及一个千兆以太网交换模块;
所述两个GPU SOC模块通过PCIE X4连接到FPGA模块上,并作为FPGA的两个PCIE从设备进行数据交互;所述两个GPU SOC模块通过内设的以太网接口连接到所述千兆以太网交换模块上;
所述FPGA模块通过PCIE X4连接到主机上,使得两个GPU SOC模块实现与主机之间的数据交互;
所述千兆以太网交换模块通过CPCIE的网络接口连接到主机上,实现两个GPU SOC模块与主机之间的千兆网以太数据交互。
2.如权利要求1所述的一种基于GPU和FPGA的异构处理系统,其特征在于,包括供电模块,采用CPCIE连接器上提供的12V电源为GPU模块供电。
3.如权利要求1所述的一种基于GPU和FPGA的异构处理系统,其特征在于,所述GPU SOC模块采用NVIDIA TegraX系列计算模块;所述FPGA模块采用Xilinx Virtex7系列FPGA;所述千兆以太网交换模块采用BCM5389千兆以太网交换芯片。
4.如权利要求1所述的一种基于GPU和FPGA的异构处理系统,其特征在于,每个所述GPUSOC模块还设置有USB接口和HDMI接口。
5.如权利要求1所述的一种基于GPU和FPGA的异构处理系统,其特征在于,所述FPGA模块带有不小于512MB的DDR3存储器。
6.如权利要求1所述的一种基于GPU和FPGA的异构处理系统,其特征在于,所述FPGA模块采用标准AXI接口;FPGA模块内设置DMA控制器和AXIS接口转换逻辑模块;FPGA模块的每个PCIE端口均对应一个DMA控制器;所述AXIS接口转换逻辑模块,负责将DMA控制器读写操作的数据流转换为AXI接口的数据流。
7.如权利要求6所述的一种基于GPU和FPGA的异构处理系统,其特征在于,所述DMA控制器用于将数据流在主机与所述两个GPU SOC模块之间实现以DMA方式实现读写操作。
8.如权利要求1所述的一种基于GPU和FPGA的异构处理系统,其特征在于,所述FPGA模块用于数据转发和预处理;所述GPU SOC模块用于数据的并行运算。
CN201810611918.8A 2018-06-14 2018-06-14 一种基于gpu和fpga的小型异构处理系统 Active CN108804376B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810611918.8A CN108804376B (zh) 2018-06-14 2018-06-14 一种基于gpu和fpga的小型异构处理系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810611918.8A CN108804376B (zh) 2018-06-14 2018-06-14 一种基于gpu和fpga的小型异构处理系统

Publications (2)

Publication Number Publication Date
CN108804376A CN108804376A (zh) 2018-11-13
CN108804376B true CN108804376B (zh) 2021-11-19

Family

ID=64085997

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810611918.8A Active CN108804376B (zh) 2018-06-14 2018-06-14 一种基于gpu和fpga的小型异构处理系统

Country Status (1)

Country Link
CN (1) CN108804376B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109783407B (zh) * 2019-01-14 2021-01-12 武汉精立电子技术有限公司 一种基于fpga实现pc与显卡桥接的装置及方法
CN110209084A (zh) * 2019-05-31 2019-09-06 九阳股份有限公司 一种食品加工机的控制方法
CN112231264A (zh) * 2019-07-15 2021-01-15 唐健 一种嵌入式PXIe总线控制器
CN110913227B (zh) * 2019-11-28 2021-12-21 山东浪潮科学研究院有限公司 一种异构计算架构的边缘端图像压缩系统及方法
CN111031244A (zh) * 2019-12-17 2020-04-17 中国科学院光电技术研究所 一种基于fpga+gpu异构计算平台的波前处理控制方法
CN111741219A (zh) * 2020-07-05 2020-10-02 北京安洲科技有限公司 一种遥感测量用多接口智能图像采集卡
CN112311960A (zh) * 2020-11-05 2021-02-02 成都寰蓉光电科技有限公司 一种应用于目标识别与跟踪的新型视频图像处理系统
CN112463718B (zh) * 2020-11-17 2022-05-20 中国计量大学 一种信号识别处理装置
CN113259604B (zh) * 2021-05-14 2023-05-30 厦门壹普智慧科技有限公司 一种智能感知图像获取装置及方法
CN114445260B (zh) * 2022-01-17 2024-01-12 苏州浪潮智能科技有限公司 基于fpga的分布式gpu通信的方法及装置
CN114745344A (zh) * 2022-03-15 2022-07-12 天津七所精密机电技术有限公司 一种基于以太网包含多种通信接口的数据交换装置及方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105279133A (zh) * 2015-10-20 2016-01-27 电子科技大学 基于SoC在线重构的VPX并行DSP信号处理板卡
CN205038556U (zh) * 2015-04-24 2016-02-17 北京太速科技有限公司 一种基于双dsp双fpga的vpx多核智能计算硬件平台
CN105743820A (zh) * 2016-04-21 2016-07-06 大连理工大学 一种基于arm+fpga架构的列车以太网交换机
CN107066802A (zh) * 2017-01-25 2017-08-18 人和未来生物科技(长沙)有限公司 一种面向基因数据计算的异构平台
CN107391432A (zh) * 2017-08-11 2017-11-24 中国计量大学 一种异构并行计算装置及运算节点互联网络
CN107817216A (zh) * 2017-10-31 2018-03-20 武汉精测电子技术股份有限公司 一种基于cpu+gpu+fpga架构的自动光学检测系统
CN108052839A (zh) * 2018-01-25 2018-05-18 知新思明科技(北京)有限公司 拟态任务处理机

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102541804B (zh) * 2011-12-26 2014-04-02 中国人民解放军信息工程大学 一种异构系统中多gpu互连体系结构
US9479456B2 (en) * 2012-11-02 2016-10-25 Altera Corporation Programmable logic device with integrated network-on-chip
CN106970894A (zh) * 2017-04-20 2017-07-21 广东浪潮大数据研究有限公司 一种基于Arria10的FPGA异构加速卡
CN107273331A (zh) * 2017-06-30 2017-10-20 山东超越数控电子有限公司 一种基于cpu+gpu+fpga架构的异构计算系统和方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN205038556U (zh) * 2015-04-24 2016-02-17 北京太速科技有限公司 一种基于双dsp双fpga的vpx多核智能计算硬件平台
CN105279133A (zh) * 2015-10-20 2016-01-27 电子科技大学 基于SoC在线重构的VPX并行DSP信号处理板卡
CN105743820A (zh) * 2016-04-21 2016-07-06 大连理工大学 一种基于arm+fpga架构的列车以太网交换机
CN107066802A (zh) * 2017-01-25 2017-08-18 人和未来生物科技(长沙)有限公司 一种面向基因数据计算的异构平台
CN107391432A (zh) * 2017-08-11 2017-11-24 中国计量大学 一种异构并行计算装置及运算节点互联网络
CN107817216A (zh) * 2017-10-31 2018-03-20 武汉精测电子技术股份有限公司 一种基于cpu+gpu+fpga架构的自动光学检测系统
CN108052839A (zh) * 2018-01-25 2018-05-18 知新思明科技(北京)有限公司 拟态任务处理机

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Off-Loading LET Generation to PEACH2: A Switching Hub for High Performance GPU Clusters;Chiharu Tsuruta;Yohei Miki;Takuya Kuhara;Hideharu Amano;《ACM SIGARCH Computer Architecture News》;20161231;第43卷(第4期);第3-8页 *
基于ROACH2-GPU集群相关器的研究——F-engine模块的设计与实现;牛晨辉,汪群雄,郑小平,田海俊,吴锋泉,李吉夏,陈学雷,蒿杰;《天文研究与技术》;20170131;第14卷(第1期);第60-69页 *

Also Published As

Publication number Publication date
CN108804376A (zh) 2018-11-13

Similar Documents

Publication Publication Date Title
CN108804376B (zh) 一种基于gpu和fpga的小型异构处理系统
KR101472644B1 (ko) 멀티프로세서 완전 상호접속 방법 및 시스템
CN103150279B (zh) 一种主机与基板管理控制器共享设备的方法
CN104657308A (zh) 一种用fpga实现的服务器硬件加速的方法
CN109308283B (zh) 一种SoC片上系统及其外设总线切换方法
US20190163255A1 (en) Core off sleep mode with low exit latency
CN107704413A (zh) 一种基于vpx架构的加固型并行信息处理平台
CN104811643B (zh) 基于sd卡阵列的图像数据高速存储系统
CN102609389A (zh) 一种基于vpx总线实现的数字信号处理平台
CN109857702B (zh) 一种基于机器人的激光雷达数据读写控制系统及芯片
CN111736115A (zh) 基于改进型sgdma+pcie的mimo毫米波雷达高速传输方法
CN110766600B (zh) 一种分布式架构的图像处理系统
CN112988647A (zh) 一种TileLink总线到AXI4总线转换系统及方法
CN106844263B (zh) 一种基于可配置的多处理器计算机系统及实现方法
CN111581152A (zh) 可重构硬件加速soc芯片系统
CN202522957U (zh) 基于mil-std-1553b总线的cpci架构的接口板卡
CN112035398B (zh) 一种系统级芯片SoC及适用于SoC的数据处理方法
CN110245107A (zh) 用于提供用于加速器的结构的系统、装置和方法
US20210263501A1 (en) Fpga-based acceleration using opencl on fcl in robot motion planning
Joseph et al. Design space exploration for a hardware-accelerated embedded real-time pose estimation using vivado HLS
CN205384545U (zh) 一种基于Vxworks的显卡加速器
Toledo et al. A plug and play approach to data acquisition
CN207689871U (zh) 一种基于Vxworks和Linux的混合显示控制器
CN111797049A (zh) 一种双路计算主板架构
Prasad et al. Specialization meets Flexibility: a Heterogeneous Architecture for High-Efficiency, High-flexibility AR/VR Processing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant