CN110083558A

CN110083558A - 一种用于自适应可编程存储计算加速卡装置

Info

Publication number: CN110083558A
Application number: CN201910478038.2A
Authority: CN
Inventors: 徐彦飞
Original assignee: Suzhou Changjiang Ruixin Electronic Technology Co Ltd
Current assignee: Suzhou Changjiang Ruixin Electronic Technology Co Ltd
Priority date: 2019-06-03
Filing date: 2019-06-03
Publication date: 2019-08-02

Abstract

本发明公开了一种用于自适应可编程存储计算加速卡装置，属于硬件加速计算技术领域；一种用于自适应可编程存储计算加速卡装置，包括主体，还包括组装框；PCIE接口，设置在主体上；X86处理器，与PCIE接口相连；FPGA加速卡，可拆卸连接在组装框内，且与主体连接；片内存储块，片内核心逻辑模块，设置在FPGA加速卡上；OpenCL架构模块；片内互联模块；本发明中的加速卡支持一机多卡的扩展能力，可在一台主机上配置不同数量的加速卡，将计算任务分配到多块加速卡之上，满足不同规模算法的加速需求，极大的提高服务器运算的效率，功耗低，性能高，低时延。

Description

一种用于自适应可编程存储计算加速卡装置

技术领域

本发明涉及硬件加速计算技术领域，尤其涉及一种用于自适应可编程存储计算加速卡装置。

背景技术

近年来，随着互联网大数据技术的发展以及物联网的兴起，在数据中心以及一些相关嵌入式设备中对于数据计算的任务越来越重；传统CPU串行计算的方式已经不足以应对指数级增长的计算需求；学术界以及工业界越来越热衷于基于自适应计算的并行加速器研究，目前自适应加速器的实现主要借助于专用集成电路(ASIC)、图形处理单元(GPU)、现场可编程门阵列(FPGA)、数字信号处理器(DSP)等自适应计算部件。

经检索，申请号为CN201820354999.3的发明专利公开了“一种PGA与DSP多核自适应加速计算板卡，属于硬件加速计算领域，该FPGA与DSP多核自适应加速计算板卡包括FPGA现场可编程门阵列器件、与FPGA现场可编程门阵列器件分别连接的第一DSP数字信号处理器芯片、第二DSP数字信号处理器芯片、第一FMC扩展连接器、第二FMC扩展连接器、PCIE接口和CPLD复杂可编程逻辑器”。

该专利提出的PGA与DSP多核自适应加速计算板卡充分融合了FPGA灵活、可重构、高性能低功耗以及DSP高精度、速度快、开发周期短的特点，能够根据应用和算法的迭代进行演化，具有良好的定制性和可重构特性，但仍然存在缺陷，其与传统的服务器一样是通过CPU,GPU来进行算计算，不具备一机多卡的扩展能力，不能够适应不同规模算法的加速需求。

发明内容

本发明的目的是为了解决现有技术中的问题，而提出的一种用于自适应可编程存储计算加速卡装置。

为了实现上述目的，本发明采用了如下技术方案：

一种用于自适应可编程存储计算加速卡装置，包括主体，还包括

组装框，用于装载主体；

散热风扇，设置在组装框的内侧壁；

PCIE接口，设置在主体上；

DDR4存储控制器，设置在主体上，用于连接DDR4存储器；

X86处理器，与PCIE接口相连；

FPGA加速卡，可拆卸连接在组装框内，且与主体连接；

片内存储块，设置在FPGA加速卡上；

片内核心逻辑模块，设置在FPGA加速卡上；

OpenCL架构模块，设置在主体上，用于将计算任务分配到多块FPGA加速卡之上；

片内互联模块，设置在主体上。

优选的，所述OpenCL架构模块主要由Host端、Kernel端和编译器组成，所述Host端和Kernel端与编译器信号连接，所述编译器与X86处理器和FPGA加速卡信号连接。

优选的，所述片内互联模块主要由全局内存互联网络和本地内存互联网络组成，所述全局内存互联网络与片内核心逻辑模块与PCIE接口和DDR4存储控制器通信连接，所述本地内存互联网络与片内核心逻辑模块和片内存储块通信连接。

优选的，所述本地内存互联网络采用8BANK高并发阵列，用于kernel端内局部数据的快速存取。

优选的，所述片内核心逻辑模块采用高并发深流水的定制计算资源堆组成。

优选的，所述FPGA加速卡片内定制有控制逻辑、外部接口逻辑和内部互联逻辑。

优选的，所述kernel端映射到FPGA加速卡上的热点部分与FPGA加速卡片内定制的控制逻辑、外部接口逻辑和内部互联逻辑连接适配。

优选的，所述FPGA加速卡通过螺丝连接在组装框上。

优选的，所述组装框上开凿有均匀分布的散热孔。

优选的，所述DDR4存储控制器的内部连接多个DMA，用于完成对DDR4存储器的读写控制。

与现有技术相比，本发明提供了一种用于自适应可编程存储计算加速卡装置，具备以下有益效果：

Kernel端使用OpenCLSDK将算法的热点部分自动映射为FPGA加速卡片内核心逻辑，并与FPGA加速卡片内预先定制的控制逻辑、外部接口逻辑及内部互联逻辑连接适配，以提高运算速度，核心逻辑模块以高并发深流水的定制计算资源堆组成，由OpenCLSDK工具链映射生成，与各种目标算法的计算热点高度匹配，有助于提高计算速度，通过连接片内核心逻辑模块与PCIE接口和DDR4存储控制器通信连接构成全局内存互联网络，片内核心逻辑模块与片内存储块之间通信连接，构成本地内存互联网络，能够提高kernel内局部数据的存取速度，进一步提高计算速度，通过安装多块FPGA加速卡，计算任务分配到多块FPGA加速卡之上，满足不同规模算法的加速需求，极大的提高服务器运算的效率。

附图说明

图1为本发明提出的一种用于自适应可编程存储计算加速卡装置的结构示意图之一；

图2为本发明提出的一种用于自适应可编程存储计算加速卡装置的结构示意图之二；

图3为本发明提出的一种用于自适应可编程存储计算加速卡装置的芯片逻辑架构框图；

图4为本发明提出的一种用于自适应可编程存储计算加速卡装置的OpenCL架构模块的框图。

图中：1、主体；2、组装框；3、散热风扇；4、PCIE接口；5、DDR4存储控制器；6、X86处理器；7、FPGA加速卡；8、片内存储块；9、片内核心逻辑模块；10、OpenCL架构模块；11、全局内存互联网络；12、本地内存互联网络。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述；显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，术语“上”、“下”、“内”、“外”、“顶/底端”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“设置有”、“套设/接”、“连接”等，应做广义理解，例如“连接”，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通；对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

实施例：

参照图1-4，一种用于自适应可编程存储计算加速卡装置，包括主体1，还包括

组装框2，用于装载主体1；

散热风扇3，设置在组装框2的内侧壁；

PCIE接口4，设置在主体1上；

DDR4存储控制器5，设置在主体1上，用于连接DDR4存储器；

X86处理器6，与PCIE接口4相连；

FPGA加速卡7，可拆卸连接在组装框2内，且与主体1连接；

片内存储块8，设置在FPGA加速卡7上；

片内核心逻辑模块9，设置在FPGA加速卡7上；

OpenCL架构模块10，设置在主体1上，用于将计算任务分配到多块FPGA加速卡7之上；

片内互联模块，设置在主体1上；

OpenCL架构模块10主要由Host端、Kernel端和编译器组成，Host端和Kernel端与编译器信号连接，编译器与X86处理器6和FPGA加速卡7信号连接；

片内互联模块主要由全局内存互联网络11和本地内存互联网络12组成，全局内存互联网络11与片内核心逻辑模块9与PCIE接口4和DDR4存储控制器5通信连接，本地内存互联网络12与片内核心逻辑模块9和片内存储块8通信连接；

本地内存互联网络12采用8BANK高并发阵列，用于kernel端内局部数据的快速存取；

片内核心逻辑模块9采用高并发深流水的定制计算资源堆组成；

FPGA加速卡7片内定制有控制逻辑、外部接口逻辑和内部互联逻辑；

kernel端映射到FPGA加速卡7上的热点部分与FPGA加速卡7片内定制的控制逻辑、外部接口逻辑和内部互联逻辑连接适配；

FPGA加速卡7通过螺丝连接在组装框2上；

组装框2上开凿有均匀分布的散热孔；

DDR4存储控制器5的内部连接多个DMA，用于完成对DDR4存储器的读写控制；

OpenCL架构模块10中的Host端采用标准C/C++编译工具链，与FPGA加速卡7链接后，运行于主CPU之上，在运行过程中调用FPGA加速卡7中的加速逻辑进行Kernel端的计算任务，Kernel端使用OpenCLSDK将算法的热点部分自动映射为FPGA加速卡7片内核心逻辑，并与FPGA加速卡7片内预先定制的控制逻辑、外部接口逻辑及内部互联逻辑连接适配，以提高运算速度，核心逻辑模块以高并发深流水的定制计算资源堆组成，由OpenCLSDK工具链映射生成，与各种目标算法的计算热点高度匹配，有助于提高计算速度，通过片内核心逻辑模块9与PCIE接口4和DDR4存储控制器5通信连接构成全局内存互联网络11，片内核心逻辑模块9与片内存储块8之间通信连接，构成本地内存互联网络12，能够提高kernel内局部数据的存取速度，进一步提高计算速度，通过安装多块FPGA加速卡7，计算任务分配到多块FPGA加速卡7之上，满足不同规模算法的加速需求，极大的提高服务器运算的效率。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种用于自适应可编程存储计算加速卡装置，包括主体(1)，其特征在于，还包括

组装框(2)，用于装载主体(1)；

散热风扇(3)，设置在组装框(2)的内侧壁；

PCIE接口(4)，设置在主体(1)上；

DDR4存储控制器(5)，设置在主体(1)上，用于连接DDR4存储器；

X86处理器(6)，与PCIE接口(4)相连；

FPGA加速卡(7)，可拆卸连接在组装框(2)内，且与主体(1)连接；

片内存储块(8)，设置在FPGA加速卡(7)上；

片内核心逻辑模块(9)，设置在FPGA加速卡(7)上；

OpenCL架构模块(10)，设置在主体(1)上，用于将计算任务分配到多块FPGA加速卡(7)之上；

片内互联模块，设置在主体(1)上。

2.根据权利要求1所述的一种用于自适应可编程存储计算加速卡装置，其特征在于，所述OpenCL架构模块(10)主要由Host端、Kernel端和编译器组成，所述Host端和Kernel端与编译器信号连接，所述编译器与X86处理器(6)和FPGA加速卡(7)信号连接。

3.根据权利要求2所述的一种用于自适应可编程存储计算加速卡装置，其特征在于，所述片内互联模块主要由全局内存互联网络(11)和本地内存互联网络(12)组成，所述全局内存互联网络(11)与片内核心逻辑模块(9)与PCIE接口(4)和DDR4存储控制器(5)通信连接，所述本地内存互联网络(12)与片内核心逻辑模块(9)和片内存储块(8)通信连接。

4.根据权利要求3所述的一种用于自适应可编程存储计算加速卡装置，其特征在于，所述本地内存互联网络(12)采用8BANK高并发阵列，用于kernel端内局部数据的快速存取。

5.根据权利要求4所述的一种用于自适应可编程存储计算加速卡装置，其特征在于，所述片内核心逻辑模块(9)采用高并发深流水的定制计算资源堆组成。

6.根据权利要求5所述的一种用于自适应可编程存储计算加速卡装置，其特征在于，所述FPGA加速卡(7)片内定制有控制逻辑、外部接口逻辑和内部互联逻辑。

7.根据权利要求6所述的一种用于自适应可编程存储计算加速卡装置，其特征在于，所述kernel端映射到FPGA加速卡(7)上的热点部分与FPGA加速卡(7)片内定制的控制逻辑、外部接口逻辑和内部互联逻辑连接适配。

8.根据权利要求1-7任一项所述的一种用于自适应可编程存储计算加速卡装置，其特征在于，所述FPGA加速卡(7)通过螺丝连接在组装框(2)上。

9.根据权利要求1-7任一项所述的一种用于自适应可编程存储计算加速卡装置，其特征在于，所述组装框(2)上开凿有均匀分布的散热孔。

10.根据权利要求1-7任一项所述的一种用于自适应可编程存储计算加速卡装置，其特征在于，所述DDR4存储控制器(5)的内部连接多个DMA，用于完成对DDR4存储器的读写控制。