CN110083558A - 一种用于自适应可编程存储计算加速卡装置 - Google Patents

一种用于自适应可编程存储计算加速卡装置 Download PDF

Info

Publication number
CN110083558A
CN110083558A CN201910478038.2A CN201910478038A CN110083558A CN 110083558 A CN110083558 A CN 110083558A CN 201910478038 A CN201910478038 A CN 201910478038A CN 110083558 A CN110083558 A CN 110083558A
Authority
CN
China
Prior art keywords
piece
card
main body
accelerates
programmable storage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910478038.2A
Other languages
English (en)
Inventor
徐彦飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Changjiang Ruixin Electronic Technology Co Ltd
Original Assignee
Suzhou Changjiang Ruixin Electronic Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Changjiang Ruixin Electronic Technology Co Ltd filed Critical Suzhou Changjiang Ruixin Electronic Technology Co Ltd
Priority to CN201910478038.2A priority Critical patent/CN110083558A/zh
Publication of CN110083558A publication Critical patent/CN110083558A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F13/14Handling requests for interconnection or transfer
    • G06F13/16Handling requests for interconnection or transfer for access to memory bus
    • G06F13/1668Details of memory controller
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F13/14Handling requests for interconnection or transfer
    • G06F13/20Handling requests for interconnection or transfer for access to input/output bus
    • G06F13/28Handling requests for interconnection or transfer for access to input/output bus using burst mode transfer, e.g. direct memory access DMA, cycle steal
    • G06F13/287Multiplexed DMA
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F13/38Information transfer, e.g. on bus
    • G06F13/42Bus transfer protocol, e.g. handshake; Synchronisation
    • G06F13/4204Bus transfer protocol, e.g. handshake; Synchronisation on a parallel bus
    • G06F13/4221Bus transfer protocol, e.g. handshake; Synchronisation on a parallel bus being an input/output bus, e.g. ISA bus, EISA bus, PCI bus, SCSI bus
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Stored Programmes (AREA)

Abstract

本发明公开了一种用于自适应可编程存储计算加速卡装置,属于硬件加速计算技术领域;一种用于自适应可编程存储计算加速卡装置,包括主体,还包括组装框;PCIE接口,设置在主体上;X86处理器,与PCIE接口相连;FPGA加速卡,可拆卸连接在组装框内,且与主体连接;片内存储块,片内核心逻辑模块,设置在FPGA加速卡上;OpenCL架构模块;片内互联模块;本发明中的加速卡支持一机多卡的扩展能力,可在一台主机上配置不同数量的加速卡,将计算任务分配到多块加速卡之上,满足不同规模算法的加速需求,极大的提高服务器运算的效率,功耗低,性能高,低时延。

Description

一种用于自适应可编程存储计算加速卡装置
技术领域
本发明涉及硬件加速计算技术领域,尤其涉及一种用于自适应可编程存储计算加速卡装置。
背景技术
近年来,随着互联网大数据技术的发展以及物联网的兴起,在数据中心以及一些相关嵌入式设备中对于数据计算的任务越来越重;传统CPU串行计算的方式已经不足以应对指数级增长的计算需求;学术界以及工业界越来越热衷于基于自适应计算的并行加速器研究,目前自适应加速器的实现主要借助于专用集成电路(ASIC)、图形处理单元(GPU)、现场可编程门阵列(FPGA)、数字信号处理器(DSP)等自适应计算部件。
经检索,申请号为CN201820354999.3的发明专利公开了“一种PGA与DSP多核自适应加速计算板卡,属于硬件加速计算领域,该FPGA与DSP多核自适应加速计算板卡包括FPGA现场可编程门阵列器件、与FPGA现场可编程门阵列器件分别连接的第一DSP数字信号处理器芯片、第二DSP数字信号处理器芯片、第一FMC扩展连接器、第二FMC扩展连接器、PCIE接口和CPLD复杂可编程逻辑器”。
该专利提出的PGA与DSP多核自适应加速计算板卡充分融合了FPGA灵活、可重构、高性能低功耗以及DSP高精度、速度快、开发周期短的特点,能够根据应用和算法的迭代进行演化,具有良好的定制性和可重构特性,但仍然存在缺陷,其与传统的服务器一样是通过CPU,GPU来进行算计算,不具备一机多卡的扩展能力,不能够适应不同规模算法的加速需求。
发明内容
本发明的目的是为了解决现有技术中的问题,而提出的一种用于自适应可编程存储计算加速卡装置。
为了实现上述目的,本发明采用了如下技术方案:
一种用于自适应可编程存储计算加速卡装置,包括主体,还包括
组装框,用于装载主体;
散热风扇,设置在组装框的内侧壁;
PCIE接口,设置在主体上;
DDR4存储控制器,设置在主体上,用于连接DDR4存储器;
X86处理器,与PCIE接口相连;
FPGA加速卡,可拆卸连接在组装框内,且与主体连接;
片内存储块,设置在FPGA加速卡上;
片内核心逻辑模块,设置在FPGA加速卡上;
OpenCL架构模块,设置在主体上,用于将计算任务分配到多块FPGA加速卡之上;
片内互联模块,设置在主体上。
优选的,所述OpenCL架构模块主要由Host端、Kernel端和编译器组成,所述Host端和Kernel端与编译器信号连接,所述编译器与X86处理器和FPGA加速卡信号连接。
优选的,所述片内互联模块主要由全局内存互联网络和本地内存互联网络组成,所述全局内存互联网络与片内核心逻辑模块与PCIE接口和DDR4存储控制器通信连接,所述本地内存互联网络与片内核心逻辑模块和片内存储块通信连接。
优选的,所述本地内存互联网络采用8BANK高并发阵列,用于kernel端内局部数据的快速存取。
优选的,所述片内核心逻辑模块采用高并发深流水的定制计算资源堆组成。
优选的,所述FPGA加速卡片内定制有控制逻辑、外部接口逻辑和内部互联逻辑。
优选的,所述kernel端映射到FPGA加速卡上的热点部分与FPGA加速卡片内定制的控制逻辑、外部接口逻辑和内部互联逻辑连接适配。
优选的,所述FPGA加速卡通过螺丝连接在组装框上。
优选的,所述组装框上开凿有均匀分布的散热孔。
优选的,所述DDR4存储控制器的内部连接多个DMA,用于完成对DDR4存储器的读写控制。
与现有技术相比,本发明提供了一种用于自适应可编程存储计算加速卡装置,具备以下有益效果:
Kernel端使用OpenCLSDK将算法的热点部分自动映射为FPGA加速卡片内核心逻辑,并与FPGA加速卡片内预先定制的控制逻辑、外部接口逻辑及内部互联逻辑连接适配,以提高运算速度,核心逻辑模块以高并发深流水的定制计算资源堆组成,由OpenCLSDK工具链映射生成,与各种目标算法的计算热点高度匹配,有助于提高计算速度,通过连接片内核心逻辑模块与PCIE接口和DDR4存储控制器通信连接构成全局内存互联网络,片内核心逻辑模块与片内存储块之间通信连接,构成本地内存互联网络,能够提高kernel内局部数据的存取速度,进一步提高计算速度,通过安装多块FPGA加速卡,计算任务分配到多块FPGA加速卡之上,满足不同规模算法的加速需求,极大的提高服务器运算的效率。
附图说明
图1为本发明提出的一种用于自适应可编程存储计算加速卡装置的结构示意图之一;
图2为本发明提出的一种用于自适应可编程存储计算加速卡装置的结构示意图之二;
图3为本发明提出的一种用于自适应可编程存储计算加速卡装置的芯片逻辑架构框图;
图4为本发明提出的一种用于自适应可编程存储计算加速卡装置的OpenCL架构模块的框图。
图中:1、主体;2、组装框;3、散热风扇;4、PCIE接口;5、DDR4存储控制器;6、X86处理器;7、FPGA加速卡;8、片内存储块;9、片内核心逻辑模块;10、OpenCL架构模块;11、全局内存互联网络;12、本地内存互联网络。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述;显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,术语“上”、“下”、“内”、“外”、“顶/底端”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“设置有”、“套设/接”、“连接”等,应做广义理解,例如“连接”,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通;对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
实施例:
参照图1-4,一种用于自适应可编程存储计算加速卡装置,包括主体1,还包括
组装框2,用于装载主体1;
散热风扇3,设置在组装框2的内侧壁;
PCIE接口4,设置在主体1上;
DDR4存储控制器5,设置在主体1上,用于连接DDR4存储器;
X86处理器6,与PCIE接口4相连;
FPGA加速卡7,可拆卸连接在组装框2内,且与主体1连接;
片内存储块8,设置在FPGA加速卡7上;
片内核心逻辑模块9,设置在FPGA加速卡7上;
OpenCL架构模块10,设置在主体1上,用于将计算任务分配到多块FPGA加速卡7之上;
片内互联模块,设置在主体1上;
OpenCL架构模块10主要由Host端、Kernel端和编译器组成,Host端和Kernel端与编译器信号连接,编译器与X86处理器6和FPGA加速卡7信号连接;
片内互联模块主要由全局内存互联网络11和本地内存互联网络12组成,全局内存互联网络11与片内核心逻辑模块9与PCIE接口4和DDR4存储控制器5通信连接,本地内存互联网络12与片内核心逻辑模块9和片内存储块8通信连接;
本地内存互联网络12采用8BANK高并发阵列,用于kernel端内局部数据的快速存取;
片内核心逻辑模块9采用高并发深流水的定制计算资源堆组成;
FPGA加速卡7片内定制有控制逻辑、外部接口逻辑和内部互联逻辑;
kernel端映射到FPGA加速卡7上的热点部分与FPGA加速卡7片内定制的控制逻辑、外部接口逻辑和内部互联逻辑连接适配;
FPGA加速卡7通过螺丝连接在组装框2上;
组装框2上开凿有均匀分布的散热孔;
DDR4存储控制器5的内部连接多个DMA,用于完成对DDR4存储器的读写控制;
OpenCL架构模块10中的Host端采用标准C/C++编译工具链,与FPGA加速卡7链接后,运行于主CPU之上,在运行过程中调用FPGA加速卡7中的加速逻辑进行Kernel端的计算任务,Kernel端使用OpenCLSDK将算法的热点部分自动映射为FPGA加速卡7片内核心逻辑,并与FPGA加速卡7片内预先定制的控制逻辑、外部接口逻辑及内部互联逻辑连接适配,以提高运算速度,核心逻辑模块以高并发深流水的定制计算资源堆组成,由OpenCLSDK工具链映射生成,与各种目标算法的计算热点高度匹配,有助于提高计算速度,通过片内核心逻辑模块9与PCIE接口4和DDR4存储控制器5通信连接构成全局内存互联网络11,片内核心逻辑模块9与片内存储块8之间通信连接,构成本地内存互联网络12,能够提高kernel内局部数据的存取速度,进一步提高计算速度,通过安装多块FPGA加速卡7,计算任务分配到多块FPGA加速卡7之上,满足不同规模算法的加速需求,极大的提高服务器运算的效率。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (10)

1.一种用于自适应可编程存储计算加速卡装置,包括主体(1),其特征在于,还包括
组装框(2),用于装载主体(1);
散热风扇(3),设置在组装框(2)的内侧壁;
PCIE接口(4),设置在主体(1)上;
DDR4存储控制器(5),设置在主体(1)上,用于连接DDR4存储器;
X86处理器(6),与PCIE接口(4)相连;
FPGA加速卡(7),可拆卸连接在组装框(2)内,且与主体(1)连接;
片内存储块(8),设置在FPGA加速卡(7)上;
片内核心逻辑模块(9),设置在FPGA加速卡(7)上;
OpenCL架构模块(10),设置在主体(1)上,用于将计算任务分配到多块FPGA加速卡(7)之上;
片内互联模块,设置在主体(1)上。
2.根据权利要求1所述的一种用于自适应可编程存储计算加速卡装置,其特征在于,所述OpenCL架构模块(10)主要由Host端、Kernel端和编译器组成,所述Host端和Kernel端与编译器信号连接,所述编译器与X86处理器(6)和FPGA加速卡(7)信号连接。
3.根据权利要求2所述的一种用于自适应可编程存储计算加速卡装置,其特征在于,所述片内互联模块主要由全局内存互联网络(11)和本地内存互联网络(12)组成,所述全局内存互联网络(11)与片内核心逻辑模块(9)与PCIE接口(4)和DDR4存储控制器(5)通信连接,所述本地内存互联网络(12)与片内核心逻辑模块(9)和片内存储块(8)通信连接。
4.根据权利要求3所述的一种用于自适应可编程存储计算加速卡装置,其特征在于,所述本地内存互联网络(12)采用8BANK高并发阵列,用于kernel端内局部数据的快速存取。
5.根据权利要求4所述的一种用于自适应可编程存储计算加速卡装置,其特征在于,所述片内核心逻辑模块(9)采用高并发深流水的定制计算资源堆组成。
6.根据权利要求5所述的一种用于自适应可编程存储计算加速卡装置,其特征在于,所述FPGA加速卡(7)片内定制有控制逻辑、外部接口逻辑和内部互联逻辑。
7.根据权利要求6所述的一种用于自适应可编程存储计算加速卡装置,其特征在于,所述kernel端映射到FPGA加速卡(7)上的热点部分与FPGA加速卡(7)片内定制的控制逻辑、外部接口逻辑和内部互联逻辑连接适配。
8.根据权利要求1-7任一项所述的一种用于自适应可编程存储计算加速卡装置,其特征在于,所述FPGA加速卡(7)通过螺丝连接在组装框(2)上。
9.根据权利要求1-7任一项所述的一种用于自适应可编程存储计算加速卡装置,其特征在于,所述组装框(2)上开凿有均匀分布的散热孔。
10.根据权利要求1-7任一项所述的一种用于自适应可编程存储计算加速卡装置,其特征在于,所述DDR4存储控制器(5)的内部连接多个DMA,用于完成对DDR4存储器的读写控制。
CN201910478038.2A 2019-06-03 2019-06-03 一种用于自适应可编程存储计算加速卡装置 Pending CN110083558A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910478038.2A CN110083558A (zh) 2019-06-03 2019-06-03 一种用于自适应可编程存储计算加速卡装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910478038.2A CN110083558A (zh) 2019-06-03 2019-06-03 一种用于自适应可编程存储计算加速卡装置

Publications (1)

Publication Number Publication Date
CN110083558A true CN110083558A (zh) 2019-08-02

Family

ID=67423271

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910478038.2A Pending CN110083558A (zh) 2019-06-03 2019-06-03 一种用于自适应可编程存储计算加速卡装置

Country Status (1)

Country Link
CN (1) CN110083558A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110519090A (zh) * 2019-08-23 2019-11-29 苏州浪潮智能科技有限公司 一种fpga云平台的加速卡分配方法、系统及相关组件
CN111324558A (zh) * 2020-02-05 2020-06-23 苏州浪潮智能科技有限公司 数据处理方法、装置、分布式数据流编程框架及相关组件
CN112416840A (zh) * 2020-11-06 2021-02-26 浪潮(北京)电子信息产业有限公司 一种计算资源的远程映射方法、装置、设备及存储介质
CN114860343A (zh) * 2022-05-26 2022-08-05 苏州浪潮智能科技有限公司 加速卡速率调整方法、系统、终端及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104657330A (zh) * 2015-03-05 2015-05-27 浪潮电子信息产业股份有限公司 一种基于x86架构处理器和FPGA的高性能异构计算平台
CN105183539A (zh) * 2014-06-17 2015-12-23 联发科技股份有限公司 动态任务安排方法
US20160173104A1 (en) * 2013-11-15 2016-06-16 Scientific Concepts International Corporation Programmable forwarding plane
CN207965873U (zh) * 2018-03-20 2018-10-12 深圳市腾讯计算机系统有限公司 人工智能加速卡及服务器
CN209746539U (zh) * 2019-06-03 2019-12-06 苏州长江睿芯电子科技有限公司 一种用于自适应可编程存储计算加速卡装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160173104A1 (en) * 2013-11-15 2016-06-16 Scientific Concepts International Corporation Programmable forwarding plane
CN105183539A (zh) * 2014-06-17 2015-12-23 联发科技股份有限公司 动态任务安排方法
CN104657330A (zh) * 2015-03-05 2015-05-27 浪潮电子信息产业股份有限公司 一种基于x86架构处理器和FPGA的高性能异构计算平台
CN207965873U (zh) * 2018-03-20 2018-10-12 深圳市腾讯计算机系统有限公司 人工智能加速卡及服务器
CN209746539U (zh) * 2019-06-03 2019-12-06 苏州长江睿芯电子科技有限公司 一种用于自适应可编程存储计算加速卡装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
彭新显: "《基于OpenCL并行加速算法研究及其FPGA实现》", 《中国优秀硕士论文全文数据库-信息科技辑》, 15 March 2015 (2015-03-15), pages 1 - 37 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110519090A (zh) * 2019-08-23 2019-11-29 苏州浪潮智能科技有限公司 一种fpga云平台的加速卡分配方法、系统及相关组件
CN110519090B (zh) * 2019-08-23 2022-11-04 苏州浪潮智能科技有限公司 一种fpga云平台的加速卡分配方法、系统及相关组件
CN111324558A (zh) * 2020-02-05 2020-06-23 苏州浪潮智能科技有限公司 数据处理方法、装置、分布式数据流编程框架及相关组件
CN111324558B (zh) * 2020-02-05 2021-08-10 苏州浪潮智能科技有限公司 数据处理方法、装置、分布式数据流编程框架及相关组件
CN112416840A (zh) * 2020-11-06 2021-02-26 浪潮(北京)电子信息产业有限公司 一种计算资源的远程映射方法、装置、设备及存储介质
CN112416840B (zh) * 2020-11-06 2023-05-26 浪潮(北京)电子信息产业有限公司 一种计算资源的远程映射方法、装置、设备及存储介质
CN114860343A (zh) * 2022-05-26 2022-08-05 苏州浪潮智能科技有限公司 加速卡速率调整方法、系统、终端及存储介质
CN114860343B (zh) * 2022-05-26 2024-03-26 苏州浪潮智能科技有限公司 加速卡速率调整方法、系统、终端及存储介质

Similar Documents

Publication Publication Date Title
CN110083558A (zh) 一种用于自适应可编程存储计算加速卡装置
JP7379779B2 (ja) 行列処理装置
CN105468568B (zh) 高效的粗粒度可重构计算系统
US9135213B2 (en) Extending a processor system within an integrated circuit and offloading processes to process-specific circuits
CN101833441B (zh) 并行向量处理引擎结构
CN102073481A (zh) 多核dsp可重构专用集成电路系统
CN106250349A (zh) 一种高能效异构计算系统
CN102497411B (zh) 面向密集运算的层次化异构多核片上网络架构
CN104657330A (zh) 一种基于x86架构处理器和FPGA的高性能异构计算平台
CN108710596A (zh) 一种基于dsp和fpga多协处理卡的桌面超算硬件平台
Huang et al. Active-routing: Compute on the way for near-data processing
CN208283943U (zh) 一种基于fpga的cnn加速优化装置
CN107704413A (zh) 一种基于vpx架构的加固型并行信息处理平台
CN101847093A (zh) 具有可重构低功耗数据交织网络的数字信号处理器
CN111079908B (zh) 片上网络数据处理方法、存储介质、计算机设备和装置
CN209746539U (zh) 一种用于自适应可编程存储计算加速卡装置
CN116822600A (zh) 一种基于risc-v架构的神经网络搜索芯片
CN106776044B (zh) 基于数据流的硬件加速方法及系统
US11593547B1 (en) Prediction and optimization of multi-kernel circuit design performance using a programmable overlay
CN103984663B (zh) 一种并行体制的多样性星载电子设备
CN114548390A (zh) 一种基于risc-v和神经形态计算的异构架构处理系统
CN110825687B (zh) 一种基于dsp多核架构双模跟踪方法
Shang et al. LACS: A high-computational-efficiency accelerator for CNNs
CN118093473A (zh) 基于fpga的一体化多模态cxl设备链接适配方法及系统
CN203465722U (zh) 一种面向多尺度计算的计算机系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination