CN107357206A

CN107357206A - 一种基于fpga板卡的运算优化的方法、装置及系统

Info

Publication number: CN107357206A
Application number: CN201710596210.5A
Authority: CN
Inventors: 王丽
Original assignee: Zhengzhou Yunhai Information Technology Co Ltd
Current assignee: Zhengzhou Yunhai Information Technology Co Ltd
Priority date: 2017-07-20
Filing date: 2017-07-20
Publication date: 2017-11-17

Abstract

本发明公开了一种基于FPGA板卡的运算优化的方法，该方法包括接收由CPU发送的运算调用指令；接收由所述CPU发送的数据，所述数据为对应于预先设置在FPGA板卡的核心运算的数据；利用所述FPGA板卡中的芯片对所述数据进行运算，生成运算结果；将所述运算结果发送至所述CPU；本发明所提供的方法可以将部分由CPU执行的运算转移到FPGA板卡中之后，通过FPGA板卡可以同时的进行一些非常耗时的计算，从而有效的增加整个系统的运算速度；本发明还公开了一种基于FPGA板卡的运算优化的装置及系统，同样具有上述有益效果。

Description

一种基于FPGA板卡的运算优化的方法、装置及系统

技术领域

本发明涉及大数据处理领域，特别是涉及一种基于FPGA板卡的运算优化的方法、装置及系统。

背景技术

随着近年来科技的发展，人们的日常生活与网络的结合越来越密切。此时大数据处理技术也得到了空前的发展。

近年来，大数据处理技术在计算全内存化、处理是实例化、挖掘算法智能化等方面面临新的挑战，对大数据处理硬件平台也提出了更高的要求。

现有的技术中，通常仅仅是通过CPU在对大数据处理，但是在使用过程中，往往其计算时间较长，在数据处理时运行速度较慢。

发明内容

本发明的目的是提供一种基于FPGA板卡的运算优化的方法，可以有效增加运算速度；本发明的另一目的在于提供一种基于FPGA板卡的运算优化的装置及系统，可以有效减少数据处理的时间。

为解决上述技术问题，本发明提供一种基于FPGA板卡的运算优化的方法，所述方法包括：

接收由CPU发送的运算调用指令；

接收由所述CPU发送的数据，所述数据为对应于预先设置在FPGA板卡的核心运算的数据；

利用所述FPGA板卡中的芯片对所述数据进行运算，生成运算结果；

将所述运算结果发送至所述CPU。

可选的，所述接收由所述CPU发送的数据包括：

将所述CPU发送的所述数据存储在所述FPGA板卡的全局内存中；

将所述数据从所述全局内存中转移到所述FPGA板卡中的所述芯片的片上内存中；

所述利用所述FPGA板卡中的芯片对所述数据进行运算，生成运算结果包括：

利用所述芯片从所述片上内存中读取所述数据并进行运算，生成所述运算结果。

可选的，所述片上内存包括有多个片上内存。

可选的，在生成运算结果之后，所述方法进一步包括：

将所述运算结果存入所述全局内存；

所述将所述运算结果发送至所述CPU包括：

将所述运算结果通过所述全局内存发送至所述CPU。

本发明还提供了一种基于FPGA板卡的运算优化的装置，所述装置包括：

指令接收模块：用于接收由CPU发送的运算调用指令；

数据接收模块：用于接收由所述CPU发送的数据，所述数据为对应于预先设置在FPGA板卡的核心运算的数据；

运算模块：用于利用所述FPGA板卡中的芯片对所述数据进行运算，生成运算结果；

发送模块：用于将所述运算结果发送至所述CPU。

可选的，所述数据接收模块包括：

存储单元：用于将所述CPU发送的所述数据存储在所述FPGA板卡的全局内存中；

转移单元：用于将所述数据从所述全局内存中转移到所述FPGA板卡中的所述芯片的片上内存中；

所述运算模块具体用于：

可选的，所述转移单元具体用于：

将所述数据从所述全局内存中转移到所述FPGA板卡中的所述芯片的多个所述片上内存中；

所述运算模块具体用于：

利用所述芯片从多个所述片上内存中读取所述数据并进行运算，生成所述运算结果。

可选的，所述装置进一步包括：

数据整合模块：用于将所述运算结果存入所述全局内存；

所述发送模块具体用于：

将所述运算结果通过所述全局内存发送至所述CPU。

本发明还提供了一种基于FPGA板卡的运算优化的系统，所述系统包括多个节点，所述节点包括CPU和FPGA板卡，所述FPGA板卡包括如权利要求5至8任一项权利要求所述的装置。

可选的，所述CPU与所述FPGA板卡之间通过PIC-E接口进行连接。

本发明所提供的一种基于FPGA板卡的运算优化的方法，可以将部分由CPU执行的运算转移到FPGA板卡中，由于FPGA板卡是用硬件描述语言所完成的电路设计，可以实现并行操作。将部分由CPU执行的运算转移到FPGA板卡中之后，通过FPGA板卡可以同时的进行一些重复量大，非常耗时的计算，从而有效的增加整个系统的运算速度。

并且本发明所提供的运算优化方法，可以将储存在FPGA板卡的全局内存中的数据转移到芯片的片上内存中，从而减少了所述芯片在运算过程中频繁的从全局内存中调用以及读取数据，可以让芯片直接从所述芯片的本地内存中读取数据，类似于计算机在处理数据时不用从外接的移动硬盘中读取数据，而是从计算机本身的内存中读取数据，由于片上内存具有更高的数据传输带宽以及更低的时间延迟，本发明从而进一步增加整个系统的运算速度，减少数据处理的时间。本发明还提供了一种基于FPGA板卡的运算优化的装置及系统，同样具有上述有益效果，在此不再进行赘述。

附图说明

为了更清楚的说明本发明实施例或现有技术的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例所提供的第一种运算优化方法的流程图；

图2为本发明实施例所提供的第二种运算优化方法的流程图；

图3为本发明实施例提供的一种运算优化装置的结构框图；

图4为本发明实施例提供的一种运算优化系统的结构框图。

具体实施方式

本发明的核心是提供一种基于FPGA板卡的运算优化的方法，在现有技术中，通常仅仅是通过CPU在对大数据处理，由于CPU为冯诺依曼结构，是串行地执行一系列指令，再进行数据的运算过程中，对于某些重复的运算需要依次通过多个时间周期来进行运算。所以现有技术在使用过程中，往往其计算时间较长，在数据处理时运行速度较慢。

而本发明所提供的。一种基于FPGA板卡的运算优化的方法，可以将部分由CPU执行的运算转移到FPGA板卡中，由于FPGA板卡是用硬件描述语言所完成的电路设计，可以实现并行操作。通俗的讲，CPU与FPGA板卡在运算过程中的根本区别在于软件与硬件的差异。将部分由CPU执行的运算转移到FPGA板卡中之后，通过FPGA板卡可以同时的进行一些重复量大，非常耗时的计算，从而有效的增加整个系统的运算速度。

为了使本技术领域的人员更好地理解本发明方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1，图1为本发明实施例所提供的第一种运算优化方法的流程图，该方法包括：

S101：接收由CPU发送的运算调用指令。

在本发明实施例中，CPU作为中央处理器，是在进行数据运算时的主要器件，主要用于处理各种业务。而FPGA板卡作为协处理器，起到协助运算的作用，主要是对CPU中的某些计算量大，或者是比较复杂的数据进行运算，利用自身硬件固有的加速特性对整个运算进行加速。其中，CPU作为中央处理器还起到对协处理器进行管理的作用，例如发送运算所需要的数据，以及发送运算开始指令等等。

在本步骤中，CPU会向FPGA板卡发送运算调用指令以开始对发送的数据进行运算。

S102：接收由CPU发送的数据。

在本步骤中，所述数据为对应于预先设置在FPGA板卡的核心运算的数据。

需要指出的是，步骤S101与步骤S102可以进行互换，其顺序并不影响本发明的实现。

在本发明实施例中，会预先在FPGA板卡中设置需要进行的核心运算，有关该核心运算通常是人为定位的。例如在需要用到朴素贝叶斯算法对数据进行分类时，对于需要被分类的数据进行检索是其核心运算部分，同样也是该运算过程中最耗时的部分。此时可以预先在FPGA板卡中设置朴素贝叶斯算法中有关数据分类的核心运算的代码以及电路等等，即让FPGA板卡从数据中找出具有相同类标签的特征值向量进行累加。

在通常情况下，需要分类的数据通常很大，其容量是在GB到TB这个量级的，而所述标签的种类通常是在千这个量级，在分类时是将需要分类的数据中具有相同标签的特征值向量进行累加。若是使用CPU进行运算，会依次执行上述依据数据的标签进行分类这个重复运算步骤，这将会非常耗时。而使用FPGA板卡进行运算，可以同时执行多个上述依据数据的标签进行分类这个重复运算步骤，从而加快整个系统的运算速度。

当然，除了上述分类算法以外，本发明所提供的方法还可以应用到其他算法之中，用于提高该算法的运算速度。

S103：利用FPGA板卡中的芯片对数据进行运算，生成运算结果。

在本步骤中，所述FPGA板卡中的芯片是整个FPGA板卡的核心部分，可以在设计芯片电路时采用一系列并行化设计数字电路的方法来实现算法的并行化，最终用于对数据进行运算。

S104：将运算结果发送至CPU。

在得到运算结果之后，会将上述运算结果发送至CPU；也可以是FPGA板卡向CPU发送运算完成信息，然后CPU再根据运算完成信息从FPGA板卡中获取运算结果；还可以是CPU定时从FPGA板卡中获取所述运算结果。当然，还可以选用其他获取所述运算结果的方式，在此不做具体限定。

本发明实施例所提供的一种基于FPGA板卡的运算优化的方法，可以将部分由CPU执行的运算转移到FPGA板卡中，由于FPGA板卡是用硬件描述语言所完成的电路设计，可以实现并行操作。将部分由CPU执行的运算转移到FPGA板卡中之后，通过FPGA板卡可以同时的进行一些重复量大，非常耗时的计算，从而有效的增加整个系统的运算速度。

在本发明中，为了进一步的提高整个系统的运算速度，可以进一步的将存储在全局内存的数据转移到FPGA板卡中的芯片的片上内存中在进行运算，从而进一步提高FPGA的运算性能。详细情况请参照下述实施例。

请参考图2，图2为本发明实施例所提供的第二种运算优化方法的流程图，该方法包括：

S201：接收由CPU发送的运算调用指令。

本步骤与上述实施例中S101相同，详细情况已在上述实施例中做详细描述，在此不再进行赘述。

S202：将CPU发送的数据存储在FPGA板卡的全局内存中。

在本发明实施例中,通常情况下是先将对应于预先设置在FPGA板卡的核心运算的数据储存在FPGA板卡的全局内存中，所述全局内存为设置在FPGA板卡之中，但是设置在用于运算的芯片之外的内存，该内存通常情况下是使用DDR(双倍速率同步动态随机存储器)存储器进行存储，通常情况下全局内存会有1到2GB的内存空间。当然也可以选择其他存储器进行存储，其具体的内存空间也可以视具体的情况而发生变化，在本发明实施例中不做具体限定。

S203：将数据从全局内存中转移到FPGA板卡中的芯片的片上内存中。

在本发明实施例中，所述芯片的片上内存相当于芯片本身的本地内存，所述芯片相对于所述片上内存的关系相当于计算机相对于本地内存的关系；而芯片相对于全局内存的关系相当于计算机相对于外接移动硬盘的关系。芯片可以直接读取片上内存中的数据，但是芯片读取全局内存的数据时需要通过线路进行访问在进行读取。片上内存相对于全局内存具有更高的数据传输带宽以及较低的时间延迟。

在本发明实施例中，也可以将CPU发送的数据直接存储进片上内存，但是通常情况下片上内存的存储空间比较少，无法一次性的存储太多的数据，所以通常是先将CPU发送的数据存储在全局内存之中，再将一部分数据从全局内存转移到片上内存中让芯片进行运算，在运算结束之后再将下一部分数据转移到所述片上内存中进行运算，循环上述步骤，直到所有数据都计算完毕。

在设置片上内存的时候，可以进一步的设置有多个片上内存，芯片从多个片上内存中同时获取数据进行运算，从而进一步的增加计算数据时候的并行性。

S204：利用芯片从片上内存中读取数据并进行运算，生成运算结果。

本步骤与上述实施例中S103基本相同，区别在于本发明实施例中芯片是从片上内存中读取数据。当设置有多个片上内存时，相应的所述芯片会从多个所述片上内存中读取所述数据并进行运算，生成所述运算结果。其余情况已在上述实施例中做详细描述，在此不再进行展开描述。

S205：将运算结果存入全局内存。

在本步骤中，会将由S204中所生成的运算结果存入全局内存中，当然，也可以直接将运算结果发送至CPU，但是由于芯片通常情况下会进行多次的运算，同理也会多次产生运算结果。先将所述运算结果储存在全局内存中，最后一次性将全部的运算结果发送至CPU可以减少FPGA板卡与CPU之间的通讯次数。

S206：将运算结果通过全局内存发送至CPU。

本步骤与上述实施例中S104基本相同，详细情况请参照上述实施例，在此不再进行赘述。

本发明实施例所提供的一种基于FPGA板卡的运算优化的方法，可以将储存在FPGA板卡的全局内存中的数据转移到芯片的片上内存中，从而减少了所述芯片在运算过程中频繁的从全局内存中调用以及读取数据，可以让芯片直接中所述芯片的本地内存中读取数据，类似于计算机在处理数据时不用从外接的移动硬盘中读取数据，而是从计算机本身的内存中读取数据，由于片上内存具有更高的数据传输带宽以及更低的时间延迟，本发明从而进一步增加整个系统的运算速度，减少数据处理的时间。

下面对本发明实施例提供的一种基于FPGA板卡的运算优化装置进行介绍，下文描述的运算优化装置与上文描述的运算优化方法可相互对应参照。

图3为本发明实施例提供的一种运算优化装置的结构框图，参照图3运算优化装置可以包括：

指令接收模块100：用于接收由CPU发送的运算调用指令。

数据接收模块200：用于接收由所述CPU发送的数据，所述数据为对应于预先设置在FPGA板卡的核心运算的数据。

运算模块300：用于利用所述FPGA板卡中的芯片对所述数据进行运算，生成运算结果。

发送模块400：用于将所述运算结果发送至所述CPU。

在本发明实施例中，所述数据接收模块200可以进一步包括：

存储单元201：用于将所述CPU发送的所述数据存储在所述FPGA板卡的全局内存中。

转移单元202：用于将所述数据从所述全局内存中转移到所述FPGA板卡中的所述芯片的片上内存中。

所述运算模块300可以具体用于：

在本发明实施例中，所述转移单元202可以具体用于：

将所述数据从所述全局内存中转移到所述FPGA板卡中的所述芯片的多个所述片上内存中。

所述运算模块300可以具体用于：

在本发明实施例中，所述运算优化装置可以进一步包括：

数据整合模块500：用于将所述运算结果存入所述全局内存。

所述发送模块400可以具体用于：

将所述运算结果通过所述全局内存发送至所述CPU。

本实施例的一种基于FPGA板卡的运算优化装置用于实现前述的一种基于FPGA板卡的运算优化方法，因此运算优化装置中的具体实施方式可见前文中的运算优化方法的实施例部分，例如，指令接收模块100，数据接收模块200，运算模块300，发送模块400，分别用于实现上述运算优化方法中步骤S101，S102，S103和S104，所以，其具体实施方式可以参照相应的各个部分实施例的描述，在此不再进行展开描述。

下面对本发明实施例提供的一种基于FPGA板卡的运算优化系统进行介绍。

图4为本发明实施例提供的一种运算优化系统的结构框图，参照图4运算优化系统可以包括多个节点600，所述节点包括CPU601和FPGA板卡602，所述FPGA板卡602包括上述任一种运算优化装置。

在本发明实施例中，所述CPU601与所述FPGA板卡602之间通过PIC-E接口进行连接。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上对本发明所提供的一种基于FPGA板卡的运算优化方法、装置以及系统进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

Claims

1.一种基于FPGA板卡的运算优化的方法，其特征在于，所述方法包括：

接收由CPU发送的运算调用指令；

将所述运算结果发送至所述CPU。

2.根据权利要求1所述的方法，其特征在于，所述接收由所述CPU发送的数据包括：

将所述CPU发送的所述数据存储在所述FPGA板卡的全局内存中；

3.根据权利要求2所述的方法，其特征在于，所述片上内存包括多个片上内存。

4.根据权利要求2所述的方法，其特征在于，在生成运算结果之后，所述方法进一步包括：

将所述运算结果存入所述全局内存；

所述将所述运算结果发送至所述CPU包括：

将所述运算结果通过所述全局内存发送至所述CPU。

5.一种基于FPGA板卡的运算优化的装置，其特征在于，所述装置包括：

指令接收模块：用于接收由CPU发送的运算调用指令；

发送模块：用于将所述运算结果发送至所述CPU。

6.根据权利要求5所述的装置，其特征在于，所述数据接收模块包括：

所述运算模块具体用于：

7.根据权利要求6所述的装置，其特征在于，所述转移单元具体用于：

所述运算模块具体用于：

8.根据权利要求6所述的装置，其特征在于，所述装置进一步包括：

数据整合模块：用于将所述运算结果存入所述全局内存；

所述发送模块具体用于：

将所述运算结果通过所述全局内存发送至所述CPU。

9.一种基于FPGA板卡的运算优化的系统，其特征在于，所述系统包括多个节点，所述节点包括CPU和FPGA板卡，所述FPGA板卡包括如权利要求5至8任一项权利要求所述的装置。

10.根据权利要求9所述的系统，其特征在于，所述CPU与所述FPGA板卡之间通过PIC-E接口进行连接。