CN109408148B

CN109408148B - 一种国产化计算平台及其应用加速方法

Info

Publication number: CN109408148B
Application number: CN201811246260.1A
Authority: CN
Inventors: 赵明亮; 王吕大; 沈月峰
Original assignee: Beijing Institute of Computer Technology and Applications
Current assignee: Beijing Institute of Computer Technology and Applications
Priority date: 2018-10-25
Filing date: 2018-10-25
Publication date: 2021-06-08
Anticipated expiration: 2038-10-25
Also published as: CN109408148A

Abstract

本发明涉及一种国产化计算平台及其应用加速方法，涉及计算机技术领域。本发明带FPGA异构加速卡的国产化计算平台，把应用所需要的运算分成两个部分，主机(CPU)部分和异构加速卡部分，主机部分主要负责执行流程的控制管理，异构加速卡则负责擅长的大规模并行计算，从而大大提高了整机系统的性能和能效比。

Description

一种国产化计算平台及其应用加速方法

技术领域

本发明涉及计算机技术领域，具体涉及一种国产化计算平台及其应用加速方法。

背景技术

传统的通用国产化计算平台所有的运算都由主机(CPU)来完成，因此在面对CPU并不擅长的复杂运算时就显得非常吃力，严重影响了用户的使用体验，导致其难以应用在需要高性能和高能效比的应用场合。

发明内容

(一)要解决的技术问题

本发明要解决的技术问题是：如何设计一种国产化计算平台及其应用加速方法，大大提高其性能和能效比。

(二)技术方案

为了解决上述技术问题，本发明提供了一种国产化计算平台，包括主机端和利用FPGA实现的异构加速卡；

所述主机端用于首先查询异构加速卡的类型和数量，根据查询到的异构加速卡信息创建执行环境；然后把可执行的矩阵乘法AOCX格式算法文件写入异构加速卡，完成异构加速卡的配置；接着分配异构加速卡内存，把要计算的数据写入异构加速卡内存；还用于读取异构加速卡内存的运算结果；

所述异构加速卡用于对内部的计算资源进行组织，多线程并发执行计算过程。

本发明还提供了一种利用所述的国产化计算平台实现应用加速的方法，包括以下步骤：

所述主机端首先查询异构加速卡的类型和数量，根据查询到的异构加速卡信息创建执行环境；然后把可执行的矩阵乘法AOCX格式算法文件写入异构加速卡，完成异构加速卡的配置；接着分配异构加速卡内存，把要计算的数据写入异构加速卡内存；

所述异构加速卡对内部的计算资源进行组织，多线程并发执行计算过程；

所述主机端读取异构加速卡内存的运算结果。

优选地，若所述主机端写入异构加速卡内存的数据为矩阵A、矩阵B的数据；则异构加速卡把内部的计算资源组织成工作组与工作项阵列，每一个工作项计算矩阵C的一个元素，多线程并发执行；每个工作项都计算完成后，完成计算矩阵A、矩阵B乘积的任务；然后主机读取异构加速卡内存的运算结果。

优选地，所述异构加速卡把内部的计算资源组织成工作组与工作项阵列，每一个工作项计算矩阵C的一个元素，多线程并发执行的步骤具体为：

每个工作组计算一个方阵sub，sub是C的一部分，而工作组内的每个工作项计算sub的一个元素，sub等于两个长方形矩阵的乘积：设矩阵A的长方形的子矩阵尺寸是(X,K)，X行K列，矩阵B的长方形的子矩阵的尺寸是(K,X)，K行X列，将两个长方形的子矩阵分割成尺寸为(X,X)的方阵，sub是对这些方阵积求和，将工作组大小设置为X*X，工作组中的每个工作项只保存sub的一个元素；

设代码by、bx分别表示当前工作组的行、列索引，也表示当前工作组要计算的矩阵分块索引，代码ty、tx分别表示当前工作组内的工作项的行、列索引，也表示当前工作组要计算的矩阵的元素索引；

每个sub的具体计算流程为：

以一个工作项载入一个数据的方式从全局存储器中将两个对应的sub载入局部存储器中，同步以保证计算结果已写入局部存储器；

一个工作项计算乘积的一个元素，并将结果保存在寄存器中，循环这一步直到计算完两个尺寸为(X,X)的方阵中的对应数据；

同步保证工作组内所有工作项都已使用完加载进局部存储器的数据，循环直到计算完当前sub；

将每个工作项的寄存器中的结果写入全局存储器。

(三)有益效果

本发明带FPGA异构加速卡的国产化计算平台，把应用所需要的运算分成两个部分，主机(CPU)部分和异构加速卡部分，主机部分主要负责执行流程的控制管理，异构加速卡则负责擅长的大规模并行计算，从而大大提高了整机系统的性能和能效比。

具体实施方式

为使本发明的目的、内容、和优点更加清楚，下面结合实施例，对本发明的具体实施方式作进一步详细描述。

本发明提供了一种国产化计算平台，包括主机端和利用FPGA实现的异构加速卡；

所述主机端读取异构加速卡内存的运算结果。

若所述主机端写入异构加速卡内存的数据为矩阵A、矩阵B的数据；则异构加速卡把内部的计算资源组织成工作组与工作项阵列，每一个工作项计算矩阵C的一个元素，多线程并发执行，这样相当于把矩阵乘法这个大任务分配给多个运算单元来并行执行，大大缩短了运算时间；每个工作项都计算完成后，完成计算矩阵A、矩阵B乘积的任务；然后主机读取异构加速卡内存的运算结果。

所述异构加速卡把内部的计算资源组织成工作组与工作项阵列，每一个工作项计算矩阵C的一个元素，多线程并发执行的步骤具体为：

每个工作组计算一个小方阵sub，sub是C的一部分，而工作组内的每个工作项计算sub的一个元素，sub等于两个长方形矩阵的乘积：设矩阵A的长方形的子矩阵尺寸是(X,K)，X行K列，矩阵B的长方形的子矩阵的尺寸是(K,X)，K行X列，为了解决局部存储器量不足的问题，满足设备的资源，再次使用分块处理的思想，将两个长方形的子矩阵分割成尺寸为(X,X)的方阵，sub是对这些方阵积求和，为了方便计算，将工作组大小设置为X*X，这样就无须显式地保存sub，工作组中的每个工作项只保存sub的一个元素即可；

设代码by、bx分别表示当前工作组的行、列索引，也表示当前工作组要计算的小矩阵分块索引，代码ty、tx分别表示当前工作组内的工作项的行、列索引，也表示当前工作组要计算的小矩阵的元素索引；

每个sub的具体计算流程为：

以一个工作项载入一个数据的方式从全局存储器中将两个对应的sub载入局部存储器中，同步以保证计算结果已写入局部存储器(如以下代码中的code1、code2)；

一个工作项计算乘积的一个元素，并将结果保存在寄存器中，循环这一步直到计算完两个尺寸为(X,X)的方阵中的对应数据(如以下代码中的code3)；

同步保证工作组内所有工作项都已使用完加载进局部存储器的数据，循环(在如下代码中为循环外层for)直到计算完当前sub；

将每个工作项的寄存器中的结果写入全局存储器(如以下代码中的code4)。

经过测试，当A、B矩阵大小均为4096X 4096时，使用异构加速卡计算两矩阵相乘的时间比单独的国产化计算平台小两个数量级。

根据上述运算法则编写矩阵乘法OpenCL内核程序如下：

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种利用国产化计算平台实现应用加速的方法，其特征在于，

该国产化计算平台包括主机端和利用FPGA实现的异构加速卡；

所述异构加速卡用于对内部的计算资源进行组织，多线程并发执行计算过程；

该方法包括以下步骤：

所述主机端读取异构加速卡内存的运算结果；

若所述主机端写入异构加速卡内存的数据为矩阵A、矩阵B的数据；则异构加速卡把内部的计算资源组织成工作组与工作项阵列，每一个工作项计算矩阵C的一个元素，多线程并发执行；每个工作项都计算完成后，完成计算矩阵A、矩阵B乘积的任务；然后主机读取异构加速卡内存的运算结果；

每个sub的具体计算流程为：

将每个工作项的寄存器中的结果写入全局存储器。