CN116910432A

CN116910432A - 基于异构众核处理器的稀疏矩阵向量乘方法和装置

Info

Publication number: CN116910432A
Application number: CN202310888283.7A
Authority: CN
Inventors: 李胜国; 董德尊; 毕德顺
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2023-07-19
Filing date: 2023-07-19
Publication date: 2023-10-20

Abstract

本发明公开了一种基于异构众核处理器的稀疏矩阵向量乘方法和装置，所述方法包括：所述方法基于异构众核处理器的一个加速域来实现；获取需要进行乘法运算的稀疏矩阵和向量；将所获取的稀疏矩阵和向量进行格式转化，将格式转化后的稀疏矩阵和向量存入所述异构众核处理器的内存中；对所述异构众核处理器的内存中稀疏矩阵和向量进行相乘运算，得到相乘结果。本发明利用异构众核处理器的多级内存架构，解决传统SpMV访存受限和性能低的问题。异构众核处理器有多个DSP核可以用来加速，借助异构众核处理器丰富的计算资源，设计和开发高效并行的SpMV运算，采用多线程并行执行提高并行度，可以有效的提升计算性能。

Description

基于异构众核处理器的稀疏矩阵向量乘方法和装置

技术领域

本发明涉及高性能计算领域，尤其涉及一种基于异构众核处理器的稀疏矩阵向量乘方法。

背景技术

目前，稀疏矩阵向量乘(Sparse Matrix-Vector Multiplication，SpMV)在科学计算、图形分析、信号处理等领域有着广泛的应用。对于SpMV而言，其中参与计算的矩阵是稀疏的，即矩阵中大部分元素都为零，所以通常只压缩存储非零元，最常见的存储格式有：坐标格式COO(Coordinate)、压缩行存储格式CSR(Compressed Sparse Row)、ELL格式(ELLPACK)、切片的ELL格式SELL(Sliced ELL)等。因为稀疏矩阵向量乘是众多领域中的核心问题，所以对稀疏矩阵向量乘加速是本领域技术人员最关注的问题之一。

目前，高性能计算机已经得到了日益普遍的工业应用，当前的高性能计算机很多采用异构众核处理器来实现。例如，基于MT-3000的异构众核处理器的“天河新一代高性能超级计算机”是一种典型的高性能巨型计算机。

随着以MT-3000为代表异构众核构架处理器的出现，充分利用这种特殊架构的计算能力对稀疏矩阵向量乘运算进行加速计算，是目前需要解决的一个技术难题。原始稀疏矩阵向量乘SpMV并不适用于异构众核处理器，该方法存在访存受限和性能低的问题。这是由于稀疏矩阵自身的非零元分布不规则，而传统的CSR等存储格式不考虑稀疏矩阵元素的数据局部性，直接压缩存储稀疏矩阵的非零元，导致分布甚远的非零元存储到一起；进行索引匹配时，非零元的列索引不规则地访问DDR内存中向量X的不同位置，造成高昂的访存延迟，导致较大的开销。同时，异构众核处理器的加速域上具有高速的片上缓存，传统的SpMV算法没考虑该独特的架构特征，导致性能的低下。

发明内容

针对现有的SpMV应用于异构众核处理器的计算构架访存带宽低、延迟大的问题，本发明公开了一种基于异构众核处理器的稀疏矩阵向量乘方法，有效提升访存带宽和降低访存延迟，以提升SpMV的性能。

本发明公开了一种基于异构众核处理器的稀疏矩阵向量乘方法，包括：

所述方法基于异构众核处理器的一个加速域来实现；

S1，获取需要进行乘法运算的稀疏矩阵和向量；

S2，将所获取的稀疏矩阵和向量进行格式转化，将格式转化后的稀疏矩阵和向量存入所述异构众核处理器的内存中；

S3，对所述异构众核处理器的内存中稀疏矩阵和向量进行相乘运算，得到相乘结果。

所述的基于异构众核处理器的稀疏矩阵向量乘方法，其特征在于，所述异构众核处理器，包括一个通用计算域、若干个加速域和若干个DDR内存；所述通用计算域包括若干个通用CPU核，所述一个加速域，包括若干个DSP核和片上全局共享内存GSM，所述一个DSP核，包括一个控制核、一个AM内存和若干个加速核；所述DDR内存、GSM和AM内存，三者之间支持DMA数据传输。

所述将所获取的稀疏矩阵和向量进行格式转化，将格式转化后的稀疏矩阵和向量存入所述异构众核处理器的内存中，包括：

将所获取的稀疏矩阵和向量转化为SELL格式的稀疏矩阵A和向量X，将所述SELL格式的稀疏矩阵A信息和向量X信息，存入所述异构众核处理器的内存中；所述SELL格式的稀疏矩阵A信息，包括所述稀疏矩阵A的非零元值、非零元列索引和基本行块信息；所述稀疏矩阵A，其维度为m×n；所述向量X，其维度为n；所述SELL格式的稀疏矩阵A，包括若干个基本行块；所述基本行块信息，包括非零元值、非零元列索引和行块索引。

所述对所述异构众核处理器的内存中稀疏矩阵和向量进行相乘运算，得到相乘结果，包括：

S31，根据向量X的维度和GSM存储空间值，对向量X进行均匀划分，得到子向量集合；所述子向量集合，包括若干个子向量和子向量序号；所述子向量集合所包含的子向量的数目为XN，所述子向量序号的取值范围为从1至XN；

S32，将所述稀疏矩阵A，按照列方向进行均匀划分，得到XN个稀疏子矩阵；对所述稀疏子矩阵根据其列序号进行编号，得到所述稀疏子矩阵的序号；

S33，确定序号为1的稀疏子矩阵为当前计算稀疏子矩阵；确定序号为1的子向量为当前计算子向量；初始化乘法计算结果向量；

S34，对当前计算稀疏子矩阵和当前计算子向量进行计算处理，得到当前乘法计算结果；根据当前计算子向量的序号值，将所述当前乘法计算结果作为所述乘法计算结果向量的排序为所述序号值的元素，存入所述乘法计算结果向量中；

S35，判断当前计算子向量的序号值是否等于XN，得到第一判断结果；若所述第一判断结果是不等于XN，利用当前计算子向量的下一个序号值的子向量，作为当前计算子向量，利用当前计算稀疏子矩阵的下一个序号值的稀疏子矩阵，作为当前计算稀疏子矩阵，执行S34；

若所述第一判断结果是等于XN，将所述乘法计算结果向量的所有元素值进行行方向的对应累加，得到累加结果；将所述累加结果，作为稀疏矩阵和向量的相乘结果。

所述根据向量X的维度和GSM存储空间值，对向量X进行均匀划分，得到子向量集合，包括：

S311，根据向量X的维度和GSM存储空间值，计算得到子向量的维度；所述计算过程，包括：

其中，GSML为GSM存储空间值，num为第一维度因子，BCol为子向量的维度；

S312，根据子向量的维度，计算得到子向量的数目XN；所述XN的计算公式为：

S313，根据子向量的数目XN，对向量X进行均匀划分，得到若干个子向量；

S314，根据子向量在向量X中的位置排序，对每个子向量进行编号，得到每个子向量序号；

S315，对所有子向量和子向量序号进行整合处理，得到子向量集合。

所述对当前计算稀疏子矩阵和当前计算子向量进行计算处理，得到当前乘法计算结果，包括：

S341，利用DMA点对点传输方法，将所述当前计算子向量，从所述异构众核处理器的内存中加载到用于实现稀疏矩阵和向量乘法计算的加速域的GSM上；

S342，根据所述加速域的DSP核的AM内存的存储空间值和所述加速域所包含DSP核的数目，确定矩阵行划分数XM；

S343，根据所述矩阵行划分数XM，对所述当前计算稀疏子矩阵，按照行方向进行均匀划分，得到XM个一级行块；所述一级行块，包括若干个基本行块；

S344，为每个一级行块，分配相应的用于计算的DSP核；每个DSP核用于实现一个一级行块与当前计算子向量的乘法计算；所有DSP核，采用并行运行的方式，实现对应的一级行块与当前计算子向量的乘法计算；

S345，对于每个DSP核，根据对应的一级行块所包括的基本行块的行块索引值排序，依次计算得到每个基本行块与当前计算子向量的乘法结果；在得到每个基本行块与当前计算子向量的乘法结果后，利用所有基本行块与当前计算子向量的乘法结果，构建得到所述DSP核对应的一级行块与当前计算子向量的乘法结果；

S346,当所有DSP核均得到对应的一级行块与当前计算子向量的乘法结果后，利用所有DSP核对应的一级行块与当前计算子向量的乘法结果，构建得到当前计算稀疏子矩阵和当前计算子向量的乘法计算结果。

所述对于每个DSP核，根据对应的一级行块所包括的基本行块的行块索引值排序，依次计算得到每个基本行块与当前计算子向量的乘法结果，包括：

S3451,对于每个DSP核，根据对应的一级行块所包括的基本行块的行块索引值排序，依次确定每个基本行块的计算次序；

S3452,根据所述计算次序，从所述一级行块所包括的基本行块中，确定出当前计算的基本行块；

S3453,根据当前计算的基本行块的非零元列索引，将所述非零元列索引对应的所述当前计算子向量的元素值，从GSM搬移到所述DSP核的AM内存上；

S3454,根据当前计算的基本行块的非零元列索引，利用DMA点对点传输方法，加载当前计算的基本行块的非零元值，到所述DSP核的向量运算空间AM上；

S3455,利用所述DSP核的加速核，对所述当前计算的基本行块的非零元值，与所述非零元列索引对应的所述当前计算子向量的元素值，进行乘法计算，得到所述当前计算的基本行块与当前计算子向量的乘法结果；

S3456,对所述一级行块所包括的所有基本行块，依次执行S3452至S3455，得到每个基本行块与当前计算子向量的乘法结果。

本发明公开了一种用于稀疏矩阵向量乘方法的数据处理装置，所述装置包括：

存储有可执行程序代码的存储器；

与所述存储器耦合的处理器；

所述处理器调用所述存储器中存储的所述可执行程序代码，执行所述的基于异构众核处理器的稀疏矩阵向量乘方法。

本发明公开了一种计算机可存储介质，所述计算机存储介质存储有计算机指令，所述计算机指令被调用时，用于执行所述的基于异构众核处理器的稀疏矩阵向量乘方法。

本发明公开了一种信息数据处理终端，所述信息数据处理终端用于实现所述的基于异构众核处理器的稀疏矩阵向量乘方法。

本发明的有益效果为：

1)本发明利用异构众核处理器的多级内存架构，解决传统SpMV访存受限和性能低的问题。稀疏矩阵向量乘运算中，通常对向量X的访问是不规则的，而对于矩阵的非零元、列索引的访问是规则连续的；所以对向量X的访问开销远大于对矩阵属性值的访问开销；借助片上高速内存GSM缓存向量X，可有效降低稀疏矩阵向量乘中不规则内存访问的延迟。

2)异构众核处理器有多个DSP核可以用来加速，借助异构众核处理器丰富的计算资源，设计和开发高效并行的SpMV运算，采用多线程并行执行提高并行度，可以有效的提升计算性能。

附图说明

图1为本发明方法的实施流程图；

图2为MT-3000的架构图；

图3为基于异构众核处理器的稀疏矩阵向量乘方法的原理图；

图4为SELL格式的稀疏矩阵所包括的基本行块示意图。

具体实施方式

为了更好的了解本发明内容，这里给出一个实施例。

图1为本发明方法的实施流程图；图2为MT-3000的架构图；图3为基于异构众核处理器的稀疏矩阵向量乘方法的原理图。图4为SELL格式的稀疏矩阵所包括的基本行块示意图。

所述方法基于异构众核处理器的一个加速域来实现；

S1，获取需要进行乘法运算的稀疏矩阵和向量；

所述异构众核处理器，包括一个通用计算域、若干个加速域和若干个DDR内存；所述通用计算域包括若干个通用CPU核，所述一个加速域，包括若干个DSP核和片上全局共享内存GSM，所述一个DSP核，包括一个控制核、一个AM内存和若干个加速核；所述DDR内存、GSM和AM内存，三者之间支持DMA数据传输。

所述S2，包括：

将所获取的稀疏矩阵和向量转化为SELL格式的稀疏矩阵A和向量X，将所述SELL格式的稀疏矩阵A信息和向量X信息，存入所述异构众核处理器的内存中；所述SELL格式的稀疏矩阵A信息，包括所述稀疏矩阵A的非零元值、非零元列索引和基本行块信息。所述稀疏矩阵A，其维度为m×n；所述向量X，其维度为n。所述SELL格式的稀疏矩阵A，包括若干个基本行块。所述基本行块信息，包括非零元值、非零元列索引和行块索引。所述SELL格式的稀疏矩阵所包括的基本行块示意图如图4所示。

图4中，包括两个基本行块；基本行块的非零元值为[a c b d e f],所述基本行块的非零元列索引为[012313]，基本行块的行块索引为[046],Srow为基本行块的数目。

所述S3，包括：

所述S31，包括：

所述S33，可以是，当矩阵X＝[x1,x2,x3,x4,x5,x6,x7,x8]^T时，XN＝4，则得到的子向量分别是[x1,x2]，[x3,x4]，[x5,x6]，[x7,x8]，对应的编号，分别是1、2、3和4。

所述S32，当所述稀疏矩阵A为4行8列时，对所述稀疏矩阵A按照列方向进行均匀划分，得到4个稀疏子矩阵；所述稀疏矩阵A的表达式为：

得到的四个稀疏子矩阵，第一个稀疏子矩阵的表达式为：

第一个稀疏子矩阵的序号为1；依次类推，第二个稀疏子矩阵包括矩阵A的第3列和第4列，第三个稀疏子矩阵包括矩阵A的第5列和第6列，第四个稀疏子矩阵包括矩阵A的第7列和第8列。

S3453,根据当前计算的基本行块的非零元列索引，将所述非零元列索引对应的所述当前计算子向量的元素值，从GSM搬移到所述DSP核的向量运算空间AM上；所述S3453，可采用设计APip通道，并利用APip通道来实现传输。

所述异构众核处理器，可以是MT-3000处理器；所述MT-3000处理器，拥有1个通用计算域和四个加速域、DDR内存，其中通用计算域有16个通用CPU核，四个加速域共有96个控制核和1536个加速器核。

控制核和加速核组成加速域；每个加速域由24个DSP核组成，DSP核包括一个控制核和16个加速核；

每个加速域共有24个控制核、384个加速核，以及6MB的片上全局共享内存(GSM,Global Shared Memory)(每个加速域的24个控制核和384个加速核均可访问)；

每个加速域的每16个加速核共用768KB的AM(Array Memory)内存(每个DSP核内部的)，GSM、AM与DDR内存相互之间支持高效的DMA数据传输。本发明方法可使用一个加速域来实现。

所述S2，包括：

将基于COO格式的矩阵A的mtx文件(国际通用的Matrix Market稀疏矩阵文件存储格式，使用“.mtx”的ASCII文本文件存储)和向量X存储到MT-3000处理器的DDR内存中，并将矩阵COO格式转化为所需要的格式，本文以SELL格式为例。

所述根据所述加速域的DSP核的AM内存的存储空间值和所述加速域所包含DSP核的数目，确定矩阵行划分数XM，包括：

所述加速域所包含DSP核的数目为D1，所述DSP核的AM内存的存储空间值为S1，所述当前计算稀疏子矩阵的某一列所占用的存储空间为D2；确定所述矩阵行划分数XM为XM＝D1；所述DSP核的AM内存的存储空间值S1，假设划分出的每个矩阵行块包含D3个基本矩阵块，满足S1>3*(D2/(D1*D3))。(因为除了矩阵值，向量X也要搬移到AM上，每个基本块计算出的结果向量值也要暂时存储在AM上，后续才存回DDR内存，所以是3倍的)。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种基于异构众核处理器的稀疏矩阵向量乘方法，其特征在于，所述方法基于异构众核处理器的一个加速域来实现，包括：

S1，获取需要进行乘法运算的稀疏矩阵和向量；

2.如权利要求1所述的基于异构众核处理器的稀疏矩阵向量乘方法，其特征在于，所述异构众核处理器，包括一个通用计算域、若干个加速域和若干个DDR内存；所述通用计算域包括若干个通用CPU核，所述一个加速域，包括若干个DSP核和片上全局共享内存GSM，所述一个DSP核，包括一个控制核、一个AM内存和若干个加速核；所述DDR内存、GSM和AM内存，三者之间支持DMA数据传输。

3.如权利要求2所述基于异构众核处理器的稀疏矩阵向量乘方法，其特征在于，所述将所获取的稀疏矩阵和向量进行格式转化，将格式转化后的稀疏矩阵和向量存入所述异构众核处理器的内存中，包括：

4.如权利要求3所述基于异构众核处理器的稀疏矩阵向量乘方法，其特征在于，所述对所述异构众核处理器的内存中稀疏矩阵和向量进行相乘运算，得到相乘结果，包括：

5.如权利要求4所述基于异构众核处理器的稀疏矩阵向量乘方法，其特征在于，所述根据向量X的维度和GSM存储空间值，对向量X进行均匀划分，得到子向量集合，包括：

6.如权利要求4所述基于异构众核处理器的稀疏矩阵向量乘方法，其特征在于，所述对当前计算稀疏子矩阵和当前计算子向量进行计算处理，得到当前乘法计算结果，包括：

7.如权利要求6所述基于异构众核处理器的稀疏矩阵向量乘方法，其特征在于，所述对于每个DSP核，根据对应的一级行块所包括的基本行块的行块索引值排序，依次计算得到每个基本行块与当前计算子向量的乘法结果，包括：

8.一种用于稀疏矩阵向量乘方法的数据处理装置，其特征在于，所述装置包括：

存储有可执行程序代码的存储器；

与所述存储器耦合的处理器；

所述处理器调用所述存储器中存储的所述可执行程序代码，执行如权利要求1-7任一项所述的基于异构众核处理器的稀疏矩阵向量乘方法。

9.一种计算机可存储介质，其特征在于，所述计算机存储介质存储有计算机指令，所述计算机指令被调用时，用于执行如权利要求1-7任一项所述的基于异构众核处理器的稀疏矩阵向量乘方法。

10.一种信息数据处理终端，其特征在于，所述信息数据处理终端用于实现权利要求1-7任一项所述的基于异构众核处理器的稀疏矩阵向量乘方法。