CN108446253B

CN108446253B - 一种针对神威体系架构的稀疏矩阵向量乘的并行计算方法

Info

Publication number: CN108446253B
Application number: CN201810262274.6A
Authority: CN
Inventors: 杨海龙; 刘常喜; 李云春; 栾钟治
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2018-03-28
Filing date: 2018-03-28
Publication date: 2021-07-23
Anticipated expiration: 2038-03-28
Also published as: CN108446253A

Abstract

本发明涉及一种针对神威体系架构的稀疏矩阵向量乘的并行计算方法，包括：将稀疏矩阵由原来的单层次数据结构，分割为多层次数据结构，多层次数据结构包括fleet、block、tile、slice四个层次；将多层次数据结构分别对应到神威的硬件体系结构和计算层次之中，提高了数据的空间和时间局部性，从而减少了从核组和内存之间的交互次数。

Description

一种针对神威体系架构的稀疏矩阵向量乘的并行计算方法

技术领域

本发明涉及高性能计算机领域，尤其是涉及适用于神威超级计算机体系架构的稀疏矩阵与稠密向量相乘的并行计算优化方法。

背景技术

稀疏矩阵与稠密向量相乘(Sparse Matrix-vector Multiply,简写为SpMV)是众多领域程序里面一个十分重要，却又独立的计算核心。在流体力学、分子动力学等诸多涉及高性能计算的领域都有着广泛的应用。而且在如佩奇排名(PageRank)、广度优先搜索等图计算领域问题，也都可以抽象为SpMV问题。

SpMV问题在计算过程中有着两个突出的问题，分别是计算和访存模式的不规则。这些不规则是由于访存顺序的随机性导致的，很难利用数据的局部性。由于这种不规则的模式和输入的稀疏矩阵的随机顺序有很大关系，使得其在编译器阶段，很难被解决。而从硬件的角度考虑，这些不规则又会导致隐藏的写冲突问题，从而影响并限制指令级别和线程级别的并行。

这些使得SpMV算法应用到神威超级计算机体系结构上回带来更大的挑战。神威超级计算机是由10649600个SW26010处理器组成的。它以双精度浮点计算125PFLops的计算能力自2016年至当前2018年，蝉联超级计算机top500第一名。神威超级计算机体系架构不同于GPGPU、Intel Xeon Phi等，有着自己独特的设计思路。它有着类似于CPU的主核作为主要处理单元，同时在芯片内，也有着64个从核做为从核组，用作自己的计算加速单元。这个从核组内部每个从核有64KB的局存作为局部缓存数据，同时每一行和每一列的从核之间还可以通过寄存器通信，进行数据的交互。

发明内容

针对现有的SpMV应用于神威超级计算机体系架构计算效率较低的现状，我们提出了一种适用于神威超级计算机体系架构的稀疏矩阵存储结构，以及针对该结构的SpMV的计算方法，该方法能够有效提高SpMV在神威超级计算机体系架构上的计算效率。

本发明提供了一种针对稀疏矩阵与稠密向量相乘的并行计算方法，包括：将稀疏矩阵由原来的单层次数据结构，分割为多层次数据结构，多层次数据结构包括fleet、block、tile、slice四个层次；将多层次数据结构分别对应到神威的硬件体系结构和计算层次之中。

进一步的，为了保证能够及时缓存计算数据，在tile层和slice层之间加入batch机制，每次缓存从核能够承载的最多数量的slices；同时为了减少等待缓存的时间，同时采用异步缓存技术，每次提前缓存下一个batch需要的数据，在计算时直接采用上次已经提前缓存好的数据。

进一步的，将8×8核组的同行的几个从核组合成与多层数据结构中fleet层对应的计算单元来进行协同计算；每个计算单元由一个I/O核和若干个计算核构成，I/O核负责接收计算核计算出的结果，加入到该I/O核对于结果向量的缓存中，并在一个block处理完后，将对应的结果向量缓存写回内存中。这样就将从核组的从核分为了多组计算单元来完成任务，各个计算单元之间任务不需要交互，从而减少了从核组与内存之间的直接交互。

进一步的，计算核的计算流程包括以下步骤：

步骤(1)判断分配的Block是否已经计算完毕，如果是，则执行步骤(8)，否则执行步骤(2)；

步骤(2)判断Block内部的Tiles是否已经计算完毕，如果是，则执行步骤(7)，否则执行步骤(3)；

步骤(3)判断Tile内部的Batchs是否计算完毕，如果是，则执行步骤(2)，否则执行步骤(4)；

步骤(4)缓存该Batch计算需要的所有数据，执行步骤(5)；

步骤(5)判断Batch内部的Slices是否计算完毕，如果是，则执行步骤(3)，否则执行步骤(6)；

步骤(6)计算Slices内部的数据，并在之后将计算结果传入I/O核中，执行步骤(5)；

步骤(7)发送一个Block已完成的消息，并等待同步信息，在收到同步信息之后，执行步骤(1)；

步骤(8)计算完毕。

进一步的，I/O核的计算流程包括以下步骤：

步骤(a)判断分配的Block是否已经计算完毕，如果是，则执行步骤(i)，否则执行步骤(b)；

步骤(b)初始化完成任务的计算核数目为0，执行步骤(c)；

步骤(c)判断是否所有的计算核都完成了任务，是，则执行步骤(h)，否则执行步骤(d)；

步骤(d)等待接受计算核发来的消息，执行步骤(e)；

步骤(e)判断是否为Block已完成的消息，是，则执行步骤(g)，否则执行步骤(f)；

步骤(f)将传入的消息加入计算结果的对于位置，执行步骤(d)；

步骤(g)累计已完成任务的计算核的数量，执行步骤(c)；

步骤(h)发送同步消息给所有的计算核，执行步骤(a)；

步骤(i)计算完毕。

本发明的优点：

(1)通过对矩阵结构进行预分析和预处理，将稀疏矩阵由原来的单层次数据结构，分割为多层次数据结构，提高了数据的空间和时间局部性，从而减少了从核组和内存之间的交互次数。时间局部性是指在相对较小的持续时间内对特定数据和/或资源的重用。空间局部性是指在相对靠近的存储位置内使用数据元素。

(2)进一步的，在tile层和slice层之间加入batch机制，每次缓存从核能够承载的最多数量的slices，这样能够及时缓存计算数据；同时采用异步缓存技术，每次提前缓存下一个batch需要的数据，在计算时直接采用上次已经提前缓存好的数据，这样能够减少等待缓存的时间；从而提高了SpMV在神威体系架构上的计算效率；

(3)进一步的，本发明将8×8核组的同行的几个从核组合成与多层数据结构中fleet层对应的计算单元来进行协同计算；每个计算单元由一个I/O核和若干个计算核构成，它们共同完成整个Fleet分配的计算任务。从核组的从核分为了多组计算单元来完成任务，各个计算单元之间任务不需要交互，从核之间的数据交互只发生在计算单元内部。。

附图说明

图1是本发明的多层数据结构图；

图2是本发明中计算核和I/O核的运行流程的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明的基本思路在于，将矩阵的层次根据神威的体系架构划分为fleet、block、tile和slice等四个层次，这些层次分别对应着不同的硬件架构和计算层次。

本发明提供的针对稀疏矩阵与稠密向量相乘的并行计算方法，包括：将稀疏矩阵由原来的单层次数据结构，分割为多层次数据结构，多层次数据结构包括fleet、block、tile、slice四个层次；将多层次数据结构分别对应到神威的硬件体系结构和计算层次之中。本发明多层数据结构如图1所示。

进一步的，将8×8核组的同行的几个从核组合成与多层数据结构中fleet层对应的计算单元来进行协同计算；每个计算单元由一个I/O核和若干个计算核构成，它们共同完成整个Fleet分配的计算任务，I/O核负责接收计算核计算出的结果，加入到该I/O核对于结果向量的缓存中，并在一个block处理完后，将对应的结果向量缓存写回内存中。这样就将从核组的从核分为了多组计算单元来完成任务，各个计算单元之间任务不需要交互，从核之间的数据交互只发生在计算单元内部。

计算核和I/O核的运行流程分布如图2(a)和图2(b)所示。

计算核的计算流程包括以下步骤：

步骤(4)缓存该Batch计算需要的所有数据，执行步骤(5)；

步骤(8)计算完毕。

I/O核的计算流程包括以下步骤：

步骤(b)初始化完成任务的计算核数目为0，执行步骤(c)；

步骤(d)等待接受计算核发来的消息，执行步骤(e)；

步骤(g)累计已完成任务的计算核的数量，执行步骤(c)；

步骤(h)发送同步消息给所有的计算核，执行步骤(a)；

步骤(i)计算完毕。

本发明适用于神威体系架构上的稀疏矩阵与向量的并行高性能计算。通过调整原本的稀疏矩阵为多层次的矩阵，来对应神威体系架构下的各个硬件的性能，从而达到较好的优化效果。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种针对神威体系架构的稀疏矩阵向量乘的并行计算方法，其特征在于，包括：

将稀疏矩阵由原来的单层次数据结构，分割为多层次数据结构，多层次数据结构包括fleet、block、tile、slice四个层次；fleet为针对稀疏矩阵的行进行切割，是计算单元的任务单元；tile是对fleet针对稀疏矩阵的列进行切割，为每个计算核的任务单元；slice是tile的一行数据，为一次寄存器通信可以传输的任务单元；block为多个连续的slice；

将多层次数据结构分别对应到神威的硬件体系结构和计算层次之中；

将8×8核组的同行的几个从核组合成与多层数据结构中fleet层对应的计算单元来进行协同计算；每个计算单元由一个I/O核和若干个计算核构成，I/O核负责接收计算核计算出的结果，加入到该I/O核对于结果向量的缓存中，并在一个block处理完后，将对应的结果向量缓存写回内存中；

在tile层和slice层之间加入batch机制，每次缓存从核能够承载的最多数量的slices；同时采用异步缓存技术，每次提前缓存下一个batch需要的数据，在计算时直接采用上次已经提前缓存好的数据。

2.根据权利要求1所述的针对神威体系架构的稀疏矩阵向量乘的并行计算方法，其特征在于，计算核的计算流程包括以下步骤：

步骤(4)缓存该Batch计算需要的所有数据，执行步骤(5)；

步骤(8)计算完毕。

3.根据权利要求1所述的针对神威体系架构的稀疏矩阵向量乘的并行计算方法，其特征在于，I/O核的计算流程包括以下步骤：

步骤(b)初始化完成任务的计算核数目为0，执行步骤(c)；

步骤(d)等待接受计算核发来的消息，执行步骤(e)；

步骤(f)将传入的消息加入计算结果的对应位置，执行步骤(d)；

步骤(g)累计已完成任务的计算核的数量，执行步骤(c)；

步骤(h)发送同步消息给所有的计算核，执行步骤(a)；

步骤(i)计算完毕。