CN107168683A

CN107168683A - 国产申威26010众核cpu上gemm稠密矩阵乘高性能实现方法

Info

Publication number: CN107168683A
Application number: CN201710310445.3A
Authority: CN
Inventors: 杨超; 蒋丽娟; 尹万旺; 敖玉龙; 魏迪; 袁欣辉; 刘芳芳; 张鹏
Original assignee: Institute of Software of CAS; Wuxi Jiangnan Computing Technology Institute
Current assignee: Institute of Software of CAS; Wuxi Jiangnan Computing Technology Institute
Priority date: 2017-05-05
Filing date: 2017-05-05
Publication date: 2017-09-15
Anticipated expiration: 2037-05-05
Also published as: CN107168683B

Abstract

本发明公开了国产申威26010众核CPU上GEMM稠密矩阵乘高性能实现方法，针对国产申威众核处理器26010，并基于存储结构、访存、硬件流水线以及寄存器级通信机制等平台特性，优化矩阵分块与核间数据映射方法，设计了自顶向下的三级分块并行块矩阵乘算法，基于寄存器级通信机制设计从核计算资源数据共享方法，并利用主从核间异步DMA数据传输机制，设计了计算与访存重叠的双缓冲策略，在单个从核上，设计了循环展开策略与软件流水线排布方法，使用了高效的寄存器分块模式以及SIMD向量化乘加指令，实现函数优化。该高性能GEMM函数性能与单核开源BLAS数学库GotoBLAS相比，平均加速比为227.94，最高加速比为296.93。

Description

国产申威26010众核CPU上GEMM稠密矩阵乘高性能实现方法

技术领域

本发明涉及基础线性代数库BLAS(Basic Linear Algebra Subprograms)level3函数稠密矩阵乘运算GEMM(General matrix-matrix multiplication)的高性能实现方法，尤指基于国产申威众核平台体系结构的高性能GEMM实现及优化方法。

背景技术

稠密矩阵乘运算作为底层和基础矩阵运算操作，广泛应用于科学和工程计算领域，因此对其性能要求极高。BLAS是一种基础线性代数子程序库，主要包含向量和矩阵的基本操作，是最基础和最重要的数学库之一，目前大多矩阵运算相关的软件都会调用BLAS库，且世界超级计算机TOP500排名基准软件LINPACK底层便以BLAS为支撑。BLAS目前已成为线性代数领域的一个标准API库，GEMM是BLAS数学库标准中关于矩阵运算的重要基础函数，其执行的操作为如下所示通用矩阵乘法：

C＝alpha*op(A)*op(B)+beta*C (1)

其中alpha、beta为标量因子，A，B，C为操作矩阵，其中C作为输入矩阵，公式右侧更新后的值覆盖原矩阵作为输出矩阵，op(.)算子实现矩阵转置或非转置形式，且包含单精度、双精度、复数单精度和复数双精度四种类型。GEMM具有计算密集以及访存模式规则的特征，能较好地适用于目前具有多级存储结构体系以及超高并行计算能力的高性能计算机，但同时GEMM性能严重依赖于能否有效地利用机器硬件特性，即如何合理将数据排布在存储结构中，利用高效的访存模式，提高数据重用率，通过计算隐藏访存来提升性能，同时能够挖掘矩阵运算的并行性，充分利用高性能计算机的并行计算资源，是GEMM高性能实现的极大挑战。

针对GEMM的优化工作，国内外已经有相当多的研究成果，GOTO等人(Goto K,GeijnR A.Anatomy of high-performance matrix multiplication[J].ACM Transactions onMathematical Software(TOMS),2008,34(3):12.)基于三层嵌套循环块矩阵乘算法，充分分析矩阵乘运算性能与多层次cache以及TLB的关系，构建性能分析模型，并提出如何基于该模型选择最优算法。伴随着GPU加速器的快速发展，GEMM在GPU上的优化工作近年来也成为研究热点，重点体现在如何更高效地利用GPU存储体系结构及其访存特征，合理地选择块GEMM算法分块大小和高效的访存模式以增加数据的重复利用和高效利用机器带宽等，来提升GEMM性能。另外，近年来，GEMM的自动代码生成工作也逐渐成熟，Li Y等人(Li Y,Dongarra J,Tomov S.A Note on Auto-tuning GEMM for GPUs[C]//InternationalConference on Computational Science.2009:884--892)实现了GEMM在GPU平台的高效代码生成。

国产申威26010众核平台是一款由中国自主研发的主从异构CPU平台，由4个核组和系统接口组成，每个核组主要包括1个主核和1个从核阵列，其中一个从核阵列包含64个从核。主核采用64位RISC结构通用处理单元，主核和从核都支持256位向量浮点指令扩展；每个从核包含32个寄存器以及64KB用户可控的LDM(Local Device Memory,局部存储器)，且直接访问本地LDM延迟极小，且从核硬件流水线支持访存指令和浮点运算指令的同时发射；从核阵列的64个从核排列成8行、8列的mesh结构，从核阵列内部交互可使用寄存器级通信，以一个向量长度为单位，各从核可在其行或列上进行数据广播或数据接收；提供主从核间DMA异步数据传输机制，实现数据从主内存读取至从核LDM或从从核LDM写回至主内存中，且DMA包含多种数据传输模式，其中常用的有单从核模式与行模式，不同的数据传输模式对应不同的数据分布方式。申威众核处理器26010软硬件参数如表1所示。

表1：申威众核处理器26010软硬件参数

类型	参数
		处理器CPU	SW26010，主频1.45GHZ
内存容量	32GB
		操作系统	Red Hat Enterprise Linux Server release 6.6
编译器及链接器	sw5cc 5.421-sw-485以及sw5f90 5.421-sw-485
		编程语言及环境	C、C++、Fortran、MPI、OpenMP

申威众核处理器26010具有强大的计算能力，被应用于目前排名世界第一的超级计算机“神威·太湖之光”上，有越来越多的重要科学计算软件部署在该平台上，GEMM函数作为BLAS level3函数中的最重要函数之一，其在申威众核平台上的实际计算性能对于严重依赖其的上层应用至关重要。由于SW26010是一款由中国新自主研制的异构平台，支持主从核间高效的DMA数据传输通道，从核间支持寄存器通信机制，且每个从核支持特殊的流水线机制，使用了定制SIMD扩展指令，支持256位向量浮点计算，尤其增加了乘加聚合指令，使得现有的开源BLAS库(如GotoBLAS)不能很好的发挥平台计算特性，计算性能极低，因此急需设计实现一种基于该众核平台的高性能GEMM算法，以发挥申威众核处理器强大的计算能力，且满足上层应用对申威众核平台上高性能GEMM的迫切需求。

发明内容

本发明解决的问题是：基于目前已有的开源BLAS数学库没有针对申威众核处理器26010特定优化过，不能充分发挥众核计算能力，性能较低的情况，本发明提出了国产申威26010众核CPU上GEMM稠密矩阵乘高性能实现方法，该方法基于申威众核处理器26010单核组上存储结构、访存方式、硬件流水线以及寄存器级通信机制等平台特性，使用包括数据存储格式、向量化、计算访存重叠、循环展开与软件流水线等多种技术，应用并改进块矩阵乘算法，高效优化函数性能。

本发明高性能实现方案包括如下方面：申威26010众核平台存储结构体系自底向上包含主内存，从核LDM，寄存器三级存储结构，受限于各级存储结构存储空间的大小，设计三级分块并行矩阵乘算法，以将数据传输到从核上利用从核阵列强大的计算资源进行计算，其中从核阵列包含组织成8行8列mesh结构的64个从核。设C为待更新矩阵,A,B为运算矩阵，其维度分别为m*n,m*k,k*n，在主内存级分别将矩阵C，A，B划分成大小为bm*bn的子矩阵BC_ij，1≤i≤m/bm,1≤j≤n/bn，bm*bk的子矩阵BA_il，1≤i≤m/bm,1≤l≤n/bn和bk*bn的子矩阵BB_lj，1≤l≤k/bk,1≤j≤n/bn，在从核LDM分别将子矩阵BC_ij，BA_il，BB_lj平均划分成64份大小为pm*pn的子矩阵PC_uv，1≤u≤8,1≤v≤8，pm*pk的子矩阵PA_uw，1≤u≤8,1≤w≤8和pk*pn的子矩阵PB_wv，1≤w≤8,1≤v≤8，在寄存器级，将子矩阵PC_uv划分成大小为rm*rn的子矩阵进行更新。

三级分块并行矩阵乘算法步骤如下：

第一步，采用n-k-m三层嵌套循环算法，控制矩阵C以子矩阵BC_ij为单位，串行更新；

第二步，更新子矩阵BC_ij时，利用主从核间异步DMA数据传输机制，通过计算与访存重叠的双缓冲策略，将计算所需的子矩阵BC_ij，BA_il和BB_lj从主内存传输到从核阵列的LDM中，且进行数据传输时，将子矩阵BC_ij，BA_il和BB_lj进一步划分的子矩阵PC_uv，PA_uw和PB_wv，分别映射到64个从核上，每个从核得到相应的子矩阵PC_uv，PA_uw和PB_wv；

第三步，更新子矩阵BC_ij时，利用已传输到从核阵列上的子矩阵BA_il和BB_lj，在64个从核上，并行计算核心操作BA_il*BB_lj，每个从核负责映射到本地LDM的子矩阵PC_uv的更新，且在并行计算时，通过寄存器通信机制实现从核阵列间的数据共享；

第四步，每个从核更新子矩阵PC_uv时，主要执行运算PA_uw*PB_wv，对此核心操作，设计循环展开策略与软件流水线排布方法，在最内层循环使用高效的寄存器分块模式，以rm*rn的C子矩阵为单位进行更新，并256位SIMD向量化以及乘加指令，实现函数优化；

第五步，将已经更新的子矩阵BC_ij，通过DMA方式从从核LDM中写回主内存中。

所述第一步，n-k-m三层嵌套循环算法，将矩阵B作为缓存矩阵，即上传到从核阵列中的B矩阵元素将缓存在从核LDM中直到不再使用。

所述第二步，DMA传输方式包含行模式和单从核模式两种，可根据矩阵地址对齐方式自动选择传输效率较高的行模式传输矩阵元素，否则选择单从核模式；

所述第二步，双缓冲策略具体为，从主存预取用于下次计算A矩阵元素、C矩阵元素到从核LDM，以及从LDM写回上次循环计算过的C矩阵元素，且此数据传输过程与本次块矩阵乘计算过程并行执行，计算过程执行时间略大于数据传输过程所需时间。

所述第二步，子矩阵BC_ij，BA_il和BB_lj再划分以及子矩阵与从核阵列映射方法具体为，将子矩阵BC_ij，BA_il和BB_lj分别沿列方向平均切分成8列子矩阵，大小分别为bm*pn，bm*pk和bk*pn，并分别映射到8行从核上，即第i(1≤i≤8)列子矩阵映射到第i(1≤i≤8)行从核上，且每列子矩阵映射到对应行从核时，将每列子矩阵沿行方向平均切分为8份，并映射到该行的8个从核上，每个从核得到对应的PC_uv，PA_uw和PB_wv。

所述第三步，核心操作BA_il*BB_lj的并行计算以及寄存器通信共享数据过程，具体如下：

(1)BA_il*BB_lj子矩阵乘共迭代计算8次，每次迭代核心操作为BA_il的第i(1≤i≤8)列子矩阵(大小为bm*pk)与BB_lj的第i行子矩阵(大小为bk*pn)相乘，迭代计算过程中每个从核负责存储在本地LDM中PC_uv的更新；

(2)每个BA_il列子矩阵包含8个子矩阵PA_uw，每个BB_lj行子矩阵包含8个子矩阵PB_wv，因此，每次迭代，列子矩阵与行子矩阵相乘可以转换成64个子矩阵乘运算PA_uw*PB_wv，并分配给64个从核并行计算，每个从核执行对应的子矩阵乘运算PA_uw*PB_wv；

(3)每个从核执行运算PA_uw*PB_wv所需的PA_uw子矩阵元素和PB_wv子矩阵元素来自其本地LDM或者通过寄存器通信方式从其它从核获取，第i(1≤i≤8)次循环，位于8*8阵列中第p(1≤p≤8)行第q(1≤q≤8)列的从核，需要从第i行第q列的从核获取A矩阵元素，从第p行第i列的从核获取B矩阵元素。更具体地，第i行从核，通过列广播的方式广播其本地LDM的A矩阵元素，并接收B矩阵元素，第i列从核，通过行广播的方式广播其本地LDM的B矩阵元素，并接收A矩阵元素，其中第i行，第i列的从核只广播数据，并不接收数据，不在第i行或者第i列的从核接收矩阵A元素和矩阵B元素，不广播数据；

(4)每次将迭代计算的结果叠加到本地LDM中存储的PC_uv中。图2所示为第0次迭代和第1次迭参与运算的A列子矩阵和对应的B行子矩阵，迭代结果进行叠加。

所述第四步，优化方法中寄存器分块和指令流水线排布具体需满足如下条件：

(1)寄存器分块，rm个寄存器用于存储A矩阵元素，rn个寄存器用于存储B矩阵元素，rm*rn个寄存器用于存储累加和C矩阵元素，受限于每个从核拥有32个寄存器，因此则需满足rm+rn+rm*rn≤32；

(2)指令流水线，根据硬件流水线特征重排最内层循环指令，尽可能避免计算指令与访存指令的依赖关系，将没有依赖关系的计算指令与访存指令同时发射。

所述三级分块并行矩阵乘算法分块大小bm，bk，bn，pm，pk，pn选取依赖于从核LDM空间的大小，即对应申请的存储空间不能超过申威众核处理器从核LDM大小，且分块大小之间满足关系bm＝8pm，bk＝8pk和bn＝8pn。

本发明与现有技术相比的有益效果在于：本发明基于SW26010众核处理器的存储结构、访存、硬件流水线以及寄存器级通信机制等平台特性，使用包括数据存储格式、向量化、计算访存重叠、循环展开与软件流水线等多种技术，并设计了并行块矩阵乘算法以及寄存器通信数据共享方法，解决了目前开源数学库GEMM不能充分利用从核计算能力的问题，大幅提升了GEMM函数性能。该高性能GEMM函数性能可以达到平台峰值的90％以上，与单核开源GotoBLAS数学库相比，平均加速比为227.94，最高加速比为296.93。

附图说明

图1是GEMM发明高性能方案基本流程图；

图2是块矩阵乘过程第0次迭代和第1次迭代计算示意图；

图3是以4行4列从核阵列为例描述矩阵元素与从核阵列的映射图；

图4是申威众核平台26010与GotoBLAS库GEMM四种精度实现的性能对比图。

具体实施方式

下面结合附图和实施例对本发明进行详细说明。

如图1所示，具体实现采用“interface接口层-scheduling任务调度层-kernel汇编计算层”的三级代码框架，描述如下：

(1)interface接口层函数：该层为函数接口，对输入参数进行检查，判断如果出现不合法参数时返回错误码；另外，根据输入矩阵A，B的精度和转置情况，调用对应的scheduling任务调度层函数；

(2)scheduling任务调度层函数：由interface接口层函数调用，并调用kernel汇编计算层函数。通过n-k-m三层循环控制矩阵C更新顺序，串行地对C子矩阵更新，共M*N个C子矩阵，其中M＝m/bm，N＝n/bn。对于矩阵A，B，C依据并行方案所述在数据对齐以及保证计算顺序正确的情况下通过DMA行模式读取，否则通过DMA单从核模式读取，并将根据高性能方案所述将子矩阵映射到64个从核上；对于每个C子矩阵的更新任务，平均地分配给64个从核并行执行；并且A和C子矩阵的DMA数据传输过程与kernel汇编计算任务基于双缓冲策略异步执行；

(3)kernel汇编计算层函数：由scheduling任务调度层函数调用。kernel汇编计算层函数，主要用于更新存储在本地LDM的pm*pn大小的C矩阵元素，需循环更新8次；此kernel汇编计算层函数主要实现并行方案中所述寄存器通信过程，以及pm*pk大小的A子矩阵与pk*pn的矩阵B子矩阵相乘过程，并基于高性能方案所述采用寄存器分块、设计指令流水线、向量化以及乘加指令进行优化；

(4)采用寄存器分块进行优化，需保证rm+rn+rm*rn≤32，以本发明中DGEMM(GEMM双精度实现)中为例，选取rm＝4，rn＝4；

(5)根据硬件流水线设计指令流水线，主要遵从如下规则：通过指令重排，尽可能避免计算指令与访存指令的依赖关系，将没有依赖关系的计算指令与访存指令同时发射；

(6)对于pm、pn、pk值的选取，以DGEMM为例，本实现选取pm＝16，pk＝64和pn＝32。

测试平台为申威众核平台26010，表2统计了数据规模分别为1024、2048、4096和8192时，申威众核26010GEMM性能和GotoBLAS GEMM性能，对比图如图3所示，实验包含了1024、2048、4096、8192四种矩阵规模，实数单精、实数双精、复数单精、复数双精共16组测试用例，平均加速比为227.94，最高加速比为296.93。

表2

提供以上实施例仅仅是为了描述本发明的目的，而并非要限制本发明的范围。本发明的范围由所附权利要求限定。不脱离本发明的精神和原理而做出的各种等同替换和修改，均应涵盖在本发明的范围之内。

Claims

1.国产申威26010众核CPU上GEMM稠密矩阵乘高性能实现方法，其特征在于：申威26010众核平台存储结构体系自底向上包含主内存，从核LDM，寄存器三级存储结构，受限于各级存储结构存储空间的大小，设计三级分块并行矩阵乘算法，以将数据传输到从核上利用从核阵列强大的计算资源进行计算，其中从核阵列包含组织成8行8列mesh结构的64个从核，设C为待更新矩阵,A,B为运算矩阵，C、A、B维度分别为m*n,m*k,k*n，在主内存分别将矩阵C、A、B划分成大小为bm*bn的子矩阵BC_ij，1≤i≤m/bm,1≤j≤n/bn，bm*bk的子矩阵BA_il，1≤i≤m/bm,1≤l≤n/bn和bk*bn的子矩阵BB_lj，1≤l≤k/bk,1≤j≤n/bn，在从核LDM分别将子矩阵BC_ij，BA_il，BB_lj平均划分成64份大小为pm*pn的子矩阵PC_uv，1≤u≤8,1≤v≤8，pm*pk的子矩阵PA_uw，1≤u≤8,1≤w≤8和pk*pn的子矩阵PB_wv，1≤w≤8,1≤v≤8，将数据从LDM传输到寄存器进行运算时，将子矩阵PC_uv划分成大小为rm*rn的子矩阵进行更新；

所述三级分块并行矩阵乘算法具体步骤如下：

第二步，更新子矩阵BC_ij时，利用主从核间异步DMA数据传输机制，通过计算与访存重叠的双缓冲策略，将计算所需的子矩阵BC_ij，BA_il和BB_lj从主内存传输到从核LDM中，且进行数据传输时，将子矩阵BC_ij，BA_il和BB_lj进一步划分的子矩阵PC_uv，PA_uw和PB_wv，分别映射到64个从核上，每个从核得到相应的子矩阵PC_uv，PA_uw和PB_wv；

第三步，更新子矩阵BC_ij时，利用已传输到从核阵列上的子矩阵BA_il和BB_lj，在64个从核上，并行计算核心操作BA_il*BB_lj，每个从核负责映射到本地LDM子矩阵PC_uv的更新，且在并行计算时，通过寄存器通信机制实现从核阵列间的数据共享；

2.根据权利要求1所述的国产申威26010众核CPU上GEMM稠密矩阵乘高性能实现方法，其特征在于：所述第一步，n-k-m三层嵌套循环算法中，将矩阵B作为缓存矩阵，即上传到从核阵列中的B矩阵元素将缓存在从核LDM中直到不再使用。

3.根据权利要求1所述的国产申威26010众核CPU上GEMM稠密矩阵乘高性能实现方法，其特征在于：所述第二步，DMA传输方式包含行模式和单从核模式两种，可根据矩阵地址对齐方式自动选择传输效率较高的行模式传输矩阵元素，否则选择单从核模式。

4.根据权利要求1所述的国产申威26010众核CPU上GEMM稠密矩阵乘高性能实现方法，其特征在于：所述第二步，双缓冲策略具体为，从主存预取用于下次计算A矩阵元素、C矩阵元素到从核LDM，以及从LDM写回上次循环计算过的C矩阵元素，且此数据传输过程与本次块矩阵乘计算过程并行执行，计算过程执行时间略大于数据传输过程所需时间。

5.根据权利要求1所述的国产申威26010众核CPU上GEMM稠密矩阵乘高性能实现方法，其特征在于：所述第二步，子矩阵BC_ij，BA_il和BB_lj再划分以及子矩阵与从核阵列映射方法具体为，将子矩阵BC_ij，BA_il和BB_lj分别沿列方向平均切分成8列子矩阵，大小分别为bm*pn，bm*pk和bk*pn，并分别映射到8行从核上，即第i列子矩阵映射到第i行从核上，1≤i≤8，且每列子矩阵映射到对应行从核时，将每列子矩阵沿行方向平均切分为8份，并映射到该行的8个从核上，每个从核得到对应的PC_uv，PA_uw和PB_wv。

6.根据权利要求1所述的国产申威26010众核CPU上GEMM稠密矩阵乘高性能实现方法，其特征在于：所述第三步，核心操作BA_il*BB_lj的并行计算以及寄存器通信共享数据过程，具体如下：

(1)BA_il*BB_lj子矩阵乘共迭代计算8次，每次迭代核心操作为BA_il的第i列子矩阵，大小为bm*pk与BB_lj的第i行子矩阵，大小为bk*pn相乘，1≤i≤8，迭代计算过程中每个从核负责存储在本地LDM中PC_uv的更新；

(3)每个从核执行运算PA_uw*PB_wv所需的PA_uw子矩阵元素和PB_wv子矩阵元素来自其LDM或者通过寄存器通信方式从其它从核获取，第i次循环，位于8*8阵列中第p行第q列的从核，1≤p≤8，1≤q≤8，需要从第i行第q列的从核获取A矩阵元素，从第p行第i列的从核获取B矩阵元素，更具体地，第i行从核，通过列广播的方式广播其本地LDM的A矩阵元素，并接收B矩阵元素，第i列从核，通过行广播的方式广播其本地LDM的B矩阵元素，并接收A矩阵元素，其中第i行，第i列的从核只广播数据，并不接收数据，不在第i行或者第i列的从核接收矩阵A元素和矩阵B元素，不广播数据；

(4)每次将迭代计算的结果叠加到本地LDM中存储的PC_uv中。

7.根据权利要求1所述的国产申威26010众核CPU上GEMM稠密矩阵乘高性能实现方法，其特征在于：所述第四步，优化方法中寄存器分块和指令流水线排布具体需满足如下条件：

(1)寄存器分块，rm个寄存器用于存储A矩阵元素，rn个寄存器用于存储B矩阵元素，rm*rn个寄存器用于存储累加和C矩阵元素，受限于每个从核拥有32个寄存器，则需满足rm+rn+rm*rn≤32；

8.根据权利要求1所述的国产申威26010众核CPU上GEMM稠密矩阵乘高性能实现方法，其特征在于：所述bm，bk，bn，pm，pk，pn选取依赖于从核LDM空间的大小，即对应申请的存储空间不能超过申威众核处理器从核LDM大小，且满足关系bm＝8pm，bk＝8pk和bn＝8pn。