CN107590106A

CN107590106A - 一种应用于对称矩阵与向量乘法的计算方法

Info

Publication number: CN107590106A
Application number: CN201710671890.2A
Authority: CN
Inventors: 薛瑞; 张�浩; 范东睿; 叶笑春; 朱亚涛
Original assignee: Beijing Zhongke Rui Core Technology Co Ltd
Current assignee: Suzhou Ruixin Integrated Circuit Technology Co ltd
Priority date: 2017-08-08
Filing date: 2017-08-08
Publication date: 2018-01-16
Anticipated expiration: 2037-08-08
Also published as: CN107590106B

Abstract

本发明公开了一种应用于对称矩阵与向量乘法的计算方法，该方法用于计算n1×n1的对称矩阵与n1维列向量的乘积，首先对n1×n1的对称矩阵与n1维列向量进行分块，并对n1×n1对称矩阵分块后位于对角线上的矩阵块进行微量数据扩展，使之成为对称矩阵块，然后对n1维列向量进行分块，根据上述分块后的矩阵计算一中间数据块，并根据该中间数据块计算最终结果向量。本发明提供的应用于对称矩阵与向量乘法的计算方法在对对称矩阵进行并行处理的前提下，不仅能够减少对称矩阵对存储空间的浪费，而且能够提高对称矩阵与向量乘法的计算效率。

Description

一种应用于对称矩阵与向量乘法的计算方法

技术领域

本发明涉及计算机算法优化和计算机体系结构领域，具体来说，本发明涉及一种在保证可以对对称矩阵并行处理的前提下，不仅能够减少对称矩阵对存储空间的浪费，而且还能够提高对称矩阵与向量乘法的计算效率的应用于对称矩阵与向量乘法的计算方法。

背景技术

矩阵与向量乘法在高性能数值计算领域(如过程控制、图像处理、数值分析、科学计算、求解动态规划问题、信号处理、理论物理、固态物理、编码理论、密码学、线性预测和计算机时序分析等)具有非常重要的作用，是具有计算和访存密集型特点的典型应用。据统计，在高性能计算中，90％以上的时间都消耗在矩阵向量乘法上。对称矩阵作为方形矩阵的一种，是稀疏矩阵的典型代表。上述应用中的矩阵大多是对称矩阵的形式，并且在BLAS库中，对称矩阵与向量乘法也是最核心的函数之一。它的性能对数值计算中大部分操作的性能都有影响，尤其是当对称矩阵阶数较高时，通常的计算过程需要占用较多的工作单元和较大的计算机内存，使得计算效率受到影响。因此，提高对称矩阵与向量乘法的计算效率，减少对称矩阵占用的内存空间，无论在理论上还是在实际应用上，对整个数值计算领域都有着重大而深远的意义。

在已报道和所能查阅到的国内外相关研究中，关于矩阵与向量乘法的研究情况总结如下：

目前，提高对称矩阵与向量乘法计算性能的方法包括硬件方法和软件方法，例如：引用信息为“薛永江,宋庆增,王瑞昆.浮点矩阵向量乘法的FPGA设计与优化[J].微电子学与计算机,2013(11):64-67.”的文献提出了一种基于IEEE-754的32bit、64bit浮点数格式，二叉树数据流的矩阵向量乘法器，其可以在FPGA上进行流水线和高度并行化的高效执行；申请号为201110191133.8的“一种基于龙芯3A的单精度矩阵乘法优化方法”专利公开了一种在龙芯3A平台上实现单精度矩阵乘法的方法；申请号为200710097456.4的“具有减小的带宽要求的矩阵乘法”专利公开了一种能够减小存储器带宽的矩阵乘法方法。另外，现有的硬件方法都是基于普通矩阵与向量乘法进行的优化加速。软件的方法往往计算效率较低，且大多也都是普通矩阵与向量的乘法，没有专门考虑对称矩阵与向量的乘法。与普通矩阵与向量乘法比，对称矩阵有一半的矩阵元素与另一半的元素相同，因此，若在存储上套用普通的矩阵与向量乘法则会导致存储空间上的浪费，不能有效提升对称矩阵的计算性能。

同时，现有的对于矩阵与向量乘法的结构优化大都基于如数据流结构，将矩阵进行分块，通过硬件或软件多线程等方式对分块后的小矩阵块进行并行处理。但对对称矩阵的分块计算现阶段还没有相关工作。

发明内容

本发明提供一种应用于对称矩阵与向量乘法的计算方法，该方法在对对称矩阵进行并行处理的前提下，不仅能够减少对称矩阵对存储空间的浪费，而且能够提高对称矩阵与向量乘法的计算效率。

为达到上述目的，本发明提供了一种应用于对称矩阵与向量乘法的计算方法，该方法用于计算n1×n1的对称矩阵与n1维列向量的乘积，其包括以下步骤：

S1：读取n1×n1对称矩阵中的上三角矩阵中的数据；

S2：以m为边长对上三角矩阵进行分块，分块后的数据块A_ij排列成z行z列，1≤i≤j≤z，其中，

若n1/m为整数，则z＝n1/m，分块后得到z个m×m三角矩阵块以及n1(n1-m)/2m²个m×m的普通矩阵块，

若n1/m不为整数，则z＝[n1/m]+1，分块后得到z-1个m×m三角矩阵块、1个a×a三角矩阵块、z(z+1)/2个m×m普通矩阵块以及z-1个m×a矩阵块，其中a＝n1-(z-1)×m；

S3：分别对S2中得到的z-1个m×m三角矩阵块A_ii进行微量数据扩展，使之成为对称矩阵块；

S4：以m为边长对n1维列向量进行分块，分块后的数据块B_i1共z行，其中，

若n1/m为整数，则z＝n1/m，分块后得到z个m×m矩阵块，

若n1/m不为整数，则z＝[n1/m]+1分块后得到z-1个m×m矩阵块以及1个a×a矩阵块，其中a＝n1-(z-1)×m；

S5：构建一中间数据块C_z1，根据下式计算C_z1中每一元素的值：

C_i1＝A_ii×B_i1+……+A_iz×B_z1；

S6：计算最终结果向量D_z1，其中：

D₁₁＝C₁₁，

D_i1＝f(A_1i，B₁₁)+……+f(A_(i-1)i，B_(i-1)1)+C_i1，其中，2≤i≤z，

在本发明的一实施例中，S3步骤之后的上三角矩阵中的数据存储于第一内存区，S4步骤之后的n1维列向量存储于第二内存区，中间数据块C_z1存储于第三内存区。

在本发明的一实施例中，n1＝64，m＝8。

在本发明的一实施例中，n1＝7，m＝2。

本发明提供的应用于对称矩阵与向量乘法的计算方法在对对称矩阵进行并行处理的前提下，不仅能够减少对称矩阵对存储空间的浪费，而且能够提高对称矩阵与向量乘法的计算效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明第一实施例的64×64对称矩阵与64维列向量乘积的计算示意图；

图2为本发明第二实施例的7×7对称矩阵与7维列向量乘积的计算示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明公开了一种应用于对称矩阵与向量乘法的计算方法，该方法用于计算n1×n1的对称矩阵与n1维列向量的乘积，其包括以下步骤：

S1：读取n1×n1对称矩阵中的上三角矩阵中的数据；

若n1/m不为整数，则z＝[n1/m]+1，分块后得到z-1个m×m三角矩阵块、1个a×a三角矩阵块、z(z+1)/2个m×m普通矩阵块以及z-1个m×a矩阵块，其中a＝n1-(z-1)×m，[]为取整符号，即取n1/m之后的整数部分；

若n1/m为整数，则z＝n1/m，分块后得到z个m×m矩阵块，

C_i1＝A_ii×B_i1+……+A_iz×B_z1；

S6：计算最终结果向量D_z1，其中：

D₁₁＝C₁₁，

在本发明的一实施例中，S3步骤之后的上三角矩阵中的数据存储于第一内存区，S4步骤之后的n1维列向量存储于第二内存区，中间数据块C_z1存储于第三内存区。经过计算可知，上述数据占用第一内存区的存储空间大小为占用第二内存区的存储空间大小为n1×1，占用第三内存区的存储空间大小为n1×1，因此，总共占用的存储空间大小为上述三者之和(n1²+n1×m+4×n1)/2。而若按照现有的普通矩阵与向量乘法的计算方法，需要的存储空间为n1²+n1(普通矩阵需要的存储空间n1²加上n1×1向量需要的存储空间n1×1)，由于m≤n1/2，且n1>2，因此(n1²+n1×m+4×n1)/2必小于n1²+n1，且n1越大，(n1²+n₁ m+4 n1)/2相比于n1²+n1越小，越可以有效地减少对称矩阵与向量乘法需要的存储空间。

以下以两个具体实施例具体说明本发明如何实施。

第一实施例，n1＝64，m＝8：

当n1＝64，m＝8时，按照S2步骤分块后，z＝64/8＝8，即A_ij为8×8的矩阵，如图1所示，分块后得到8个8×8的三角矩阵块(位于对角线上)以及28个8×8的普通矩阵块。分别对8个8×8的三角矩阵块A₁₁、A₂₂……A₈₈进行微量数据扩展，使之成为对称矩阵块(图1中的阴影部分)。以8为边长对64维列向量进行分块，分块后的数据块B_i1共8行(8个8×1的矩阵B₁₁、B₂₁……B₈₁)，之后计算中间数据块C_z1：

C_i1＝A_ii×B_i1+……+A_iz×B_z1

其中，A_ij与B_i1均视为矩阵，以普通矩阵乘法计算矩阵相乘后的结果并按上式计算8个矩阵的加和，计算后得到C₁₁～C₈₁，C₁₁～C₈₁均为8×1的矩阵。之后计算最终结果向量D_z1：

D₁₁＝C₁₁，

也即，D₂₁＝f(A₁₂，B₁₁)+C₂₁，

D₃₁＝f(A₁₃，B₁₁)+f(A₂₃，B₂₁)+C₃₁

D₄₁＝f(A₁₄，B₁₁)+f(A₂₄，B₂₁)+f(A₃₄，B₃₁)+C₄₁

……

以此类推，其中：

D_z1为8个8×1的矩阵D₁₁～D₈₁，D₁₁～D₈₁由上至下依次组合为64×1的矩阵，即为本实施例中64×64的对称矩阵与64维列向量的乘积。

第二实施例，n1＝7，m＝2：

当n1＝7，m＝2时，按照S2步骤分块后，z＝[7/2]+1＝4，即A_ij为2×2的矩阵，如图1所示，分块后得到3个2×2的三角矩阵块(位于对角线上)以及1个1×1三角矩阵块、3个2×2普通矩阵块以及3个2×1矩阵块。分别对3个3×3的三角矩阵块A₁₁、A₂₂、A₃₃进行微量数据扩展，使之成为对称矩阵块。以2为边长对7维列向量进行分块，分块后的数据块B_i1共4行(3个2×1的矩阵B₁₁、B₂₁、B₃₁以及1个1×1的矩阵B₄₁)，之后计算中间数据块C_z1：

C_i1＝A_ii×B_i1+……+A_iz×B_z1

其中，A_ij与B_i1均视为矩阵，以普通矩阵乘法计算矩阵相乘后的结果并按上式计算4个矩阵的加和，计算后得到C₁₁～C₄₁，C₁₁～C₃₁均为2×1的矩阵，C₄₁为1×1的矩阵，之后计算最终结果向量D_z1：

D₁₁＝C₁₁，

也即，D₂₁＝f(A₁₂，B₁₁)+C₂₁，

D₃₁＝f(A₁₃，B₁₁)+f(A₂₃，B₂₁)+C₃₁

D_z1中，D₁₁～D₃₁为2×1的矩阵，D₄₁为1×1的矩阵，D₁₁～D₄₁由上至下依次组合为7×1的矩阵，即为本实施例中7×7的对称矩阵与7维列向量的乘积。

本领域普通技术人员可以理解：附图只是一个实施例的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

本领域普通技术人员可以理解：实施例中的装置中的模块可以按照实施例描述分布于实施例的装置中，也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。

Claims

1.一种应用于对称矩阵与向量乘法的计算方法，该方法用于计算n1×n1的对称矩阵与n1维列向量的乘积，其特征在于，包括以下步骤：

S1：读取n1×n1对称矩阵中的上三角矩阵中的数据；

若n1/m为整数，则z＝n1/m，分块后得到z个m×m矩阵块，

C_i1＝A_ii×B_i1+……+A_iz×B_z1；

S6：计算最终结果向量D_z1，其中：

D₁₁＝C₁₁，

2.根据权利要求1所述的应用于对称矩阵与向量乘法的计算方法，其特征在于，S3步骤之后的上三角矩阵中的数据存储于第一内存区，S4步骤之后的n1维列向量存储于第二内存区，中间数据块C_z1存储于第三内存区。

3.根据权利要求1所述的应用于对称矩阵与向量乘法的计算方法，其特征在于，n1＝64，m＝8。

4.根据权利要求1所述的应用于对称矩阵与向量乘法的计算方法，其特征在于，n1＝7，m＝2。