CN102722470A

CN102722470A - 一种线性方程组的单机并行求解方法

Info

Publication number: CN102722470A
Application number: CN2012101572278A
Authority: CN
Inventors: 黄一; 王普; 李红霞; 陈景杰
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2012-05-18
Filing date: 2012-05-18
Publication date: 2012-10-10
Anticipated expiration: 2032-05-18
Also published as: CN102722470B

Abstract

本发明公开了一种线性方程组的单机并行求解方法，该方法利用求解器对系数矩阵A进行LU分解，得到待求线性方程组的解，与现有方法相比，本发明可为多种大型工程软件提供后期求解线性方程组的支撑，在单机环境下，可最大化的利用硬件资源；在线性方程组求解领域，同等硬件条件下，求解规模、求解速度、求解精度三方面同时超过现有软件方法的最高性能。

Description

一种线性方程组的单机并行求解方法

技术领域

本发明属于单机数据处理领域，特别是一种线性方程组的单机并行求解方法。

背景技术

在工程应用中，超大规模的线性方程组的数值解法是经常遇到的问题，由于线性方程组的维数巨大，对计算机的内存需求很大，为了加快计算机求解速度，目前普遍采用迭代解法。

现有技术从公开了一种用于用向量乘矩阵的方法，该矩阵可以表示大型稀疏线性方程组。该大型稀疏线性方程组可以用于估计视频文件的帧之间的运动以转换帧频。向量可以是该线性方程组的解的第一估计值。可以按照与所述元素在所述向量中的排列顺序不同的顺序用所述向量的元素乘所述矩阵。可以并行地乘向量中的多个元素。线性方程组的解的第二向量估计值可以是乘法的积。例如当第一和第二向量估计值的差小于预定的量时，可以设置线性方程组的解。

现有技术对线性方程组的求解是基于迭代解法，此方法利于并行处理，可以高速地进行求解运算。但是，针对任意类型（稀疏、稠密、三角线性方程组等）的线性方程组的单机求解，该方法存在如下缺陷：

1、该方法仅适用于对稀疏线性方程组的求解，不适用于对其他类型线性方程组的求解。

2、由于迭代解法自身的缺陷，求解某一线性方程组时，可能迭代不收敛，导致无解。

3、在单台计算机中，最大的求解规模为16GB。

发明内容

针对现有存在的上述问题，本发明提出了一种线性方程组的单机并行求解方法。本发明采用的技术手段如下：

一种线性方程组的单机并行求解方法，其特征在于包括：

步骤1：输入第三方软件生成的待求线性方程组的系数矩阵A和常数矩阵b；

步骤2：判断第三方软件源代码是否可修改，是则转至步骤4，否则转至步骤3；

步骤3：将系数矩阵A和常数矩阵b以文本文件或二进制文件形式存储到硬盘后，转至步骤5；

步骤4：直接调用求解器后，转至步骤6；

步骤5：调用用户界面，读取系数矩阵A和常数矩阵b的文件后，转至步骤6；

步骤6：将系数矩阵A和常数矩阵b转换成可操作数据类型；

步骤7：利用求解器对系数矩阵A进行LU分解，得到待求线性方程组的解；

步骤8：断第三方软件源代码是否可修改，是则转至步骤10，否则转至步骤9；

步骤9：将待求线性方程组的解以文件的形式，通过用户界面存储到硬盘上；

步骤10：将待求线性方程组的解进行数据类型转换后，返回给作为调用方的第三方软件。

与现有技术相比，本发明具有如下有益效果：可为多种大型工程软件提供后期求解线性方程组的支撑，在单机环境下，可最大化的利用硬件资源；在线性方程组求解领域，同等硬件条件下，求解规模、求解速度、求解精度三方面同时超过现有软件方法的最高性能。

附图说明

图1为本发明线性方程组的单机并行求解方法的流程图。

图2为图1中步骤7的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。

如图1所示，本发明方法包括以下步骤：

步骤1：输入第三方软件生成的待求线性方程组的系数矩阵A和常数矩阵b。

步骤2：判断第三方软件源代码是否可修改，是则转至步骤4，否则转至步骤3。

步骤3：将系数矩阵A和常数矩阵b以文本文件或二进制文件形式存储到硬盘后，转至步骤5。

步骤4：直接调用求解器后，转至步骤6。

步骤5：调用用户界面，读取系数矩阵A和常数矩阵b的文件后，转至步骤6。

步骤6：将系数矩阵A和常数矩阵b转换成可操作数据类型。

步骤7：利用求解器对系数矩阵A进行LU分解，得到待求线性方程组的解。

步骤8：断第三方软件源代码是否可修改，是则转至步骤10，否则转至步骤9。

步骤9：将待求线性方程组的解以文件的形式，通过用户界面存储到硬盘上。

如图2所示，步骤7又包括以下步骤：

步骤71：将系数矩阵A分成左上角矩阵块a₀、右上角矩阵块b₀、左下角矩阵块c₀和右下角矩阵块d₀。系数矩阵A为方阵，左上角矩阵块a₀为方阵；左上角矩阵块a₀、右上角矩阵块b₀、左下角矩阵块c₀和右下角矩阵块d₀的大小由当前软硬件环境下的LU分解极限阶数决定，该软硬件环境主要取决于用户通过用户界面选择的LAPACK封装形式或BLAS封装形式的求解器，一般CPU版的采取双精度，GPU版的采取单精度。对于CPU版的双精度，左上角矩阵块a₀的LU分解极限阶数满足：

对于GPU版的单精度，左上角矩阵块a₀的LU分解极限阶数满足：

步骤72：对左上角矩阵块a₀和左下角矩阵块c进行列选主元的LU分解，得到左上角矩阵块a₁和左下角矩阵块c₁，以及置换向量P。

步骤73：用置换向量P对左上角矩阵块a₀和左下角矩阵块c₀左右两侧实施行交换，即：用置换向量P乘以右上角矩阵块b₀和右下角矩阵块d₀构成的矩阵，得到左上角矩阵块a₀＇、右上角矩阵块b₀＇、左下角矩阵块c₀＇和右下角矩阵块d₀＇。

步骤74：读取左上角矩阵块a₀＇和右上角矩阵块b₀＇，并对其进行LU分解，得到左上角矩阵块a₁和右上角矩阵块b₁。

步骤75:用左上角矩阵块a₁覆盖左上角矩阵块a₀＇，右上角矩阵块b₁覆盖右上角矩阵块b₀＇，左下角矩阵块c₁覆盖左下角矩阵块c₀＇。

步骤76：读取右下角矩阵块d₀＇，利用公式d_n=d_n-1＇–c_n×b_n计算右下角矩阵块d₁，并用右下角矩阵块d₁覆盖右下角矩阵块d₀＇。

步骤77：对右下角矩阵块d₁覆盖重复步骤71至步骤76，直到d_n的阶数小于等于当前软硬件环境下的LU分解极限阶数。

步骤78：对d_n覆盖进行LU分解，得到下三角矩阵L和上三角矩阵U，并回代求解，得到待求线性方程组的解。之后，还可对待求线性方程组的解进行迭代精度改善。

上述方法实现了单机环境下，大规模（系数矩阵占用内存2GB以上）乃至超大规模线性方程组（系数矩阵占用内存16GB以上）的高效求解，该单机特指共享内存对称多处理器系统（SMP），也可理解为1台计算机。与现有技术相比，本发明具有如下有益效果：可为多种大型工程软件提供后期求解线性方程组的支撑，在单机环境下，可最大化的利用硬件资源；在线性方程组求解领域，同等硬件条件下，求解规模、求解速度、求解精度三方面同时超过现有软件方法的最高性能。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种线性方程组的单机并行求解方法，其特征在于包括：

步骤4：直接调用求解器后，转至步骤6；

步骤6：将系数矩阵A和常数矩阵b转换成可操作数据类型；

2.根据权利要求1所述的方法，其特征在于步骤7又包括：

步骤71：将系数矩阵A分成左上角矩阵块a₀、右上角矩阵块b₀、左下角矩阵块c₀和右下角矩阵块d₀；

步骤72：对左上角矩阵块a₀和左下角矩阵块c进行列选主元的LU分解，得到左上角矩阵块a₁和左下角矩阵块c₁，以及置换向量P；

步骤73：用置换向量P对左上角矩阵块a₀和左下角矩阵块c₀左右两侧实施行交换，得到左上角矩阵块a₀＇、右上角矩阵块b₀＇、左下角矩阵块c₀＇和右下角矩阵块d₀＇；

步骤74：读取左上角矩阵块a₀＇和右上角矩阵块b₀＇，并对其进行LU分解，得到左上角矩阵块a₁和右上角矩阵块b₁；

步骤75:用左上角矩阵块a₁覆盖左上角矩阵块a₀＇，右上角矩阵块b₁覆盖右上角矩阵块b₀＇，左下角矩阵块c₁覆盖左下角矩阵块c₀＇；

步骤76：读取右下角矩阵块d₀＇，利用公式d_n=d_n-1＇-c_n×b_n计算右下角矩阵块d₁，并用右下角矩阵块d₁覆盖右下角矩阵块d₀＇；

步骤77：对右下角矩阵块d₁覆盖重复步骤71至步骤76，直到d_n的阶数小于等于当前软硬件环境下的LU分解极限阶数；

步骤78：对d_n覆盖进行LU分解，得到下三角矩阵L和上三角矩阵U，并回代求解，得到待求线性方程组的解。

3.根据权利要求2所述的方法，其特征在于对于CPU版的双精度，当前软硬件环境下的LU分解极限阶数满足：

对于GPU版的单精度，当前软硬件环境下的LU分解极限阶数满足：