CN101604306A

CN101604306A - 基于fpga的列选主元lu分解方法

Info

Publication number: CN101604306A
Application number: CNA2009100435924A
Authority: CN
Inventors: 邬贵明; 窦勇; 夏飞; 姜晶菲; 周杰
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2009-06-03
Filing date: 2009-06-03
Publication date: 2009-12-16
Anticipated expiration: 2029-06-03
Also published as: CN101604306B

Abstract

本发明公开了一种基于FPGA的列选主元LU分解方法，要解决的技术问题是降低LU分解的时间复杂度，加快稠密矩阵线性方程组的求解。技术方案是首先构建基于FPGA的由主处理单元和P个从处理单元组成的主从式并行计算系统，由主从式并行计算系统对待分解矩阵进行列选主元LU分解，主处理单元向第一从处理单元发送参数和待分解矩阵，从处理单元按流水方式对矩阵进行处理，处理结果由第P从处理单元传给主处理单元。采用本发明计算精度与不选主元LU分解相比得到很大提高，且运算速度快，其主从式并行计算系统具有可扩展性。

Description

基于FPGA的列选主元LU分解方法

技术领域

本发明涉及一种矩阵LU(Lower/Upper triangular)分解的方法，具体地说是一种基于FPGA的稠密矩阵(一般为行列相等的方阵)列选主元LU分解方法。

背景技术

求解稠密线性方程组在科学计算和高性能计算领域占有重要的地位，而稠密矩阵LU分解(简称LU分解)是求解稠密线性方程组的重要一步，是影响稠密线性方程组求解性能最关键一步。LU分解的时间复杂度很高，约为(2/3)n³，占线性方程组求解系统绝大部分运行时间。LU分解分为选主元LU分解和不选主元LU分解(选主元LU分解最常见的为列选主元LU分解)，其中不选主元LU分解不能保证计算精度和计算正确性，而选主元LU分解却能够克服不选主元LU分解的这些弊病，从而能够得到广泛运用。

给定矩阵A，选主元LU分解表示为PA＝LU，其中P为一个置换矩阵，L为一个对角线元素为1的下三角矩阵，U为一个上三角矩阵。L的对角线元素都为1，不需要保存，L的其它元素与U组合在一起形成结果矩阵。采用通用处理器实现列选主元LU分解，由于其运算能力有限，无法取得很高的计算性能，其计算效率(计算功耗比)也相当低。而随着FPGA(现场可编程门阵列)的快速发展，各大公司已经开发出集成大量逻辑单元的高性能、低功耗FPGA芯片。当今FPGA芯片在0.65nm工艺下已经能够实现上千万门级的设计，使FPGA芯片成为实现计算密集型应用的理想的高性能、低功耗计算平台。

然而，国内外从未报道过基于FPGA进行选主元LU分解的方法，仅出现了一些基于FPGA的不选主元的LU分解方法。比如，2003年S.Choi等人提出了基于分块的不选主元LU分解设计，具有低功耗的优点；2004年G.Govindu等人提出了一种基于FPGA的不选主元LU分解的高性能结构，基于一个循环线性阵列来减少计算延迟；2007年T.Hauser等人提出了一种不选主元LU分解的多FPGA计算系统，实现了基于星形拓扑结构的多FPGA平台。不选主元LU分解始终不能克服其计算精度方面的缺陷，这些基于FPGA的不选主元LU分解在遇到奇异矩阵时往往会导致计算失败。

如何利用FPGA实现选主元LU分解是本领域技术人员关注的重要技术问题。

发明内容

本发明要解决的技术问题是：为避免不选主元LU分解在计算精度方面的缺陷，提出一种基于FPGA的列选主元LU分解方法，降低LU分解的时间复杂度，从而加快稠密矩阵线性方程组的求解。

本发明的技术方案是：

第一步，构建基于FPGA的主从式并行计算系统，主从式并行计算系统由主处理单元和P(P为正整数，P＞2)个从处理单元组成。主处理单元与外部存储器、第一从处理单元、第P从处理单元相连，主处理单元由外部存储器控制器、全局状态控制模块、参数发送模块、数据发送模块和数据接收模块组成。外部存储器控制器与外部存储器、数据发送模块、数据接收模块相连，对外部存储器的读写进行控制，将从外部存储器读入的数据送往数据发送模块，将从数据接收模块获得的数据写入外部存储器；全局状态控制模块与数据发送模块、数据接收模块和参数发生模块相连，控制主从式并行计算系统的状态转换；数据发送模块与外部存储器控制器、全局状态控制模块、第一从处理单元相连，在全局状态控制模块的控制下，将从外部存储器控制器传来的数据送到第一从处理单元；参数发送模块与全局状态控制模块、第一从处理单元相连，在全局状态控制模块的控制下，向第一从处理单元发送参数M′，即当前需要处理的矩阵的列数或行数(M′的初始值为矩阵A的行数或列数M，列数＝行数)；数据接收模块与第P从处理单元、外部存储器控制器相连，从第P从处理单元接收中间结果矩阵和计算结果，并将中间结果矩阵和计算结果发送给外部存储器控制器。

全局状态控制模块由一个状态机和一个比较器组成，状态机通过信号线与比较器相连，由“空闲”、“初始化参数”、“发送参数”、“配置参数”、“发送数据”、“接收中间结果”、“等待运算结束”、“接收运算结果”8个状态组成。状态机在主从式并行计算系统复位之后进入“空闲”状态；当主从式并行计算系统开始运行时，进入“初始化参数”状态，向参数发送模块发参数初始化命令，参数发送模块置M′＝M；然后状态机进入“发送参数”状态，通过参数发送模块对线性计算阵列需要处理的矩阵大小进行配置，即将M′发送给第一从处理单元；参数发送后，状态机进入“发送数据”状态，通知数据发送模块将矩阵发送给线性计算阵列；比较器比较M′和P的大小，如果M′＞P，状态机进入“接收中间结果”状态，通知数据接收模块接收中间结果，然后进入“等待运算结束”状态等待线性计算阵列运算结束；如果M′≤P，状态机直接由“发送数据”状态进入“等待运算结束”状态；当运算结束，状态机进入“接收运算结果”状态，通知数据接收模块接收运算结果；数据接收完毕后，如果M′＞P，状态机转入“配置参数”状态，向参数发送模块发配置参数命令，参数发送模块置M′＝M′-P，然后状态机进入“发送参数”状态；如果M′≤P，转入“空闲”状态，运算结束。

P个从处理单元组成一维线性计算阵列，负责进行列选主元LU分解。每个从处理单元逻辑结构相同，均由参数接收模块、数据通路控制模块、浮点乘加运算模块、浮点除法运算模块、数据选择模块、选主元模块、结果发送模块、4个局部存储器和FIFO组成，局部存储器大小设置为M，FIFO深度大于16，局部存储器和FIFO的位宽与矩阵A的元素一致。

第一从处理单元的参数接收模块与主处理单元的参数发送模块、第二从处理单元的参数接收模块相连，它从主处理单元的参数发送模块接收M′，并发送给第二从处理单元的参数接收模块。第一从处理单元的数据通路控制模块一方面与主处理单元的数据发送模块相连，一方面与第一从处理单元中的选主元模块、第一局部存储器、第二局部存储器和第三局部存储器相连，它将从数据发送模块接收的第1列数据送往选主元模块和第一局部存储器，其它奇数列数据送往第三局部存储器，偶数列数据送往第二局部存储器。第二、第三局部存储器具有“接收数据”和“工作”两个状态，只有“接收数据”状态的局部存储器才能接收数据；初始时第二局部存储器为“接收数据”状态，第三局部存储器为“工作”状态；当一个局部存储器处于“工作”时另一个便处于“接收数据”状态，数据接收完毕变为“工作”状态。选主元模块与第一从处理单元的数据通路控制模块、第一局部存储器、浮点除法运算模块和数据选择模块相连，它对数据通路控制模块送来的数据执行选主元操作，将主元记录在寄存器pivot中并将pivot的值发送给浮点除法运算模块，同时将主元所在位置记录在寄存器piv中并将piv的值发送给数据选择模块。浮点除法运算模块与第一局部存储器、选主元模块相连，将选主元模块送来的主元除以第一局部存储器中主元以外的所有的数，结果放置在第一局部存储器的原来位置。数据选择模块与第二局部存储器、第三局部存储器、第四局部存储器、浮点乘加运算模块和选主元模块相连，它根据选主元模块送来的piv值交换第二或第三局部存储器中的piv值所指位置与第一位置的数据，当第二局部存储器处于“工作”状态时，选择第二局部存储器第一位置的数据送往第四局部存储器，其它数据送往浮点乘加运算模块，当第三局部存储器处于“工作”状态时，选择第三局部存储器第一个位置的数据送往第四局部存储器，其它数据送往浮点乘加运算模块。第一从处理单元的浮点乘加运算模块与第一从处理单元的数据选择模块、第一局部存储器和FIFO相连，对数据选择模块送来的数据、第一局部存储器的数据进行运算，将结果送到FIFO中缓存。第一从处理单元的FIFO是一个先入先出缓存器，与第一从处理单元的浮点乘加运算模块和第二从处理单元的数据通路控制模块相连，缓存第一从处理单元的浮点乘加运算模块的运算结果，并将该结果送往第二从处理单元的数据通路控制模块。第一从处理单元的结果发送模块与第一从处理单元的第一局部存储器、第四局部存储器和第二从处理单元的结果发送模块相连，将第一局部存储器和第四局部存储器中的数据送到第二从处理单元的结果发送模块。

第k从处理单元(2≤k≤P-1)的参数接收模块与第k-1从处理单元的参数接收模块和第k+1从处理单元的参数接收模块相连，它从第k-1从处理单元的参数接收模块接收参数M′，并发送给第k+1从处理单元的参数接收模块。第k从处理单元的数据通路控制模块与第k-1从处理单元的FIFO、第k从处理单元中的选主元模块、第一局部存储器、第二局部存储器和第三局部存储器相连，它接收第k-1从处理单元的FIFO中的数据，将接收的第1列数据送往第k从处理单元的选主元模块和第一局部存储器，其它奇数列数据送往第k从处理单元的第三局部存储器，偶数列数据送往第k从处理单元的第二局部存储器。第k从处理单元的第二、第三局部存储器具有“接收数据”和“工作”两个状态，只有“接收数据”状态的局部存储器才能接收数据；初始时第二局部存储器为“接收数据”状态，第三局部存储器为“工作”状态；当一个局部存储器处于“工作”时另一个便处于“接收数据”状态，数据接收完毕变为“工作”状态。第k从处理单元的选主元模块与第k从处理单元的数据通路控制模块、第一局部存储器、浮点除法运算模块和数据选择模块相连，它对数据通路控制模块送来的数据执行选主元操作，将主元记录在寄存器pivot中并将pivot的值发送给浮点除法运算模块，同时将主元所在位置记录在寄存器piv中并将piv的值发送给数据选择模块。第k从处理单元的浮点除法运算模块与第一局部存储器、选主元模块相连，将选主元模块送来的主元除以第一局部存储器中主元以外的所有的数，结果放置在第一局部存储器的原来位置。第k从处理单元的数据选择模块与第k从处理单元的第二局部存储器、第三局部存储器、第四局部存储器、浮点乘加运算模块和选主元模块相连，它根据选主元模块送来的piv值交换第二或第三局部存储器中的piv值所指位置与第k位置的数据，当第二局部存储器处于“工作”状态时，选择第二局部存储器第k位置的数据送往第四局部存储器，其它数据送往浮点乘加运算模块，当第三局部存储器处于“工作”状态时，选择第三局部存储器第k个位置的数据送往第四局部存储器，其它数据送往浮点乘加运算模块。第k从处理单元的浮点乘加运算模块与第k从处理单元的数据选择模块、第一局部存储器和FIFO相连，对数据选择模块送来的数据、第一局部存储器的数据进行运算，将结果送到FIFO中缓存。第k从处理单元的FIFO与第k从处理单元的浮点乘加运算模块和第k+1从处理单元的数据通路控制模块相连，缓存第k从处理单元的浮点乘加运算模块的运算结果，并将结果发送到第k+1从处理单元的数据通路控制模块。第k从处理单元的结果发送模块与第k从处理单元的第一局部存储器、第四局部存储器、第k-1从处理单元的结果发送模块和第k+1从处理单元的结果发送模块相连，一方面将第k-1从处理单元的结果发送模块发送来的数据传递给第k+1从处理单元的结果发送模块，一方面将第k从处理单元的第一局部存储器和第四局部存储器中的数据送到第k+1从处理单元的结果发送模块。

第P从处理单元的参数接收模块与第P-1从处理单元的参数接收模块相连，它从第P-1从处理单元的参数接收模块接收参数M′。第P从处理单元的数据通路控制模块与第P-1从处理单元的FIFO、第P从处理单元中的选主元模块、第一局部存储器、第二局部存储器和第三局部存储器相连，它接收第P-1从处理单元的FIFO中的数据，将接收的第1列数据送往第P从处理单元的选主元模块和第一局部存储器，其它奇数列数据送往第P从处理单元的第三局部存储器，偶数列数据送往第P从处理单元的第二局部存储器。第P从处理单元的第二、第三局部存储器具有“接收数据”和“工作”两个状态，只有“接收数据”状态的局部存储器才能接收数据；初始时第二局部存储器为“接收数据”状态，第三局部存储器为“工作”状态；当一个局部存储器处于“工作”时另一个便处于“接收数据”状态，数据接收完毕变为“工作”状态。第P从处理单元的选主元模块与第P从处理单元的数据通路控制模块、第一局部存储器、浮点除法运算模块和数据选择模块相连，它对数据通路控制模块送来的数据执行选主元操作，将主元记录在寄存器pivot中并将pivot的值发送给浮点除法运算模块，同时将主元所在位置记录在寄存器piv中并将piv的值发送给数据选择模块。第P从处理单元的浮点除法运算模块与第一局部存储器、选主元模块相连，将选主元模块送来的主元除以第一局部存储器中主元以外的所有的数，结果放置在第一局部存储器的原来位置。第P从处理单元的数据选择模块与第P从处理单元的第二局部存储器、第三局部存储器、第四局部存储器、浮点乘加运算模块和选主元模块相连，它根据选主元模块送来的piv值交换第二或第三局部存储器中的piv值所指位置与第P位置的数据，当第二局部存储器处于“工作”状态时，选择第二局部存储器第P位置的数据送往第四局部存储器，其它数据送往浮点乘加运算模块，当第三局部存储器处于“工作”状态时，选择第三局部存储器第P个位置的数据送往第四局部存储器，其它数据送往浮点乘加运算模块。第P从处理单元的浮点乘加运算模块与第P从处理单元的数据选择模块、第一局部存储器和FIFO相连，对数据选择模块送来的数据、第一局部存储器的数据进行运算，将结果送到FIFO中缓存。第P从处理单元的FIFO与主处理单元的数据接收模块相连，用于缓存第P从处理单元的浮点乘加运算模块的运算结果，并将结果送往主处理单元的数据接收模块。第P从处理单元的结果发送模块与第P从处理单元的第一局部存储器、第四局部存储器、第P-1从处理单元的结果发送模块和主处理单元的数据接收模块相连，一方面将第P-1从处理单元的结果发送模块发送来的数据传递给主处理单元的数据接收模块，一方面将第P从处理单元的第一局部存储器和第四局部存储器中的数据送到主处理单元的数据接收模块。

第二步，由主从式并行计算系统按以下步骤对矩阵A进行列选主元LU分解：

1.主处理单元的全局状态控制模块根据当前要处理的矩阵大小M初始化参数M′＝M。待分解矩阵A′＝A。

2.主处理单元的参数发送模块把参数M′发送给第一从处理单元。主处理单元的外部存储器控制器按列从外部存储器中取出待分解的矩阵A′(a_i，j，1≤i，j≤M)，由数据发送模块发送给第一从处理单元。若M′＞P，执行步骤3；若M′≤P，转步骤4。

3.P个从处理单元按流水方式对矩阵A′进行处理，由主处理单元将中间结果和运算结果存入外部存储器。具体步骤如下：

3.1第一从处理单元的参数接收模块从参数发送模块接收到参数M′，传递给第二从处理单元，第一从处理单元对数据发送模块送来的矩阵A′进行如下操作：

3.1.1第一从处理单元的数据通路控制模块把矩阵A′的第1列数

(a_i，1，1≤i≤M′)放置在第一局部存储器，由选主元模块对

进行选主元操作，即找出绝对值最大的数作为该列主元u_1，1。若主元不在该列的第1个位置，由选主元模块将主元与该列第1个位置的数进行交换，并将主元原来所在位置记录在piv中。交换后，由浮点除法运算模块将主元除以主元以外的该列所有的数，结果

(l_i，1，2≤i≤M′)放置在该列所有的数在第一局部存储器的原来位置。

3.1.2第一从处理单元的数据通路控制模块把第2列数

(a_i，2，1≤i≤M′)放置在第二局部存储器中，第二局部存储器接收完毕后为“工作”状态，由数据选择模块交换第二局部存储器的piv值所指位置与第1位置的数据，第二局部存储器第1位置新的数据送往第四局部存储器并保存在第2个位置，记为u_1，2，其它数据

(a_i，2，2≤i≤M′)送往浮点乘加运算模块。浮点乘加运算模块将

减去与a_1，2的乘积，结果

(a¹ _i，2，2≤i≤M′)通过FIFO发送给第二从处理单元。

3.1.3第一从处理单元的数据通路控制模块在第一从处理单元的浮点乘加运算模块进行计算的同时把第3列数

(a_i，3，1≤i≤M′)放置在第三局部存储器中，第3列数接收完毕后第三局部存储器为“工作”状态，由数据选择模块交换第三局部存储器的piv值所指位置与第1位置的数据，第三局部存储器第1位置新的数据送往第四局部存储器并保存在第3个位置，记为u_1，3，其它数据

(a_i，3，2≤i≤M′)送往浮点乘加运算模块。浮点乘加运算模块将

减去

与a_1，3的乘积，结果

(a¹ _i，3，2≤i≤M′)通过FIFO发送给第二从处理单元。

3.1.4第一从处理单元针对其它列

(a_i，j，1≤i≤M′)，其中4≤j≤M′，重复3.1.3中的操作；对于第j列，数据选择模块交换第二或第三局部存储器的piv值所指位置与第1位置的数据，第1位置新的数据送往第四局部存储器并保存在第j个位置，记为u_1，j，其它数据

(a_i，j，2≤i≤M′)送往浮点乘加运算模块。浮点乘加运算模块将

减去

与a_1，j的乘积，结果

(a¹ _i，j，2≤i≤M′)通过FIFO发送给第二从处理单元。

3.2第k从处理单元的参数接收模块从第k-1从处理单元的参数接收模块接收到参数M′，传递给第k+1从处理单元；当第k-1从处理单元执行到它的数据通路控制模块把第k-2从处理单元(当k＝2时，指主处理单元)送来的第3列数放置在第三局部存储器时，第k从处理单元开始对第k-1从处理单元送来的数据进行如下操作：

3.2.1第k从处理单元的数据通路控制模块把第k-1从处理单元送来的第1列数

(a^k-1 _i，k，k≤i≤M′)放置在第一局部存储器，由选主元模块对

进行选主元操作，找出绝对值最大的数作为该列主元u_k，k。若主元不在该列的第k个位置，由选主元模块将主元与该列第k个位置的数进行交换，并将主元原来所在位置记录在piv中。交换后，由浮点除法运算模块将主元除以主元以外的该列所有的数，结果(l_i，k，k+1≤i≤M′)放置在该列所有的数在第一局部存储器的原来位置。

3.2.2第k从处理单元的数据通路控制模块把第k-1从处理单元送来的第2列数

(a^k-1 _i，k+1，k≤i≤M′)放置在第二局部存储器中，第二局部存储器接收完毕后为“工作”状态，由数据选择模块交换第二局部存储器的piv值所指位置与第k位置的数据，第二局部存储器第k位置新的数据送往第四局部存储器并保存在第k+1个位置，记为u_k，k+1，其它数据

(a^k-1 _i，k+1，k+1≤i≤M′)送往浮点乘加运算模块。浮点乘加运算模块将

减去

与a^k-1 _k，k+1的乘积，结果

(a^k _i，k+1，k+1≤i≤M′)通过FIFO发送给第k+1从处理单元。

3.2.3第k从处理单元的数据通路控制模块在浮点乘加运算模块进行计算的同时把第k-1从处理单元送来的第3列数

(a^k-1 _i，k+2，k≤i≤M′)放置在第三局部存储器中，第3列数接收完毕后第三局部存储器为“工作”状态，由数据选择模块交换第三局部存储器的piv值所指位置与第k位置的数据，第三局部存储器第k位置新的数据送往第四局部存储器并保存在第k+2个位置，记为u_k，k+2，其它数据

(a^k-1 _i，k+2，k+1≤i≤M′)送往浮点乘加运算模块。浮点乘加运算模块将

减去

与a^k-1 _k，k+2的乘积，结果

(a^k _i，k+2，k+1≤i≤M′)通过FIFO发送给第k+1从处理单元。

3.2.4第k从处理单元针对其它列

(a^k-1 _i，j，k≤i≤M′)，其中k+3≤j≤M′，重复3.2.3中的操作；对于第j+1-k列，数据选择模块交换局部存储器中的piv值所指位置与第k位置的数据，第k位置新的数据送往第四局部存储器并保存在第j个位置，记为u_k，j，其它数据(a^k-1 _i，j，k+1≤i≤M′)送往浮点乘加运算模块。浮点乘加运算模块将

减去

与a^k-1 _k，k+2的乘积，结果

(a^k _i，j，k+1≤i≤M′)通过FIFO发送给第k+1从处理单元。

3.3第P从处理单元的参数接收模块从第P-1从处理单元的参数接收模块接收到参数M′；当第P-1从处理单元执行到它的数据通路控制模块把第P-2从处理单元送来的第3列数放置在第三局部存储器中时，第P从处理单元开始对第P-1从处理单元送来的数据进行如下操作：

3.3.1第P从处理单元的数据通路控制模块把第P-1从处理单元送来的第1列数

(a^P-1 _i，P，P≤i≤M′)放置在第一局部存储器，由选主元模块对

进行选主元操作，找出绝对值最大的数作为该列主元u_P，P。若主元不在该列的第P个位置，由选主元模块将主元与该列第P个位置的数进行交换，并将主元原来所在位置记录在piv中。交换后，由浮点除法运算模块将主元除以主元以外的该列所有的数，结果

(l_i，P，P+1≤i≤M′)放置在该列所有的数在第一局部存储器的原来位置。

3.3.2第P从处理单元的数据通路控制模块把第P-1从处理单元送来的第2列数

(a^P-1 _i，P+1，P≤i≤M′)放置在第二局部存储器中，第二局部存储器接收完毕后为“工作”状态，由数据选择模块交换第二局部存储器的piv值所指位置与第P位置的数据，第二局部存储器第P位置新的数据送往第四局部存储器并保存在第P+1个位置，记为u_P，P+1，其它数据

(a^P-1 _i，P+1，P+1≤i≤M′)送往浮点乘加运算模块。浮点乘加运算模块将

减去

与a^P-1 _P，P+1的乘积，结果

(a^P _i，P+1，P+1≤i≤M′)通过FIFO发送给主处理单元。

3.3.3第P从处理单元的数据通路控制模块在浮点乘加运算模块进行计算的同时把第P-1从处理单元送来的第3列数

(a^P-1 _i，P+2，P≤i≤M′)放置在第三局部存储器中，第3列数接收完毕后第三局部存储器为“工作”状态，由数据选择模块交换第三局部存储器的piv值所指位置与第P位置的数据，第三局部存储器第P位置新的数据送往第四局部存储器并保存在第P+2个位置，记为u_P，P+2，其它数据(a^P-1 _i，P+2，P+1≤i≤M′)送往浮点乘加运算模块。浮点乘加运算模块将

减去

与a^P-1 _P，P+2的乘积，结果(a^P _i，P+2，P+1≤i≤M′)通过FIFO发送给主处理单元。

3.3.4第P从处理单元针对其它列的数

(a^P-1 _i，j，P≤i≤M′)，其中P+3≤j≤M′，重复3.3.3中的操作；对于第j+1-P列，数据选择模块交换局部存储器中的piv值所指位置与第P位置的数据，第P位置新的数据送往第四局部存储器并保存在第j个位置，记为u_P，j，其它数据

(a^P-1 _i，j，P+1≤i≤M′)送往浮点乘加运算模块。浮点乘加运算模块将

减去

与a^P-1 _P，P+2的乘积，结果

(a^P _i，j，P+1≤i≤M′)通过FIFO发送给主处理单元。

3.4主处理单元的数据接收模块按列接收第P从处理单元的FIFO发送过来的中间结果

由外部存储控制器存储到外部存储器中。

然后，各个从处理单元的运算结果按如下步骤传递给主处理单元，并由主处理单元的外部存储控制器存储到外部存储器中：

3.4.1第一从处理单元的结果发送模块将第一从处理单元的第一局部存储器和第四局部存储器中的数据

(l_i，1，2≤i≤M′)、

(u_1，j，1≤j≤M′)送到第二从处理单元的结果发送模块；

3.4.2第k从处理单元的结果发送模块首先将第k-1从处理单元的结果发送模块发送来的数据传递给第k+1从处理单元的结果发送模块，然后将第k从处理单元的第一局部存储器和第四局部存储器中的数据

(l_i，k，k+1≤i≤M′)、

(u_k，j，k≤j≤M′)送到第k+1从处理单元的结果发送模块；

3.4.3第P从处理单元的结果发送模块首先将第P-1从处理单元的结果发送模块发送来的数据传递给主处理单元的数据接收模块，然后将第P从处理单元的第一局部存储器和第四局部存储器中的数据

(l_i，P，P+1≤i≤M′)、

(u_P，j，P≤j≤M′)送到主处理单元的数据接收模块。

3.4.4主处理单元的数据接收模块接收从第P从处理单元的结果发送模块发送过来的各个从处理单元的运算结果，由外部存储控制器存储到外部存储器中。

3.5主处理单元的全局状态控制模块控制参数发送模块置M′＝M′-P。

转步骤2。

4 M′个从处理单元按流水方式对矩阵A′进行处理，由主处理单元将运算结果存入外部存储器。具体步骤如下：

4.1第一从处理单元的参数接收模块从参数发送模块接收到参数M′，传递给第二从处理单元；第一从处理单元对数据发送模块送来的矩阵A′进行如下操作：

4.1.1第一从处理单元的数据通路控制模块把矩阵A′的第1列数(a_i，1，1≤i≤M′)放置在第一局部存储器，由选主元模块对

4.1.2第一从处理单元的数据通路控制模块把第2列数

(a_i，2，2≤i≤M′)送往浮点乘加运算模块。浮点乘加运算模块将减去

与a_1，2的乘积，结果

(a¹ _i，2，2≤i≤M′)通过FIFO发送给第二从处理单元。

4.1.3第一从处理单元的数据通路控制模块在第一从处理单元的浮点乘加运算模块进行计算的同时把第3列数

(a_i，3，2≤i≤ M′)送往浮点乘加运算模块。浮点乘加运算模块将

减去

与a_1，3的乘积，结果

(a¹ _i，3，2≤i≤M′)通过FIFO发送给第二从处理单元。

4.1.4第一从处理单元针对其它列

(a_i，j，1≤i≤M′)，其中4≤j≤M′，重复4.1.3中的操作；对于第j列，数据选择模块交换第二或第三局部存储器的piv值所指位置与第1位置的数据，第1位置新的数据送往第四局部存储器并保存在第j个位置，记为u_1，j，其它数据(a_i，j，2≤i≤M′)送往浮点乘加运算模块。浮点乘加运算模块将

减去

与a_1，j的乘积，结果

(a¹ _i，j，2≤i≤M′)通过FIFO发送给第二从处理单元。

4.2第k从处理单元(2≤k≤M′-1)的参数接收模块从第k-1从处理单元的参数接收模块接收到参数M′，传递给第k+1从处理单元；当第k-1从处理单元执行到它的数据通路控制模块把第k-2从处理单元(当k＝2时，指主处理单元)送来的第3列数放置在第三局部存储器时，第k从处理单元开始对第k-1从处理单元送来的数据进行如下操作：

4.2.1第k从处理单元的数据通路控制模块把第k-1从处理单元送来的第1列数(a^k-1 _i，k，k≤i≤M′)放置在第一局部存储器，由选主元模块对

进行选主元操作，找出绝对值最大的数作为该列主元u_k，k。若主元不在该列的第k个位置，由选主元模块将主元与该列第k个位置的数进行交换，并将主元原来所在位置记录在piv中。交换后，由浮点除法运算模块将主元除以主元以外的该列所有的数，结果

(l_i，k，k+1≤i≤M′)放置在该列所有的数在第一局部存储器的原来位置。

4.2.2第k从处理单元的数据通路控制模块把第k-1从处理单元送来的第2列数

减去

与a^k-1 _k，k+1的乘积，结果

(a^k _i，k+1，k+1≤i≤M′)通过FIFO发送给第k+1从处理单元。

4.2.3第k从处理单元的数据通路控制模块在浮点乘加运算模块进行计算的同时把第k-1从处理单元送来的第3列数

(a^k-1 _i，k+2，k≤i≤M′)放置在第三局部存储器中，第3列数接收完毕后第三局部存储器为“工作”状态，由数据选择模块交换第三局部存储器的piv值所指位置与第k位置的数据，第三局部存储器第k位置新的数据送往第四局部存储器并保存在第k+2个位置，记为u_k，k+2，其它数据(a^k-1 _i，k+2，k+1≤i≤M′)送往浮点乘加运算模块。浮点乘加运算模块将

减去

与a^k-1 _k，k+2的乘积，结果(a^k _i，k+2，k+1≤i≤M′)通过FIFO发送给第k+1从处理单元。

4.2.4第k从处理单元针对其它列

(a^k-1 _i，j，k≤i≤M′)，其中k+3≤j≤M′，重复4.2.3中的操作；对于第j+1-k列，数据选择模块交换局部存储器中的piv值所指位置与第k位置的数据，第k位置新的数据送往第四局部存储器并保存在第j个位置，记为u_k，j，其它数据

(a^k-1 _i，j，k+1≤i≤M′)送往浮点乘加运算模块。浮点乘加运算模块将

减去

与a^k-1 _k，k+2的乘积，结果

(a^k _i，j，k+1≤i≤M′)通过FIFO发送给第k+1从处理单元。

4.3第M′从处理单元的参数接收模块从第M′-1从处理单元的参数接收模块接收到参数M′；第M′从处理单元将第M′-1从处理单元送来一行一列即a^M′-1 _M′，M′放置在第一局部存储器，记为u_M′，M′。由于矩阵每经过一个从处理单元，规模都会变小，第M′从处理单元已没有结果送出。

4.4线性计算阵列将运算结果传递给主处理单元的数据接收模块，主处理单元的外部存储控制器将运算结果存储到外部存储器中，最终，运算结果完全存储在外部存储器作为输出，计算结束。具体步骤如下：

4.4.1第一从处理单元的结果发送模块将第一从处理单元的第一局部存储器和第四局部存储器中的数据(l_i，1，2≤i≤M′)、

(u_1，j，1≤j≤M′)送到第二从处理单元的结果发送模块；

4.4.2第k从处理单元的结果发送模块首先将第k-1从处理单元的结果发送模块发送来的数据传递给第k+1从处理单元的结果发送模块，然后将第k从处理单元的第一局部存储器和第四局部存储器中的数据

(l_i，k，k+1≤i≤M′)、

(u_k，j，k≤j≤M′)送到第k+1从处理单元的结果发送模块；

4.4.3第M′从处理单元的结果发送模块首先将第M′-1从处理单元的结果发送模块发送来的数据传递给第M′+1从处理单元的结果发送模块，然后将第M′从处理单元的第一局部存储器的数据u_M′，M′送到第M′+1从处理单元的结果发送模块；

4.4.5第h从处理单元(M′+1≤h≤P-1)的结果发送模块将第h-1从处理单元的结果发送模块发送来的数据传递给第h+1从处理单元的结果发送模块；

4.4.6第P从处理单元的结果发送模块将第P-1从处理单元的结果发送模块发送来的数据传递给主处理单元的数据接收模块；

4.4.7主处理单元的数据接收模块接收从第P从处理单元的结果发送模块发送过来的各个从处理单元的运算结果，由外部存储控制器存储到外部存储器中。

采用本发明可以达到以下技术效果：

1.本发明利用基于FPGA的主从式并行计算系统，实现了列选主元LU分解。由于选出的主元作为除数，使计算精度与不选主元LU分解相比得到很大提高。

2.本发明从处理单元采用流水化的并行执行机制，在进行LU分解时，一方面各数据通路控制模块在浮点乘加运算模块进行计算的同时把前一从处理单元送来的数放置在第二或第三局部存储器中，一方面在前一从处理单元执行到第三列数据时，后一从处理单元即开始接收前一单元发送的数据。当从处理器单元个数达到16时，比通用处理器相比执行速度快5倍。从处理器单元个数越多，执行速度比通用处理器越快，在设计主从式并行计算系统时根据要处理的矩阵大小和FPGA资源约束灵活配置。

3.本发明的主从式并行计算系统采用一维线性阵列的拓扑结构，具有可扩展性，可根据实际FPGA芯片的容量和对计算能力的需求，配置不同的从处理单元个数，并且在保证满足面积和性能需求的同时，能够降低功耗。

附图说明

图1是本发明的总体流程图。

图2是本发明的主从式并行计算系统逻辑结构图。

图3是本发明主处理单元的全局状态控制模块状态转换图。

具体实施方案

图1是本发明的总体流程图。首先构建基于FPGA的主从式并行计算系统，主从式并行计算系统由主处理单元和P个从处理单元组成。然后由主从式并行计算系统按以下步骤对待分解矩阵A(a_i，j，1≤i，j≤M，且M是正整数)进行列选主元LU分解：

2.主处理单元的参数发送模块把参数M′发送给第一从处理单元。主处理单元的外部存储器控制器按列从外部存储器中取出待分解的矩阵A′(a_i，j，1≤i，j≤M)，由数据发送模块发送给第一从处理单元。若M′＞P，执行步骤3；否则，转步骤4。

3.首先，由P个从处理单元按流水方式对矩阵A′进行处理：

第一从处理单元的参数接收模块从参数发送模块接收到参数M′，传递给第二从处理单元，……，第k(2≤k≤P-1)从处理单元将参数M′传递给第k+1从处理单元，……，第P从处理单元不再将参数M′进行传递；

第一从处理单元对主处理单元送来的矩阵A′进行选主元、浮点除和浮点乘加等操作，中间结果通过FIFO传递给第二从处理单元，……，第k从处理单元在第k-1从处理单元执行到第k-2从处理单元(当k＝2时，指主处理单元)送来的第3列数时开始对第k-1从处理单元送来的数据进行操作，……，第P从处理单元在第P-1从处理单元执行到第P-2从处理单元送来的第3列数时开始对第P-1从处理单元送来的数据进行操作，中间结果由FIFO发送给主处理单元。

接着，主处理单元的数据接收模块按列接收到第P从处理单元的FIFO发送过来的中间结果

由外部存储控制器存储到外部存储器中。

然后，主处理单元的数据接收模块接收从第P从处理单元的结果发送模块发送过来的各个从处理单元的运算结果

由外部存储控制器存储到外部存储器中。

最后，主处理单元的全局状态控制模块控制参数发送模块置M′＝M-P。

转步骤2。

4.首先，由M′个从处理单元按流水方式对矩阵A′进行处理：

第一从处理单元的参数接收模块从参数发送模块接收到参数M′，传递给第二从处理单元，……，第k从处理单元(2≤k≤M′-1)将参数M′传递给第k从处理单元，……，第M′从处理单元不再将参数M′传递给第M′+1从处理单元；

第一从处理单元对主处理单元送来的矩阵A′进行选主元、浮点除和浮点乘加等操作，中间结果通过FIFO传递给第二从处理单元，……，第k从处理单元在第k-1从处理单元执行到第k-2从处理单元(当k＝2时，指主处理单元)送来的第3列数时开始对第k-1从处理单元送来的数据进行操作，……，第M′从处理单元将第M′-1从处理单元送来一行一列数据放置在第一局部存储器，没有中间结果再传递给第M′+1从处理单元或主处理单元。

u_M′，M′，由外部存储控制器存储到外部存储器中。计算结束。

图2是本发明的主从式并行计算系统逻辑结构图。原始矩阵存储在外部存储器中。主从式并行计算系统由主处理单元和P(P为正整数，P＞2)个从处理单元组成。主处理单元与外部存储器、第一从处理单元、第P从处理单元相连，主处理单元由外部存储器控制器、全局状态控制模块、参数发送模块、数据发送模块和数据接收模块组成。外部存储器控制器与外部存储器、数据发送模块、数据接收模块相连，对外部存储器的读写进行控制，将从外部存储器读入的数据送往数据发送模块，将从数据接收模块获得的数据写入外部存储器；全局状态控制模块与数据发送模块、数据接收模块和参数发生模块相连，控制主从式并行计算系统的状态转换；数据发送模块与外部存储器控制器、全局状态控制模块、第一从处理单元相连，在全局状态控制模块的控制下，将从外部存储器控制器传来的数据送到第一从处理单元；参数发送模块与全局状态控制模块、第一从处理单元相连，在全局状态控制模块的控制下，向第一从处理单元发送参数M′，即当前需要处理的矩阵的列数或行数(M′的初始值为矩阵A的行数或列数M，列数＝行数)；数据接收模块与第P从处理单元、外部存储器控制器相连，从第P从处理单元接收中间结果矩阵和计算结果，并将中间结果矩阵和计算结果发送给外部存储器控制器。

图3是本发明主处理单元的全局状态控制模块状态转换图。全局状态控制模块由一个状态机和一个比较器组成，状态机通过信号线与比较器相连，由“空闲”、“初始化参数”、“发送参数”、“配置参数”、“发送数据”、“接收中间结果”、“等待运算结束”、“接收运算结果”8个状态组成。状态机在主从式并行计算系统复位之后进入“空闲”状态；当主从式并行计算系统开始运行时，进入“初始化参数”状态，向参数发送模块发参数初始化命令，参数发送模块置M′＝M；然后状态机进入“发送参数”状态，通过参数发送模块对线性计算阵列需要处理的矩阵大小进行配置，即将M′发送给第一从处理单元；参数发送后，状态机进入“发送数据”状态，通知数据发送模块将矩阵发送给线性计算阵列；比较器比较M′和P的大小，如果M′＞P，状态机进入“接收中间结果”状态，通知数据接收模块接收中间结果，然后进入“等待运算结束”状态等待线性计算阵列运算结束；如果M′≤P，状态机直接由“发送数据”状态进入“等待运算结束”状态；当运算结束，状态机进入“接收运算结果”状态，通知数据接收模块接收运算结果；数据接收完毕后，如果M′＞P，状态机转入“配置参数”状态，向参数发送模块发配置参数命令，参数发送模块置M′＝M′-P，然后状态机进入“发送参数”状态；如果M′≤P，转入“空闲”状态，运算结束。

Claims

1.一种基于FPGA的列选主元LU分解方法，其特征在于包括以下步骤：

第一步，构建基于FPGA的主从式并行计算系统，主从式并行计算系统由主处理单元和P个从处理单元组成，P为正整数且P＞2；主处理单元与外部存储器、第一从处理单元、第P从处理单元相连，主处理单元由外部存储器控制器、全局状态控制模块、参数发送模块、数据发送模块和数据接收模块组成；外部存储器控制器与外部存储器、数据发送模块、数据接收模块相连，对外部存储器的读写进行控制，将从外部存储器读入的数据送往数据发送模块，将从数据接收模块获得的数据写入外部存储器；全局状态控制模块与数据发送模块、数据接收模块和参数发生模块相连，控制主从式并行计算系统的状态转换；数据发送模块与外部存储器控制器、全局状态控制模块、第一从处理单元相连，在全局状态控制模块的控制下，将从外部存储器控制器传来的数据送到第一从处理单元；参数发送模块与全局状态控制模块、第一从处理单元相连，在全局状态控制模块的控制下，向第一从处理单元发送参数M′即当前需要处理的矩阵的列数或行数；数据接收模块与第P从处理单元、外部存储器控制器相连，从第P从处理单元接收中间结果矩阵和计算结果，并将中间结果矩阵和计算结果发送给外部存储器控制器；

P个从处理单元组成一维线性计算阵列，负责进行列选主元LU分解，每个从处理单元逻辑结构相同，均由参数接收模块、数据通路控制模块、浮点乘加运算模块、浮点除法运算模块、数据选择模块、选主元模块、结果发送模块、4个局部存储器和FIFO组成；4个局部存储器中的第二、第三局部存储器具有“接收数据”和“工作”两个状态，只有“接收数据”状态的局部存储器才能接收数据；初始时第二局部存储器为“接收数据”状态，第三局部存储器为“工作”状态；当一个局部存储器处于“工作”时另一个便处于“接收数据”状态，数据接收完毕变为“工作”状态；

1.主处理单元的全局状态控制模块根据当前要处理的矩阵大小M初始化参数M′＝M，M为矩阵A的行数或列数，列数＝行数，待分解矩阵A′＝A；

2.主处理单元的参数发送模块把参数M′发送给第一从处理单元，主处理单元的外部存储器控制器按列从外部存储器中取出待分解的矩阵A′(a_i，j，1≤i，j≤M)，由数据发送模块发送给第一从处理单元；若M′＞P，执行步骤3；若M′≤P，转步骤4；

3.P个从处理单元按流水方式对矩阵A′进行处理，由主处理单元将中间结果和运算结果存入外部存储器，具体步骤如下：

3.1第一从处理单元的参数接收模块从参数发送模块接收到参数M′，传递给第二从处理单元，第一从处理单元对数据发送模块送来的矩阵A′进行如下操作；

3.1.1第一从处理单元的数据通路控制模块把矩阵A′的第1列数(a_i，1，1≤i≤M′)放置在第一局部存储器，由选主元模块对

进行选主元操作，即找出绝对值最大的数作为该列主元u_1，1，若主元不在该列的第1个位置，由选主元模块将主元与该列第1个位置的数进行交换，并将主元原来所在位置记录在寄存器piv中；交换后，由浮点除法运算模块将主元除以主元以外的该列所有的数，结果

(l_i，1，2≤i≤M′)放置在该列所有的数在第一局部存储器的原来位置；

3.1.2第一从处理单元的数据通路控制模块把第2列数(a_i，2，1≤i≤M′)放置在第二局部存储器中，第二局部存储器接收完毕后为“工作”状态，由数据选择模块交换第二局部存储器的piv值所指位置与第1位置的数据，第二局部存储器第1位置新的数据送往第四局部存储器并保存在第2个位置，记为u_1，2，其它数据

(a_i，2，2≤i≤M′)送往浮点乘加运算模块；浮点乘加运算模块将

减去

与a_1，2的乘积，结果

(a¹ _i，2，2≤i≤M′)通过FIFO发送给第二从处理单元；

(a_i，3，2≤i≤M′)送往浮点乘加运算模块；浮点乘加运算模块将减去

与a_1，3的乘积，结果

(a¹ _i，3，2≤i≤M′)通过FIFO发送给第二从处理单元；

3.1.4第一从处理单元针对其它列

(a_i，j，1≤i≤M′)，其中4≤j≤M′，重复3.1.3中的操作；对于第j列，数据选择模块交换第二或第三局部存储器的piv值所指位置与第1位置的数据，第1位置新的数据送往第四局部存储器并保存在第j个位置，记为u_1，j，其它数据(a_i，j，2≤i≤M′)送往浮点乘加运算模块；浮点乘加运算模块将减去与a_1，j的乘积，结果

(a¹ _i，j，2≤i≤M′)通过FIFO发送给第二从处理单元；

3.2第k从处理单元的参数接收模块从第k-1从处理单元的参数接收模块接收到参数M′，传递给第k+1从处理单元；当第k-1从处理单元执行到它的数据通路控制模块把第k-2从处理单元送来的第3列数放置在第三局部存储器时，当k＝2时，第k-2从处理单元指主处理单元，第k从处理单元开始对第k-1从处理单元送来的数据进行如下操作：

(a^k-1 _i，k，k≤i≤M′)放置在第一局部存储器，由选主元模块对进行选主元操作，找出绝对值最大的数作为该列主元u_k，k；若主元不在该列的第k个位置，由选主元模块将主元与该列第k个位置的数进行交换，并将主元原来所在位置记录在piv中；交换后，由浮点除法运算模块将主元除以主元以外的该列所有的数，结果(l_i，k，k+1≤i≤M′)放置在该列所有的数在第一局部存储器的原来位置；

(a^k-1 _i，k+1，k+1≤i≤M′)送往浮点乘加运算模块；浮点乘加运算模块将

减去

与a^k-1 _k，k+1的乘积，结果

(a^k _i，k+1，k+1≤i≤M′)通过FIFO发送给第k+1从处理单元；

(a^k-1 _i，k+2，k+1≤i≤M′)送往浮点乘加运算模块；浮点乘加运算模块将

减去

与a^k-1 _k，k+2的乘积，结果

(a^k _i，k+2，k+1≤i≤M′)通过FIFO发送给第k+1从处理单元；

3.2.4第k从处理单元针对其它列

(a^k-1 _i，j，k≤i≤M′)，其中k+3≤j≤M′，重复3.2.3中的操作；对于第j+1-k列，数据选择模块交换局部存储器中的piv值所指位置与第k位置的数据，第k位置新的数据送往第四局部存储器并保存在第j个位置，记为u_k，j，其它数据

(a^k-1 _i，j，k+1≤i≤M′)送往浮点乘加运算模块；浮点乘加运算模块将

减去

与a^k-1 _k，k+2的乘积，结果

(a^k _i，j，k+1≤i≤M′)通过FIFO发送给第k+1从处理单元；

进行选主元操作，找出绝对值最大的数作为该列主元u_P，P；若主元不在该列的第P个位置，由选主元模块将主元与该列第P个位置的数进行交换，并将主元原来所在位置记录在piv中；交换后，由浮点除法运算模块将主元除以主元以外的该列所有的数，结果

(l_i，P，P+1≤i≤M′)放置在该列所有的数在第一局部存储器的原来位置；

(a^P-1 _i，P+1，P+1≤i≤M′)送往浮点乘加运算模块；浮点乘加运算模块将

减去

与a^P-1 _P，P+1的乘积，结果

(a^P _i，P+1，P+1≤i≤M′)通过FIFO发送给主处理单元；

(a^P-1 _i，P+2，P≤i≤M′)放置在第三局部存储器中，第3列数接收完毕后第三局部存储器为“工作”状态，由数据选择模块交换第三局部存储器的piv值所指位置与第P位置的数据，第三局部存储器第P位置新的数据送往第四局部存储器并保存在第P+2个位置，记为u_P，P+2，其它数据

(a^P-1 _i，P+2，P+1≤i≤M′)送往浮点乘加运算模块；浮点乘加运算模块将

减去

与a^P-1 _P，P+2的乘积，结果

(a^P _i，P+2，P+1≤i≤M′)通过FIFO发送给主处理单元；

3.3.4第P从处理单元针对其它列的数(a^P-1 _i，j，P≤i≤M′)，其中P+3≤j≤M′，重复3.3.3中的操作；对于第j+1-P列，数据选择模块交换局部存储器中的piv值所指位置与第P位置的数据，第P位置新的数据送往第四局部存储器并保存在第j个位置，记为u_P，j，其它数据

(a^P-1 _i，j，P+1≤i≤M′)送往浮点乘加运算模块；浮点乘加运算模块将

减去

与a^P-1 _P，P+2的乘积，结果

(a^P _i，j，P+1≤i≤M′)通过FIFO发送给主处理单元；

由外部存储控制器存储到外部存储器中，然后，各个从处理单元的运算结果按如下步骤传递给主处理单元，并由主处理单元的外部存储控制器存储到外部存储器中：

3.4.1第一从处理单元的结果发送模块将第一从处理单元的第一局部存储器和第四局部存储器中的数据(l_i，1，2≤i≤M′)、(u_1，j，1≤j≤M′)送到第二从处理单元的结果发送模块；

(l_i，k，k+1≤i≤M′)、

(u_k，j，k≤j≤M′)送到第k+1从处理单元的结果发送模块；

3.4.3第P从处理单元的结果发送模块首先将第P-1从处理单元的结果发送模块发送来的数据传递给主处理单元的数据接收模块，然后将第P从处理单元的第一局部存储器和第四局部存储器中的数据(l_i，P，P+1≤i≤M′)、

(u_P，j，P≤j≤M′)送到主处理单元的数据接收模块；

3.4.4主处理单元的数据接收模块接收从第P从处理单元的结果发送模块发送过来的各个从处理单元的运算结果，由外部存储控制器存储到外部存储器中；

3.5主处理单元的全局状态控制模块控制参数发送模块置M′＝M′-P，A′＝由列向量

组成的中间结果矩阵，转步骤2；

4M′个从处理单元按流水方式对矩阵A′进行处理，由主处理单元将运算结果存入外部存储器，具体步骤如下：

4.1第一从处理单元的参数接收模块从参数发送模块接收到参数M′，传递给第二从处理单元，第一从处理单元对数据发送模块送来的矩阵A′进行如下操作：

4.1.1第一从处理单元的数据通路控制模块把矩阵A′的第1列数

(a_i，1，1≤i≤M′)放置在第一局部存储器，由选主元模块对

进行选主元操作，即找出绝对值最大的数作为该列主元u_1，1；若主元不在该列的第1个位置，由选主元模块将主元与该列第1个位置的数进行交换，并将主元原来所在位置记录在piv中；交换后，由浮点除法运算模块将主元除以主元以外的该列所有的数，结果

4.1.2第一从处理单元的数据通路控制模块把第2列数

减去

与a_1，2的乘积，结果(a¹ _i，2，2≤i≤M′)通过FIFO发送给第二从处理单元；

(a_i，3，2≤i≤M′)送往浮点乘加运算模块；浮点乘加运算模块将

减去与a_1，3的乘积，结果

(a¹ _i，3，2≤i≤M′)通过FIFO发送给第二从处理单元；

4.1.4第一从处理单元针对其它列

(a_i，j，1≤i≤M′)，其中4≤j≤M′，重复4.1.3中的操作；对于第j列，数据选择模块交换第二或第三局部存储器的piv值所指位置与第1位置的数据，第1位置新的数据送往第四局部存储器并保存在第j个位置，记为u_1，j，其它数据

减去

与a_1，j的乘积，结果

(a¹ _i，j，2≤i≤M′)通过FIFO发送给第二从处理单元；

4.2第k从处理单元(2≤k≤M′-1)的参数接收模块从第k-1从处理单元的参数接收模块接收到参数M′，传递给第k+1从处理单元；当第k-1从处理单元执行到它的数据通路控制模块把第k-2从处理单元送来的第3列数放置在第三局部存储器时，当k＝2时，第k-2从处理单元指主处理单元，第k从处理单元开始对第k-1从处理单元送来的数据进行如下操作：

4.2.1第k从处理单元的数据通路控制模块把第k-1从处理单元送来的第1列数

(a^k-1 _i，k，k≤i≤M′)放置在第一局部存储器，由选主元模块对进行选主元操作，找出绝对值最大的数作为该列主元u_k，k；若主元不在该列的第k个位置，由选主元模块将主元与该列第k个位置的数进行交换，并将主元原来所在位置记录在piv中；交换后，由浮点除法运算模块将主元除以主元以外的该列所有的数，结果

(l_i，k，k+1≤i≤M′)放置在该列所有的数在第一局部存储器的原来位置；

4.2.2第k从处理单元的数据通路控制模块把第k-1从处理单元送来的第2列数(a^k-1 _i，k+1，k≤i≤M′)放置在第二局部存储器中，第二局部存储器接收完毕后为“工作”状态，由数据选择模块交换第二局部存储器的piv值所指位置与第k位置的数据，第二局部存储器第k位置新的数据送往第四局部存储器并保存在第k+1个位置，记为u_k，k+1，其它数据

(a^k-1 _i，k+1，k+1≤i≤M′)送往浮点乘加运算模块；浮点乘加运算模块将减去

与a^k-1 _k，k+1的乘积，结果

(a^k _i，k+1，k+1≤i≤M′)通过FIFO发送给第k+1从处理单元；

减去与a^k-1 _k，k+2的乘积，结果

(a^k _i，k+2，k+1≤i≤M′)通过FIFO发送给第k+1从处理单元；

4.2.4第k从处理单元针对其它列

(a^k-1 _i，j，k≤i≤M′)，其中k+3≤j≤M′，重复4.2.3中的操作；对于第j+1-k列，数据选择模块交换局部存储器中的piv值所指位置与第k位置的数据，第k位置新的数据送往第四局部存储器并保存在第j个位置，记为u_k，j，其它数据(a^k-1 _i，j，k+1≤i≤M′)送往浮点乘加运算模块；浮点乘加运算模块将

减去与a^k-1 _k，k+2的乘积，结果

(a^k _i，j，k+1≤i≤M′)通过FIFO发送给第k+1从处理单元；

4.3第M′从处理单元的参数接收模块从第M′-1从处理单元的参数接收模块接收到参数M′；第M′从处理单元将第M′-1从处理单元送来一行一列即a^M′-1 _M′，M′放置在第一局部存储器，记为u_M′，M′；

4.4线性计算阵列将运算结果传递给主处理单元的数据接收模块，主处理单元的外部存储控制器将运算结果存储到外部存储器中，最终，运算结果完全存储在外部存储器作为输出，计算结束，具体步骤如下：

(u_1，j，1≤j≤M′)送到第二从处理单元的结果发送模块；

4.4.2第k从处理单元的结果发送模块首先将第k-1从处理单元的结果发送模块发送来的数据传递给第k+1从处理单元的结果发送模块，然后将第k从处理单元的第一局部存储器和第四局部存储器中的数据(l_i，k，k+1≤i≤M′)、(u_k，j，k≤j≤M′)送到第k+1从处理单元的结果发送模块；

2.如权利要求1所述的基于FPGA的列选主元LU分解方法，其特征在于所述全局状态控制模块由一个状态机和一个比较器组成，状态机通过信号线与比较器相连，状态机由“空闲”、“初始化参数”、“发送参数”、“配置参数”、“发送数据”、“接收中间结果”、“等待运算结束”、“接收运算结果”8个状态组成；状态机在主从式并行计算系统复位之后进入“空闲”状态；当主从式并行计算系统开始运行时，进入“初始化参数”状态，向参数发送模块发参数初始化命令，参数发送模块置M′＝M；然后状态机进入“发送参数”状态，通过参数发送模块对线性计算阵列需要处理的矩阵大小进行配置，即将M′发送给第一从处理单元；参数发送后，状态机进入“发送数据”状态，通知数据发送模块将矩阵发送给线性计算阵列；比较器比较M′和P的大小，如果M′＞P，状态机进入“接收中间结果”状态，通知数据接收模块接收中间结果，然后进入“等待运算结束”状态等待线性计算阵列运算结束；如果M′≤P，状态机直接由“发送数据”状态进入“等待运算结束”状态；当运算结束，状态机进入“接收运算结果”状态，通知数据接收模块接收运算结果；数据接收完毕后，如果M′＞P，状态机转入“配置参数”状态，向参数发送模块发配置参数命令，参数发送模块置′＝M′-P，然后状态机进入“发送参数”状态；如果M′≤P，转入“空闲”状态，运算结束。

3.如权利要求1所述的基于FPGA的列选主元LU分解方法，其特征在于所述所有从处理单元的4个局部存储器大小设置为M，FIFO深度大于16，局部存储器和FIFO的位宽与矩阵A的元素一致。

4.如权利要求1所述的基于FPGA的列选主元LU分解方法，其特征在于所述第一从处理单元的参数接收模块与主处理单元的参数发送模块、第二从处理单元的参数接收模块相连，它从主处理单元的参数发送模块接收M′，并发送给第二从处理单元的参数接收模块；第一从处理单元的数据通路控制模块一方面与主处理单元的数据发送模块相连，一方面与第一从处理单元中的选主元模块、第一局部存储器、第二局部存储器和第三局部存储器相连，它将从数据发送模块接收的第1列数据送往选主元模块和第一局部存储器，其它奇数列数据送往第三局部存储器，偶数列数据送往第二局部存储器；选主元模块与第一从处理单元的数据通路控制模块、第一局部存储器、浮点除法运算模块和数据选择模块相连，它对数据通路控制模块送来的数据执行选主元操作，将主元记录在寄存器pivot中并将pivot的值发送给浮点除法运算模块，同时将主元所在位置记录在寄存器piv中并将piv的值发送给数据选择模块；浮点除法运算模块与第一局部存储器、选主元模块相连，将选主元模块送来的主元除以第一局部存储器中主元以外的所有的数，结果放置在第一局部存储器的原来位置；数据选择模块与第二局部存储器、第三局部存储器、第四局部存储器、浮点乘加运算模块和选主元模块相连，它根据选主元模块送来的piv值交换第二或第三局部存储器中的piv值所指位置与第一位置的数据，当第二局部存储器处于“工作”状态时，选择第二局部存储器第一位置的数据送往第四局部存储器，其它数据送往浮点乘加运算模块，当第三局部存储器处于“工作”状态时，选择第三局部存储器第一个位置的数据送往第四局部存储器，其它数据送往浮点乘加运算模块；第一从处理单元的浮点乘加运算模块与第一从处理单元的数据选择模块、第一局部存储器和FIFO相连，对数据选择模块送来的数据、第一局部存储器的数据进行运算，将结果送到FIFO中缓存；第一从处理单元的FIFO是一个先入先出缓存器，与第一从处理单元的浮点乘加运算模块和第二从处理单元的数据通路控制模块相连，缓存第一从处理单元的浮点乘加运算模块的运算结果，并将该结果送往第二从处理单元的数据通路控制模块；第一从处理单元的结果发送模块与第一从处理单元的第一局部存储器、第四局部存储器和第二从处理单元的结果发送模块相连，将第一局部存储器和第四局部存储器中的数据送到第二从处理单元的结果发送模块；第k从处理单元的参数接收模块与第k-1从处理单元的参数接收模块和第k+1从处理单元的参数接收模块相连，2≤k≤P-1，它从第k-1从处理单元的参数接收模块接收参数M′，并发送给第k+1从处理单元的参数接收模块；第k从处理单元的数据通路控制模块与第k-1从处理单元的FIFO、第k从处理单元中的选主元模块、第一局部存储器、第二局部存储器和第三局部存储器相连，它接收第k-1从处理单元的FIFO中的数据，将接收的第1列数据送往第k从处理单元的选主元模块和第一局部存储器，其它奇数列数据送往第k从处理单元的第三局部存储器，偶数列数据送往第k从处理单元的第二局部存储器；第k从处理单元的选主元模块与第k从处理单元的数据通路控制模块、第一局部存储器、浮点除法运算模块和数据选择模块相连，它对数据通路控制模块送来的数据执行选主元操作，将主元记录在寄存器pivot中并将pivot的值发送给浮点除法运算模块，同时将主元所在位置记录在寄存器piv中并将piv的值发送给数据选择模块；第k从处理单元的浮点除法运算模块与第一局部存储器、选主元模块相连，将选主元模块送来的主元除以第一局部存储器中主元以外的所有的数，结果放置在第一局部存储器的原来位置；第k从处理单元的数据选择模块与第k从处理单元的第二局部存储器、第三局部存储器、第四局部存储器、浮点乘加运算模块和选主元模块相连，它根据选主元模块送来的piv值交换第二或第三局部存储器中的piv值所指位置与第k位置的数据，当第二局部存储器处于“工作”状态时，选择第二局部存储器第k位置的数据送往第四局部存储器，其它数据送往浮点乘加运算模块，当第三局部存储器处于“工作”状态时，选择第三局部存储器第k个位置的数据送往第四局部存储器，其它数据送往浮点乘加运算模块；第k从处理单元的浮点乘加运算模块与第k从处理单元的数据选择模块、第一局部存储器和FIFO相连，对数据选择模块送来的数据、第一局部存储器的数据进行运算，将结果送到FIFO中缓存；第k从处理单元的FIFO与第k从处理单元的浮点乘加运算模块和第k+1从处理单元的数据通路控制模块相连，缓存第k从处理单元的浮点乘加运算模块的运算结果，并将结果发送到第k+1从处理单元的数据通路控制模块；第k从处理单元的结果发送模块与第k从处理单元的第一局部存储器、第四局部存储器、第k-1从处理单元的结果发送模块和第k+1从处理单元的结果发送模块相连，一方面将第k-1从处理单元的结果发送模块发送来的数据传递给第k+1从处理单元的结果发送模块，一方面将第k从处理单元的第一局部存储器和第四局部存储器中的数据送到第k+1从处理单元的结果发送模块；第P从处理单元的参数接收模块与第P-1从处理单元的参数接收模块相连，它从第P-1从处理单元的参数接收模块接收参数M′；第P从处理单元的数据通路控制模块与第P-1从处理单元的FIFO、第P从处理单元中的选主元模块、第一局部存储器、第二局部存储器和第三局部存储器相连，它接收第P-1从处理单元的FIFO中的数据，将接收的第1列数据送往第P从处理单元的选主元模块和第一局部存储器，其它奇数列数据送往第P从处理单元的第三局部存储器，偶数列数据送往第P从处理单元的第二局部存储器；第P从处理单元的选主元模块与第P从处理单元的数据通路控制模块、第一局部存储器、浮点除法运算模块和数据选择模块相连，它对数据通路控制模块送来的数据执行选主元操作，将主元记录在寄存器pivot中并将pivot的值发送给浮点除法运算模块，同时将主元所在位置记录在寄存器piv中并将piv的值发送给数据选择模块；第P从处理单元的浮点除法运算模块与第一局部存储器、选主元模块相连，将选主元模块送来的主元除以第一局部存储器中主元以外的所有的数，结果放置在第一局部存储器的原来位置；第P从处理单元的数据选择模块与第P从处理单元的第二局部存储器、第三局部存储器、第四局部存储器、浮点乘加运算模块和选主元模块相连，它根据选主元模块送来的piv值交换第二或第三局部存储器中的piv值所指位置与第P位置的数据，当第二局部存储器处于“工作”状态时，选择第二局部存储器第P位置的数据送往第四局部存储器，其它数据送往浮点乘加运算模块，当第三局部存储器处于“工作”状态时，选择第三局部存储器第P个位置的数据送往第四局部存储器，其它数据送往浮点乘加运算模块；第P从处理单元的浮点乘加运算模块与第P从处理单元的数据选择模块、第一局部存储器和FIFO相连，对数据选择模块送来的数据、第一局部存储器的数据进行运算，将结果送到FIFO中缓存；第P从处理单元的FIFO与主处理单元的数据接收模块相连，用于缓存第P从处理单元的浮点乘加运算模块的运算结果，并将结果送往主处理单元的数据接收模块。第P从处理单元的结果发送模块与第P从处理单元的第一局部存储器、第四局部存储器、第P-1从处理单元的结果发送模块和主处理单元的数据接收模块相连，一方面将第P-1从处理单元的结果发送模块发送来的数据传递给主处理单元的数据接收模块，一方面将第P从处理单元的第一局部存储器和第四局部存储器中的数据送到主处理单元的数据接收模块。