CN112528224A

CN112528224A - 一种矩阵特征值分解分组循环迭代流水实现方法及系统

Info

Publication number: CN112528224A
Application number: CN202011587357.6A
Authority: CN
Inventors: 刘义冬; 张党胜; 俞春祥; 鲍路路; 周晓玲
Original assignee: Shanghai Institute of Microwave Technology CETC 50 Research Institute
Current assignee: Shanghai Institute of Microwave Technology CETC 50 Research Institute
Priority date: 2020-12-28
Filing date: 2020-12-28
Publication date: 2021-03-19
Anticipated expiration: 2040-12-28
Also published as: CN112528224B

Abstract

本发明提供了一种矩阵特征值分解分组循环迭代流水实现方法及系统，包括：基于乘幂法在预设循环迭代次数后得到当前矩阵特征值的主特征值和特征向量，形成一个总循环流水模块。本发明提出将此总迭代进行分组切分，每个分组只计算更小规模的迭代循环次数。这样每个分组之间进行级联流水，在不增加硬件资源的情况下增加吞吐量。和并行处理或其他流水实现方式相比，这种架构实现装置在实现了高计算吞吐率的同时，消耗更低资源。

Description

一种矩阵特征值分解分组循环迭代流水实现方法及系统

技术领域

本发明涉及矩阵特征向值分解(EVD:Eigen Value Decomposition)的一种硬件实现方式，具体地，涉及一种矩阵特征值分解分组循环迭代流水实现方法及系统，更为具体地，涉及基于乘幂法的矩阵特征值分解分组循环迭代流水实现方法及系统，一种基于乘幂法的分组循环迭代流水线在现场可编程逻辑阵列(FPGA:Field Programmable LogicArray)中的实现。

背景技术

矩阵特征值分解被应用于科研和工程的很多领域，如移动通信、主成分分析算法、人工视觉等。因此，对矩阵特征值分解的硬件实现进行研究，寻找一种较好的硬件实现架构具有十分重要的意义。

在现有的矩阵特征值分解算法中，乘幂法是用于求大型稀疏矩阵的主特征值的迭代方法，其公式简单，能很方便利用软件实现。反幂法主要应用于知道矩阵的近似特征值后，求取矩阵的特征向量，它的特点是收敛快并且精度高，求取特征向量非常有效。乘幂法每次只能求出矩阵的一个主特值及特征向量，而作为乘幂法的推广：子空间迭代法一次可求出矩阵的前几个按模最大特值及特征向量，非常适合于求解大型稀疏矩阵的特征值问题。对于对称矩阵的特征值分解，主要采用正交变换法，依据采用的分解办法的不同，分为雅克比(Jacobi)算法和正交三角(QR)分解法。其中Jacobi算法的精度是所有算法中最高的。乘幂法相对QR分解法而言，存在小特征值精度损失较大的问题，QR分解法为了减少乘幂法优先计算大特征值所带来的小特征值精度问题，一次计算出所有的特征值，但是迭代过程中存在QR分解矩阵计算步骤，计算较乘幂法复杂，硬件资源消耗和计算时间成本较高。乘幂法适合于求解稀疏矩阵的主特征值，反幂法适合于知道矩阵特征值求解相应特征向量的情况，而作为乘幂法推广的子空间迭代法适合于求解大型稀疏矩阵的特征值。

目前，关于矩阵特征值分解硬件实现的研究集中在对Jacobi算法的并行处理研究上。Jacobi计算使用脉动阵，阵列的每个处理单元通常由若干个CORDIC核组成，一个核用于计算角度，两个核用于处理左右角度的旋转，由脉动阵进行角度的传输，对于一个n×n规模的矩阵，一次循环通常需要迭代n个周期，直到对角线以外的元素符合收敛标准。因此，JACOBI算法虽然精度较高，但是处理周期和资源消耗也比较大。对于乘幂法的实现，根据算法步骤，通常实现的架构可以是单处理单元(PE:Process Element)，通过并行增加吞吐量，也可以是流水线式处理单元，每个流水单元计算出一个特征值和特征向量。考虑一个PE输出K×K矩阵的K个特征值及其特征向量，处理周期是非常大的，在考虑固定N次迭代循环后输出一个特征向量，需要M×K个迭代循环时间加上循环外的其他计算开销，计算全部的特征向量耗时长，在大吞吐计算量的情况下，需要多个单元并行处理，整体资源消耗比流水方式的实现要高。流水方式实现是利用了乘幂法各个特征向量计算之间的依赖关系，每一级流水计算出一个特征向量，并向下一级传递矩阵更新结果。然而在实时性和吞吐量要求高的场合下，这样的流水线实现方式也不能保证满足要求。因此，需要更优的架构设计来满足在一定资源约束条件下的计算能力要求。

本发明的目的在于提出一种吞吐量和速率可调整的通用性架构，具有分组循环迭代流水的模式，消耗较少的硬件实现资源。由于特征值和特征向量的应用场合非常多，有很多场景下EVD分解只是整体算法的组成部分，在整体算法通常要求流水实现的情况下，特征值与特征向量分解的速度需要与整体算法进行速率匹配，这样本发明提供的实现架构可通过调整速率适用于大部分的求解应用场合，并且作为一个重要的组成部分，消耗的硬件资源也较低，使得特征值分解不成为整体算法实现的瓶颈。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种矩阵特征值分解分组循环迭代流水实现方法及系统。

根据本发明提供的一种矩阵特征值分解分组循环迭代流水实现方法，包括：基于乘幂法在预设循环迭代次数后得到当前矩阵特征值的主特征值和特征向量，形成一个总循环流水模块。

优选地，还包括：对预设循环迭代次数进行预设规模的分组，并将分组进行级联，分组延迟作为流水处理间隔，每个间隔接收新的输入矩阵特征值并对新输入的矩阵特征值进行处理，当输入k个矩阵特征值时，则包括k个总循环流水模块，从而实现低总循环迭代延迟以及高吞吐量。

优选地，所述k个总循环流水模块级联组成全流水架构，全流水架构各个总循环流水模块级联连接处流水输出k个特征值和特征向量。

优选地，所述对循环迭代进行预设规模的分组包括对循环迭代进行不同规模的分组，从而满足不同速率需求。

根据本发明提供的一种矩阵特征值分解分组循环迭代流水实现系统，包括：基于乘幂法在预设循环迭代次数后得到当前矩阵特征值的主特征值和特征向量，形成一个总循环流水模块。

与现有技术相比，本发明具有如下的有益效果：

1、本发明可以进一步提高吞吐量并进行灵活适配计算能力，同时由于只是利用原有资源拆散做循环迭代，并不增加额外硬件资源，整体资源消耗相比于并行架构更加优化；

2、本发明可以根据系统整体处理速率进行灵活匹配设计，适用场景更广泛。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为乘幂法计算流程及消耗时间示意图；

图2为并行计算架构示意图；

图3为流水计算架构示意图；

图4为分组循环迭代单元处理流程图；

图5为分组循环迭代流水处理架构组成框图；

图6为矩阵EVD顶层模块框图；

图7为单元处理PE模块框图；

图8为特征向量模块框图；

图9为矩阵分解模块输入输出时序图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

实施例1

本发明的目的在于提供一种矩阵特征值分解的实现方法。

本发明的矩阵特征值分解是基于乘幂法实现的。

乘幂法的主要部分是K×K矩阵与K×1向量循环复乘并不断迭代的计算过程。作为一个基本的计算矩阵特征值和特征向量的方法，假设待分解矩阵为R，选择初始向量为x₀，其中||x₀||₂＝1，循环迭代n次，迭代计算主要过程可简单描述如下：

For i＝0,1,2,…do

x_i+1＝R·x_i

End

其中，R为K×K的矩阵；x为大小K×1的向量

这里的基础运算就是矩阵乘法R·x_i，其包括复数乘法，他们的运算周期、实现需要消耗的资源等与输入数据的位宽、实现的架构和方式等紧密相关。输入R为K×K的矩阵，x为大小K×1的向量，为了更新x_i，还需要进行额外的动态定标过程，其周期表示为T_agc。因此，循环迭代n次需要时间约为

T_cyc＝(T_mtx+T_agc)·n(时钟周期) (1)

其中，T_agc为归一化或者动态定标所需要的周期，T_mtx为矩阵乘法运算时间；

既计算一个特征向量需要的时间约为

T_un＝(T_cyc+T_R)·T_clk(秒) (2)

为更新R矩阵所需要的周期；

为了完成k个特征向量分解，总计耗时需要大约

Tevd＝Tun·k(秒)(3)

特征向量分解计算流程及消耗时间如图1所示。

首次迭代k＝1，在迭代计算n次以后，输出当前的主特征向量uk，并由此更新矩阵Rk，如果k<K，k＝k+1；K表示矩阵的第K个特征值及其对应的特征向量；继续执行如上迭代计算过程，计算当次的主向量uk，直至计算出所有特征向量。为了实现方便，可以确定一个固定的最大迭代次数N，其与收敛标准等相关。

为了提高计算吞吐量，可以使用如图2所示的m个单元并行处理m个输入矩阵R0_0,1,…,m-1，由于是处理单元复制m份，硬件资源消耗也将简单地增加为单个单元的m倍，吞吐量提高为单个单元的m倍。另一种使用多个单元处理的方式是通过级联这K个单元组成图3的架构，流水处理m个输入矩阵R0_0,1,…,m-1，级联流水处理可以在计算每个特征向量后接受新的矩阵输入，因此提高吞吐量K倍，相比于并行处理方式，流水方式减少了部分迭代判断等开销，资源开销略有减少。但是这种流水方式只能固定地提高计算能力K倍，不能适用更大吞吐量或者需要灵活适配计算流量的场景。为了适应更大吞吐量需求或者灵活适配系统整体计算能力，本发明提出了一种新型的分组循环迭代的实现方式，整体架构可以参见图5，其在每个分组循环处理完后就可以接收新的输入矩阵。这种方式可以进一步提高吞吐量并进行灵活适配计算能力，同时由于只是利用原有资源拆散做循环迭代，并不增加额外硬件资源，整体资源消耗相比于并行架构更加优化。其单个单元架构如图4所示，这里将N次的循环迭代进一步拆分成m个分组分别进行循环迭代处理，这样吞吐量在资源消耗与流水线相差不多的情况下，相比流水线架构可以进一步提高吞吐量m倍。同时硬件资源消耗在不考虑实际额外消耗的情况下理论上可以为相同吞吐量的并行化架构的1/m。此外，m可以根据系统整体处理速率进行灵活匹配设计，适用场景更广泛。

在5G移动通信中，用户终端可以采用2.5ms周期发送上行soundingd(探侦)信号，基站侧需要基于接收到的探侦信号进行信道检测。假设用户采用端口轮发，则基站可以基于轮发的多端口进行实时的信道空间分解，以便实现后续的波束赋形等功能。因此，需要实现在2.5ms内多用户的多端口信道矩阵分解。设矩阵规模为K＝4例，输入EVD模块中的是每个用户的信道端口相关矩阵，进行分解后得到相关矩阵的4个特征向量。这里假设在合理的数据位宽及实现时序要求下，假设Tmtx＝48(时钟周期)，另设Tagc＝2，迭代次数设定为n＝32次，由(1)式得到Tcyc＝1600(时钟周期)，时钟周期Tclk＝2.7ns，这里简单化假设更新R矩阵需要周期TR＝100，根据(2)式可计算出单个特征向量运算需Tun＝4.6微秒。最后由(3)式，可得计算一个频点上的4个特征向量需要的时间约为Tevd＝18微秒。在小区满带宽条件下，假设需要计算128个频点时，计算16个用户的相关矩阵在无流水时耗时约35.4毫秒，在流水处理时需要耗时约为8.8毫秒。因此，此常规设计流程无法满足需求。在使用新的架构并设计m>＝4增加吞吐量四倍以上后，Tmtx＝12，Tcyc＝(Tmtx+Tagc)·n/m＝400，单个特征向量耗时约1.1微秒，16个终端用户的相关矩阵处理时间约为2.2毫秒，满足需要，同时由于硬件上分时复用的特性，实现资源相比并行等架构而言可大幅度减少。

实施例2

实施例2是实施例1的变化例

分组循环求解一个矩阵R的K个特征向量的具体实现实施步骤如下：

步骤1：初始化：矩阵特征向量索引k＝1；

步骤2：向量x(0)进行初始化；总迭代次数iter＝N；分组数设为m；分组级联计数i_m＝0；

步骤3：分组迭代计数i＝0；

步骤4：计算x_i+1＝R·x_i；

步骤5：i＝i+1，如果i>＝N/m，则进入步骤6)；否则返回步骤4)；

步骤6：i_m＝i_m+1，如果i_m<m，则返回步骤3)；否则进入步骤7)；

步骤7：计算特征向量u_k＝x_i/||x_i||，其中||x_i||为向量x_i的范数。

步骤8：如果k＝K-1，则计算完毕；否则，计算特征值λ_k并以此更新R＝R-λ_k·u_k·u_k ^H；

步骤9：k＝k+1，如果k<K，跳转至步骤2)，否则计算完成；

根据如上计算步骤，可以按照如图6所示的模块划分在现场可编程逻辑阵列(FPGA)平台或者其他方式进行硬件实现。对K×K矩阵R进行EVD分解，按照从上而下的构成方式，EVD模块顶层由K-1个处理单元(PE)级联，并在最后一级串联一个特征向量(eigen_vector)模块，参考图6可见，EVD输入为矩阵R，输出为矩阵的K个特征向量。由图7所示每个PE由一个eigen_vector模块和一个矩阵计算更新(R_cal)模块级联组成，处理并输出当前的主特征向量和根据该特征向量更新的矩阵，每个PE输入为当前的矩阵值，输出为当前的主特征向量。根据图8所示，每个eigen_vector模块由m个分组循环迭代模块级联而成，每个分组计算iter/n次循环后的x_i向量，并输出给下一级，这样总共m个分组模块级联能够完成算法步骤5)中需求的iter次循环计算并输出x_n至特征向量计算(Un_cal)模块，完成计算特征向量所需的其余计算步骤。

EVD模块输入输出时序如图9所示，其中Titer_t表示用于计算一个特征向量所需要的总循环迭代处理时间，Titer_g表示每个分组循环迭代所需的处理时间，Titer_g＝Titer_t/m，m表示总循环迭代被拆分成m个分组循环。由改图可见，在完成第一个矩阵R0_0的第一个特征向量U0_0的输出前，由于拆分分组循环并且模块之间进行级联，在输入端，当每个分组循环结束时，都会将分组计算的结果传输至级联的下一个分组，同时接收新的输入矩阵即下一个矩阵R0_1，并以此类推。因此在计算出U0_0前，流水线同时在处理m个矩阵的循环迭代计算，这样吞吐量相对于没有拆分的流水线而言就增加了m倍。

以xilinxultrascale+FPGA的实现为例，对一个4×4的矩阵进行EVD分解按照图的流水结构实现的资源消耗如表所示约1.5万LUT。在时钟频率f下，吞吐量th_pip可表示为

th_pip＝f/iter×4(流水线同时输出特征向量数)×4(每个向量包含4个样点)×32(每个样点包含实虚部，假设定标为16比特)

bps＝C×f/iter bps (4)

其中系数C与具体待分解矩阵规模、定标等有关系。

当eigen_vector模块采用如图8所示的架构进行分组循环时，EVD资源消耗增加2倍多至3.8万LUT，同时吞吐量thfold_pip可表示为：

th_{fold_pip}＝f/iter×m(分组数)×4(流水线同时输出特征向量数)×4(每个向量包含4个样点)×32(每个样点包含实虚部，假设定标为16比特)bps

＝m×C×f/iterbps (5)

比较式(4)和(5)，可见吞吐量相对于流水线架构而言，增加了m倍，因为其每个分组循环迭代结束后都会接收新的矩阵输入，因此分组越多，每个分组的循环次数越少，分组的执行时间会缩短，从而使得流水线速度加快。分组循环迭代的资源消耗如表所示。要达到相同的吞吐量，也可以采用m个流水线并行的方式进行。从4×4的矩阵分解实现为例，单流水架构资源消耗如表1所示为1.5万LUT，分组循环流水的资源消耗如表2所示为3.8万LUT，而采用4个流水线并行达到相同吞吐量时，资源消耗约为6万LUT。因此，分组循环迭代流水线的架构在增加了额外的级联开销后仍旧可以节省较大硬件资源消耗，在本实现范例中节约开销36％以上。

表1.流水架构实现资源利用表

表2.分组循环迭代流水架构实现资源利用表

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以，本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件，而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构；也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种矩阵特征值分解分组循环迭代流水实现方法，其特征在于，包括：基于乘幂法在预设循环迭代次数后得到当前矩阵特征值的主特征值和特征向量，形成一个总循环流水模块。

2.根据权利要求1所述的矩阵特征值分解分组循环迭代流水实现方法，其特征在于，还包括：对预设循环迭代次数进行预设规模的分组，并将分组进行级联，分组延迟作为流水处理间隔，每个间隔接收新的输入矩阵特征值并对新输入的矩阵特征值进行处理，当输入k个矩阵特征值时，则包括k个总循环流水模块，从而实现低总循环迭代延迟以及高吞吐量。

3.根据权利要求2所述的矩阵特征值分解分组循环迭代流水实现方法，其特征在于，所述k个总循环流水模块级联组成全流水架构，全流水架构各个总循环流水模块级联连接处流水输出k个特征值和特征向量。

4.根据权利要求2所述的矩阵特征值分解分组循环迭代流水实现方法，其特征在于，所述对循环迭代进行预设规模的分组包括对循环迭代进行不同规模的分组，从而满足不同速率需求。

5.一种矩阵特征值分解分组循环迭代流水实现系统，其特征在于，包括：基于乘幂法在预设循环迭代次数后得到当前矩阵特征值的主特征值和特征向量，形成一个总循环流水模块。

6.根据权利要求5所述的矩阵特征值分解分组循环迭代流水实现系统，其特征在于，还包括：对预设循环迭代次数进行预设规模的分组，并将分组进行级联，分组延迟作为流水处理间隔，每个间隔接收新的输入矩阵特征值并对新输入的矩阵特征值进行处理，当输入k个矩阵特征值时，则包括k个总循环流水模块，从而实现低总循环迭代延迟以及高吞吐量。

7.根据权利要求6所述的矩阵特征值分解分组循环迭代流水实现系统，其特征在于，所述k个总循环流水模块级联组成全流水架构，全流水架构各个总循环流水模块级联连接处流水输出k个特征值和特征向量。

8.根据权利要求6所述的矩阵特征值分解分组循环迭代流水实现系统，其特征在于，所述对循环迭代进行预设规模的分组包括对循环迭代进行不同规模的分组，从而满足不同速率需求。