CN104360986B

CN104360986B - 一种并行化矩阵求逆硬件装置的实现方法

Info

Publication number: CN104360986B
Application number: CN201410621516.8A
Authority: CN
Inventors: 何世文; 余登高; 黄永明; 王海明; 杨绿溪; 张军
Original assignee: In Jiangsu Emerging Micro-Communication Ceases Science And Technology Ltd
Current assignee: Nanjing etaco Communication Technology Co.,Ltd.
Priority date: 2014-11-06
Filing date: 2014-11-06
Publication date: 2017-07-25
Anticipated expiration: 2034-11-06
Also published as: CN104360986A

Abstract

本发明公开了一种并行化矩阵求逆硬件装置的实现方法，根据输入待求逆矩阵的维数确定脉动阵列的总体架构，对不同类型的处理单元进行了算法描述与功能分析，并设计了各处理单元的内部结构，实现了对数据的并行化处理。本发明提出的并行化矩阵求逆硬件装置的实现方法，设计了基于改进Givens旋转的矩阵求逆脉动阵列，避免平方根运算的同时去掉大量除法运算，降低了算法复杂度，能有效节省硬件资源，同时整个矩阵求逆过程采用并行化处理，能有效提高矩阵求逆的硬件实现速度。本发明可以应用于无线通信、信号处理以及数值计算等领域矩阵求逆问题的硬件实现。

Description

一种并行化矩阵求逆硬件装置的实现方法

技术领域

本发明属于信号处理领域，特别涉及一种并行化矩阵求逆硬件装置的实现方法。

背景技术

随着无线通信技术的不断发展，用户对通信系统的可靠性和有效性要求越来越高。为了提高系统的传输速率、增加系统的频谱效率，多输入多输出(Multiple InputMultiple Output，MIMO)技术作为一种关键技术得到了广泛研究。IEEE802.11n、IEEE802.11ac、IEEE 802.11ad以及3GPP-LTE等无线通信标准，都采用了MIMO技术。

MIMO通信系统，在接收端的设计相当复杂。接收端信道估计会涉及到大量的矩阵求逆运算，尤其随着发射天线以及接收天线数目的增加，矩阵的维数也随着增加，矩阵求逆的运算复杂度也会大量增加，导致矩阵求逆的算法设计以及硬件实现难度大大提高，这也成为当前MIMO系统亟待解决的一个技术难题。

发明内容

发明目的：针对现有技术的不足，本发明公开了一种并行化矩阵求逆硬件实现装置，主要包括对矩阵求逆脉动阵列的设计，实现数据的并行化处理，提高矩阵求逆的硬件实现效率。

技术方案：一种并行化矩阵求逆硬件装置的实现方法，包括以下步骤：

步骤1：根据输入矩阵A的维数确定脉动阵列的维数以及总体架构，所述脉动阵列包括MSGR(Modified Square Givens Rotation)阵列模块和IAM(Invert and Multiply)阵列模块，其中MSGR阵列模块主要完成矩阵A的SGR(Square Givens Rotation)分解获得上三角矩阵U，随后输入与矩阵A同阶的单位矩阵E，用存储的系数对单位矩阵E进行相同的变换后获得矩阵B；IAM阵列模块利用迭代算法求上三角矩阵U的逆矩阵U^-1，并且将U^-1与矩阵B相乘，从而完成整个矩阵求逆过程；

步骤2：

若矩阵A是N×N维的，则MSGR阵列模块是一个N行N+1列的倒梯形模块，包括N个MSGR阵列第一类边界处理单元、N(N+1)/2个MSGR阵列内部处理单元和N个MSGR阵列第二类方形处理单元，MSGR阵列第一类边界处理单元将输入参数对<X_IN,Y_IN>映射到输出参数对<M_OUT,N_OUT>；MSGR阵列内部处理单元将<X'_IN,Y'_IN>和<M'_IN,N'_IN>更新到<X'_OUT,Y'_OUT>、<M'_OUT,N'_OUT>；MSGR阵列第二类边界处理单元根据输入参数对<M”_IN,N”_IN>确定U_OUT，同时进行溢出处理；其中位于MSGR阵列模块上部边缘的1个第一类边界处理单元和N-1个内部处理单元需要外部输入数据，第一类边界处理单元的输出是相邻下一列内部处理单元的输入，内部处理单元的一个输出是相邻下一行的第一类边界处理单元或者内部处理单元的输入，内部处理单元的另一个输出是相邻下一列内部处理单元或者第二类方形处理单元的输入，位于MSGR阵列模块右侧边缘的N个第二类方形处理单元的输出为MSGR阵列模块的输出；

步骤3：设计IAM阵列模块，IAM阵列模块包含N个第二类圆形处理单元，N(N-1)/2个第三类方形处理单元，IAM阵列模块的输入即为MSGR阵列模块的输出，IAM阵列边界处根据输入参数X”'_IN确定输出参数Y”'_OUT；IAM阵列内部处理单元根据输入参数<X””_IN,Y””_IN>确定<X””_OUT,Y””_OUT>，其中位于IAM阵列模块左侧边缘的1个第二类圆形处理单元和N-1个第三类方形处理单元接收MSGR阵列模块的输出，位于IAM阵列模块下侧边缘的1个第二类圆形处理单元和N-1个第三类方形处理单元的输出即为IAM阵列模块的输出，IAM阵列模块第二类圆形处理单元的输出是相邻下一行第三类方形处理单元的输入，IAM阵列模块第三类方形处理单元的一个输出为相邻下一行的第三类方形处理单元的输入，IAM阵列模块第三类方形处理单元的另一个输出为相邻下一列第三类方形处理单元的或者第二类圆形处理单元的输入。

有益效果：与现有技术相比，本发明具有如下优点：本发明公开了一种并行化矩阵求逆硬件装置的实现方法，设计了基于改进Givens旋转的矩阵求逆脉动阵列，整个矩阵求逆过程采用并行化处理，能有效提高矩阵求逆的硬件实现速度。本发明可以应用于无线通信、信号处理以及数值计算等领域矩阵求逆问题的硬件实现。

附图说明

图1为本发明的脉动阵列总体架构；

图2为本发明的输入参数示意图；

图3为本发明的MSGR阵列第一类边界处理单元示意图；

图4为本发明的MSGR阵列第一类边界处理单元内部结构简化图；

图5为本发明的MSGR阵列内部处理单元示意图；

图6为本发明的MSGR阵列第二类边界处理单元示意图；

图7为本发明的IAM阵列边界处理单元示意图；

图8为本发明的IAM阵列边界处理单元内部结构简化图；

图9为本发明的IAM阵列内部处理单元示意图；

图10为本发明的IAM阵列内部处理单元内部结构简化图。

具体实施方式

下面结合附图和具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等同变换均落于本申请所附权利要求所限定的范围。

本发明公开了一种并行化矩阵求逆硬件装置的实现方法，应用于MIMO通信系统接收端的信道估计和接收端的信号均衡处理，对于一个发送天线数为M，接收天线数为N的MIMO通信系统，其接收机信号可以表示为r＝Hs+n，其中，r表示接收信号，是维数为M的列向量；s表示发送信号，是维数为N的列向量；H表示信道矩阵，是维数为M×N的矩阵；n表示加性高斯白噪声，是维数为M的列向量。接收端的均衡器从接收到的信号r估计出发送信号s，常见的均衡算法包括迫零算法和最小均方误差算法。基于迫零算法的均衡表达式为其中表示基于迫零算法的均衡器对发送信号的估计量；基于最小均方误差算法的均衡表达式为其中表示基于最小均方误差算法的均衡器对发送信号的估计量，上标H表示矩阵的共轭转置，I_M表示M维单位矩阵，表示噪声的平均功率。将待求逆矩阵(H^HH)或矩阵记为A，且表示如下：

本发明提供了一种并行化矩阵求逆硬件装置的实现方法，主要包括以下步骤：

步骤1：根据输入矩阵A的维数确定脉动阵列的维数以及总体架构。该脉动阵列主要包括两个大模块，MSGR阵列模块和IAM阵列模块，其中MSGR阵列模块主要完成矩阵A的SGR分解获得上三角矩阵U，随后输入与矩阵A同阶的单位矩阵E，用存储的系数对单位矩阵E进行相同的变换后获得IAM阵列模块主要是利用迭代算法求上三角矩阵U的逆矩阵U^-1，并且将U^-1与相乘，从而完成整个矩阵求逆过程。输入数据即作为MSGR阵列模块的输入，MSGR阵列模块的输出作为IAM阵列模块的输入，IAM阵列模块的输出即为矩阵求逆的结果。待求逆矩阵A的维数决定了MSGR阵列模块以及IAM阵列模块的结构，如果矩阵A是N×N维的，则MSGR阵列模块是一个N行N+1列的倒梯形模块，IAM阵列模块是一个N行N列的下三角模块，总体架构如图1所示。

步骤2：设计MSGR阵列模块：输入矩阵A的维数决定了MSGR阵列模块是一个N行N+1列的倒梯形模块。MSGR阵列模块包含N个MSGR阵列第一类边界处理单元，N(N+1)/2个MSGR阵列内部处理单元以及N个MSGR阵列第二类方形处理单元。

步骤2.1：设计MSGR阵列模块的输入：

每个时序MSGR阵列模块有N个输入接口，每个输入接口输入两个参数，即位于MSGR阵列模块上部边缘的1个MSGR阵列第一类边界处理单元和N-1个MSGR阵列内部处理单元需要外部输入数据。MSGR阵列第一类边界处理单元和MSGR阵列内部处理单元的输入输出参数分别如图3和图5所示。每个时序参数Y_IN的输入值均为1，关于参数X_IN的输入如图2所示，第1个时序输入a₁₁,z…,z；第2个时序输入a₁₂,a₂₁,z,…,z；……；第N个时序输入a_1N,a_2,N-1,…,a_N1，此时矩阵A的第一列元素全部输入完毕；紧接着输入单位矩阵E，即第N+1个时序输入1,a_2,N,a_3,N-1,…,a_N2；第N+2个时序输入0,0,…,a_N-1,4,a_N3；……；第2N个时序输入0,0,0,…,a_NN，此时单位矩阵E的第一列元素全部输入完毕；第2N+1个时序输入x,0,0,…,0；第2N+2个时序输入x,x,0,…,0；直到单位矩阵E输入完毕，即输入x,x,…x,1；其中z表示延迟一个时序，如果没有新的待求逆矩阵输入时，x处的元素输入空，如果需要接着进行新的矩阵求逆运算，则在x处输入新的待求逆矩阵元素。

步骤2.2：设计MSGR阵列第一类边界处理单元：

步骤2.2.1：MSGR阵列第一类边界处理单元的算法及功能描述：MSGR阵列第一类边界处理单元主要是将输入参数对<X_IN,Y_IN>映射到输出参数对<M_OUT,N_OUT>。如果参数X_IN的输入值是矩阵A的对角元素，则

同时定义寄存器R₁和寄存器R₂，如果Y_IN等于0，则寄存器R₁赋值为R₁＝1，寄存器R₂赋值为R₂＝1；否则，寄存器R₁和寄存器R₂分别赋值为

如果参数X_IN的输入值不是矩阵A的对角元素，则

且寄存器R₁和寄存器R₂的值保持不变。

约定语句If(A)表示如果条件A成立，则执行B操作，否则执行C操作。则MSGR阵列第一类边界处理单元的算法可以描述为：

If(X_IN是对角元素)Then

Else

步骤2.2.2：设计MSGR阵列第一类边界处理单元的内部结构：由步骤2.2.1可知，MSGR阵列第一类边界处理单元包括两个选择器，2个乘法器和6个寄存器，其内部结构如图4所示。

步骤2.3：设计MSGR阵列内部处理单元：

步骤2.3.1：MSGR阵列内部处理单元的算法及功能描述：MSGR阵列内部处理单元主要是将输入参数对<X'_IN,Y'_IN>和<M'_IN,N'_IN>更新到<X'_OUT,Y'_OUT>、<M'_OUT,N'_OUT>。如果输入参数M_IN对应矩阵A中的对角元素，则

同时定义寄存器α₁，寄存器α₂，寄存器β₁，寄存器β₂，寄存器γ₁，寄存器γ₂，以及寄存器δ₁。如果输入参数M'_IN等于0，寄存器α₁，寄存器α₂，寄存器γ₁，寄存器γ₂，以及寄存器δ₁分别赋值为α₁＝1，α₂＝1，γ₁＝0，γ₂＝0，δ₁＝1，寄存器β₁和寄存器β₂的赋值取决于输入参数Y'_IN，如果Y'_IN等于0，则β₁＝1，β₂＝1，否则如果输入参数M'_IN不等于0，则寄存器α₁，寄存器α₂，寄存器β₁，寄存器β₂，寄存器γ₁，寄存器γ₂，以及寄存器δ₁分别赋值为α₁＝Y'_IN，α₂＝0，β₂＝0，γ₁＝X'_IN，γ₂＝M'_IN，δ₁＝N'_IN。

如果输入参数M'_IN不是对应矩阵A中的对角元素，则

且寄存器α₁，寄存器α₂，寄存器β₁，寄存器β₂，寄存器γ₁，寄存器γ₂，以及寄存器δ₁的值保持不变。

由步骤2.2.1中的语句约定，MSGR阵列内部处理单元的算法可以描述为：

If(M_IN是对角元素)Then

Else

步骤2.3.2：由步骤2.3.1可知，MSGR阵列内部处理单元包括3个选择器，11个乘法器，4个加法器，11个寄存器。

步骤2.4：设计MSGR阵列第二类边界处理单元：

步骤2.4.1：MSGR阵列第二类边界处理单元的算法及功能描述：

MSGR阵列第二类边界处理单元主要是将输入参数对<M”_IN,N”_IN>映射到U_OUT，同时进行溢出处理。令令M”_IN_real和N”_IN_real分别表示输入参数M”_IN和N”_IN的实部，M”_IN_imag和N”_IN_imag分别表示输入参数M”_IN和N”_IN的虚部，令S＝N”_IN_real²+N”_IN_imag²，。如果S大于4，则

如果S小于0.25，则

通过(公式8)和(公式9)，M”_IN_real，N”_IN_real，M”_IN_imag和N”_IN_imag的指数值都得到了更新，将更新后的M”_IN和N”_IN相除得到输出U_OUT。

由步骤2.2.1中的语句约定，MSGR阵列第二类边界处理单元的算法可以描述为：

S＝N_IN_real²+N_IN_imag²

If(S＞4)Then

If(S＜0.25)Then

步骤2.4.2：由步骤2.4.1可知，MSGR阵列第二类边界处理单元包括两个乘法器，1个选择器，1个移位寄存器，8个加法器，6个寄存器。

步骤3：设计IAM阵列模块；IAM阵列模块主要是根据迭代算法求上三角矩阵U的逆矩阵U^-1，并且将U^-1与相乘，由输入矩阵A的维数确定IAM阵列模块是一个N行N列的下三角模块，IAM阵列模块包含N个第二类圆形处理单元，N(N-1)/2个第三类方形处理单元。IAM阵列模块的输入即为MSGR阵列模块的输出。

步骤3.1：设计IAM阵列边界处理单元：

步骤3.1.1：IAM阵列边界处理单元的算法及功能描述：

如果输入参数X”'_IN对应矩阵A中的对角元素，则

Y”'_OUT＝0 (公式11)

同时定义寄存器R，寄存器R赋值为1/X”'_IN。

如果输入参数X”'_IN不是对应矩阵A中的对角元素，则

Y”'_OUT＝-R×X”'_IN (公式12)

且寄存器R的值保持不变。

由步骤2.2.1中的语句约定，IAM阵列边界处理单元的算法可以描述为：

步骤3.1.2：由步骤3.1.1，IAM阵列边界处理单元包含1个选择器，3个寄存器，1个除法器，1个乘法器，其内部结构如图8所示。

步骤3.2：设计IAM阵列内部处理单元：

步骤3.2.1：IAM阵列内部处理单元的算法及功能描述：

如果输入参数X””_IN对应矩阵A中的对角元素，则

同时定义寄存器R，寄存器R赋值为Y””_IN/X””_IN。

如果输入参数X””_IN不是对应矩阵A中的对角元素，则

且寄存器R的值保持不变。

由步骤2.2.1中的语句约定，IAM阵列内部处理单元的算法可以描述为：

步骤3.2.3：由步骤3.2.1，IAM阵列内部处理单元包括1个选择器，5个寄存器，1个除法器，1个乘法器和1个加法器，其内部结构如图10所示。

Claims

1.一种并行化矩阵求逆硬件装置的实现方法，其特征在于，包括以下步骤：

步骤1：根据输入矩阵A的维数确定脉动阵列的维数以及总体架构，所述脉动阵列包括MSGR阵列模块和IAM阵列模块，其中MSGR阵列模块主要完成矩阵A的SGR分解获得上三角矩阵U，随后输入与矩阵A同阶的单位矩阵E，用存储的系数对单位矩阵E进行相同的变换后获得矩阵B；IAM阵列模块利用迭代算法求上三角矩阵U的逆矩阵U^-1，并且将U^-1与矩阵B相乘，从而完成整个矩阵求逆过程；

步骤2：设计MSGR阵列模块，若矩阵A是N×N维的，则MSGR阵列模块是一个N行N+1列的倒梯形模块，包括N个MSGR阵列第一类边界处理单元、N(N+1)/2个MSGR阵列内部处理单元和N个MSGR阵列第二类方形处理单元，MSGR阵列第一类边界处理单元将输入参数对<X_IN,Y_IN>映射到输出参数对<M_OUT,N_OUT>；MSGR阵列内部处理单元将<X′_IN,Y′_IN>和<M′_IN,N′_IN>更新到<X′_OUT,Y′_OUT>、<M′_OUT,N′_OUT>；MSGR阵列第二类边界处理单元根据输入参数对<M″_IN,N″_IN>确定U_OUT，同时进行溢出处理；其中位于MSGR阵列模块上部边缘的1个第一类边界处理单元和N-1个内部处理单元需要外部输入数据，第一类边界处理单元的输出是相邻下一列内部处理单元的输入，内部处理单元的一个输出是相邻下一行的第一类边界处理单元或者内部处理单元的输入，内部处理单元的另一个输出是相邻下一列内部处理单元或者第二类方形处理单元的输入，位于MSGR阵列模块右侧边缘的N个第二类方形处理单元的输出为MSGR阵列模块的输出；

步骤3：设计IAM阵列模块，IAM阵列模块包含N个第二类圆形处理单元，N(N-1)/2个第三类方形处理单元，IAM阵列模块的输入即为MSGR阵列模块的输出，IAM阵列边界处根据输入参数X″′_IN确定输出参数Y″′_OUT；IAM阵列内部处理单元根据输入参数〈X″″_IN,Y″″_IN>确定<X″″_OUT,Y″″_OUT>，其中位于IAM阵列模块左侧边缘的1个第二类圆形处理单元和N-1个第三类方形处理单元接收MSGR阵列模块的输出，位于IAM阵列模块下侧边缘的1个第二类圆形处理单元和N-1个第三类方形处理单元的输出即为IAM阵列模块的输出，IAM阵列模块第二类圆形处理单元的输出是相邻下一行第三类方形处理单元的输入，IAM阵列模块第三类方形处理单元的一个输出为相邻下一行的第三类方形处理单元的输入，IAM阵列模块第三类方形处理单元的另一个输出为相邻下一列第三类方形处理单元的或者第二类圆形处理单元的输入。

2.如权利要求1所述的并行化矩阵求逆硬件装置的实现方法，其特征在于，所述MSGR阵列模块设计的具体实现方法是：

步骤1：设计MSGR阵列模块的输入；

步骤2：设计MSGR阵列第一类边界处理单元；

步骤3：设计MSGR阵列内部处理单元；

步骤4：设计MSGR阵列第二类边界处理单元。

3.如权利要求2所述的并行化矩阵求逆硬件装置的实现方法，其特征在于，每个时序MSGR阵列模块有N个输入接口，每个输入接口输入两个参数<X_IN,Y_IN>，其具体实现方法是：

每个时序参数Y_IN的输入值均为1，关于参数X_IN的输入，第1个时序输入a₁₁；第2个时序输入a₁₂,a₂₁；……；第N个时序输入a_1N,a_2,N-1,…,a_N1；此时矩阵A的第一列元素全部输入完毕，紧接着输入单位矩阵E，即第N+1个时序输入1,a_2,N,a_3,N-1,…,a_N2；第N+2个时序输入0,0,…,a_N3；……；直到单位矩阵E输入完毕。

4.如权利要求1所述的并行化矩阵求逆硬件装置的实现方法，其特征在于，所述MSGR阵列第一类边界处理单元将输入参数对〈X_IN,Y_IN>映射到输出参数对<M_OUT,N_OUT>，同时定义寄存器R₁和R₂，其具体实现方法是：

判断参数X_IN的输入值是矩阵A的对角元素，如果是，则

再根据Y_IN定义寄存器R1、R2，如果Y_IN等于0，则R₁＝1、R₂＝1；如果Y_IN不等于0，则分别表示X_IN和Y_IN的共轭；

如果参数X_IN的输入值不是矩阵A的对角元素，则

且R₁和R₂的值保持不变。

5.如权利要求1所述的并行化矩阵求逆硬件装置的实现方法，其特征在于，所述MSGR阵列内部处理单元将<X′_IN,Y′_IN>和<M′_IN,N′_IN>更新到<X′_OUT,Y′_OUT>、〈M′_OUT,N′_OUT>，同时定义寄存器α₁、α₂、β₁、β₂、γ₁、γ₂、δ₁，其具体实现方法是：

如果输入参数M′_IN对应矩阵A的对角元素，则

再根据M′_IN和Y′_IN定义寄存器α₁、α₂、β₁、β₂、γ₁、γ₂、δ₁，如果输入参数M′_IN等于0且Y′_IN等于0，则α₁＝1、α₂＝1、γ₁＝0、γ₂＝0、δ₁＝1、β₁＝1、β₂＝1；如果M′_IN等于0且Y′_IN不等于0，则α₁＝1、α₂＝1、γ₁＝0、γ₂＝0、δ₁＝1、如果输入参数M′_IN不等于0，则α₁＝Y′_IN、α₂＝0、β₂＝0、γ₁＝X′_IN、γ₂＝M′_IN、δ₁＝N′_IN，分别表示X′_IN和Y′_IN的共轭；

如果输入参数M′_IN不是对应矩阵A的对角元素，则

且寄存器α₁、α₂、β₁、β₂、γ₁、γ₂、δ₁的值保持不变。

6.如权利要求1所述的并行化矩阵求逆硬件装置的实现方法，其特征在于，所述MSGR阵列第二类边界处理单元根据输入参数对<M″_IN,N″_IN>确定U_OUT，同时进行溢出处理，其具体实现方法是：

令M″_IN_real和N″_IN_real分别表示输入参数M″_IN和N″_IN的实部，M″_IN_imag和N″_IN_imag分别表示输入参数M″_IN和N″_IN的虚部，令S＝N″_IN_real²+N″_IN_imag²，exp()表示取浮点数的指数值，表示向下取整

如果S大于4，则

如果S小于0.25，则

通过(公式8)和(公式9)，M″_IN_real，N″_IN_real，M″_IN_imag和N″_IN_imag的指数值都得到了更新，将更新后的M″_IN和N″_IN相除得到输出U_OUT。

7.如权利要求1所述的并行化矩阵求逆硬件装置的实现方法，其特征在于，所述IAM阵列模块的具体实现方法为：

步骤1：设计IAM阵列边界处理单元；

步骤2：设计IAM阵列内部处理单元。

8.如权利要求1所述的并行化矩阵求逆硬件装置的实现方法，其特征在于，所述IAM阵列边界处理单元根据输入参数X″′_IN确定输出参数Y″′_OUT，同时定义寄存器R，其具体实现方法是：

如果输入参数X″′_IN对应矩阵A的对角元素，则

Y″′_OUT＝0 (公式11)

且寄存器R赋值为1/X″′_IN；

如果输入参数X″′_IN不是对应矩阵A的对角元素，则

Y″′_OUT＝-R×X″′_IN (公式12)

且寄存器R的值保持不变。

9.如权利要求1所述的并行化矩阵求逆硬件装置的实现方法，其特征在于，所述IAM阵列内部处理单元根据输入参数<X″″_IN,Y″″_IN>确定<X″″_OUT,Y″″_OUT>，同时定义寄存器R，其具体实现方法是：

如果输入参数X″″_IN对应矩阵A的对角元素，则

且寄存器R赋值为Y″″_IN/X″″_IN；

如果输入参数X″″_IN不是对应矩阵A的对角元素，则

且寄存器R的值保持不变。