CN103294649A

CN103294649A - 双边cordic运算单元及基于该运算单元的并行雅克比埃尔米特阵特征分解方法和实现电路

Info

Publication number: CN103294649A
Application number: CN2013102528192A
Authority: CN
Inventors: 巴特尔; 朱冠亚; 苏磊; 高西奇
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2013-05-23
Filing date: 2013-06-24
Publication date: 2013-09-11
Anticipated expiration: 2033-06-24
Also published as: CN103294649B

Abstract

本发明提供一种并行双边CORDIC运算单元以及基于该运算单元的并行雅可比运算的埃尔米特阵特征分解实现电路和实现方法，该并行双边CORDIC运算单元是一个六输入四输出结构，将两次单边CORDIC运算转换在一次运算内完成，同时，该双边CORDIC结构能够将单边CORDIC运算的角度范围从[-π/2,π/2)扩大一倍至[-π,π)，使得复数矩阵的实化过程和对角化过程复用相同的电路结构成为可能。本发明的并行双边CORDIC运算单元以及利用其实现埃尔米特阵特征分解方法和分解实现电路，能够有效减少电路运算时延，降低硬件资源消耗，并通过统一的因子校正来提高电路的运算精度。

Description

双边CORDIC运算单元及基于该运算单元的并行雅克比埃尔米特阵特征分解方法和实现电路

技术领域

本发明涉及通信领域，且特别是涉及一种并行双边CORDIC运算单元、基于该运算单元的并行雅可比运算的埃尔米特阵特征分解实现电路和实现方法。

背景技术

移动用户数的增长以及移动互联网业务的增加，给通信系统的容量和质量带来了更高的要求。多输入多输出（Multiple Input Multiple Output，MIMO）技术可充分挖掘空间维度，提供空分复用增益和分集增益，从而显著提高通信系统的频谱效率并改善通信质量。事实上，MIMO技术已经被包括802.11n、长期演进（Long Term Evolution,LTE）在内的多种无线通信技术标准采用。但是MIMO技术在提升系统性能的同时使得接收机的信号处理的复杂度明显增加，尤其是在MIMO接收机中不可避免的涉及到大量的矩阵运算，对硬件设计提出了极高的要求。特征值分解（Eigen Value Decomposition,EVD）操作可以将埃尔米特阵（Hermitian Matrix）分解为以特征值为对角元素的对角阵和对应的特征向量矩阵。在MIMO系统接收机、主成分分析以及人工视觉等多种应用场合下，矩阵特征值分解是简化和解决问题的关键环节。

绝大多数的特征值分解算法都是通过迭代的方式来求解，常见的埃尔米特矩阵特征分解方法有雅可比算法、并行雅可比算法、QR分解算法以及DQDS算法等，在众多方法中，并行雅可比方法由于具有高度并行性、数值稳定且精度较高以及实现电路简单等优点而广受关注，但其同时也具有收敛速度慢的显著缺点，这就意味着需要更多的迭代次数，从而带来较大的电路延时，不利于提高实现效率。

发明内容

本发明目的在于提供一种双边CORDIC运算单元及基于其的并行雅可比运算的埃尔米特阵特征分解方法和分解实现电路，可以有效减少电路延时、降低硬件资源消耗，从而提高实现效率。

为达成上述目的，本发明首先提出一种改进的并行双边CORDIC运算单元，是六输入四输出结构，将两次单边CORDIC运算转换为一次运算内完成，其输入和输出按照如下规则进行CORDIC迭代运算：

x_{11}^{(i + 1)} = x_{11}^{(i)} + x_{21}^{(i)} \cdot d_{l, i} 2^{- i} + (x_{12}^{(i)} + x_{22}^{(i)} \cdot d_{l, i} 2^{- i}) \cdot d_{r, i} 2^{- i}

x_{22}^{(i + 1)} = x_{22}^{(i)} - x_{12}^{(i)} \cdot d_{l, i} 2^{- i} - (x_{21}^{(i)} - x_{11}^{(i)} \cdot d_{l, i} 2^{- i}) \cdot d_{r, i} 2^{- i} - - - (2)

x_{12}^{(i + 1)} = x_{12}^{(i)} + x_{22}^{(i)} \cdot d_{l, i} 2^{- i} - (x_{11}^{(i)} + x_{21}^{(i)} \cdot d_{l, i} 2^{- i}) \cdot d_{r, i} 2^{- i}

x_{21}^{(i + 1)} = x_{21}^{(i)} - x_{11}^{(i)} \cdot d_{l, i} 2^{- i} + (x_{22}^{(i)} - x_{12}^{(i)} \cdot d_{l, i} 2^{- i}) \cdot d_{r, i} 2^{- i}

其中，

为数据输入，{d_l,i,d_r,i,0≤i＜n}为CORDIC运算过程中每次迭代的符号参数，其根据CORDIC运算原理，由主子矩阵处理模块中次对角线元素的符号位确定，即：如果符号位为正，则符号参数为-1，反之则符号参数为+1。

本发明另提出一种应用所述的并行双边CORDIC运算单元的并行雅可比运算的埃尔米特阵特征分解实现电路，包括：并行排序模块、子矩阵处理模块、因子校正模块和控制模块，其中：控制模块用于控制各模块执行具体的操作和运算；并行排序模块用于根据待消除非对角元素位置对输入矩阵进行行列交换并分为若干个2X2主子矩阵和从子矩阵，随后将各子矩阵元素传送到子矩阵处理模块进行CORDIC迭代运算，并且接收来自子矩阵处理模块的运算输出数据，再按照行列交换的次序进行逆操作以进行下一次迭代运算或者数据输出；子矩阵处理模块，包括多个并行的主子矩阵处理单元和从子矩阵处理单元，用于通过酉相似运算将复子矩阵实化，然后再通过GIVENS旋转运算将已经实化的子矩阵对角化；以及因子校正模块，其用于对多次CORDIC迭代运算的最后结果进行校正。

本发明还提出一种应用所述的并行双边CORDIC运算单元的并行雅可比运算的埃尔米特阵特征分解方法，包括下列步骤：

a.从外部输入待分解的埃尔米特矩阵；

b.根据待消除非对角元素位置将矩阵分解为若干个2X2子矩阵，其中包含主对角元素的子矩阵称之为主子矩阵，不包含主对角元素的子矩阵称之为从子矩阵；

c.对主子矩阵进行相位调整，将其从一个复数矩阵转化为一个实矩阵，即实化运算，同时利用相位调整参数同步进行从子矩阵和特征向量阵的相位调整；

d.对主子矩阵进行对角化运算，同时利用对角化调整参数同步进行从子矩阵和特征向量阵的旋转操作；

e.对输出结果进行动态定标，并重新选取待消除非对角元素，从第b步开始进行CORDIC迭代运算直至迭代结束；

f.对引入的幅度偏差进行统一校正，并输出最终结果。

进一步，所述子矩阵的实化运算过程和对角化运算过程复用同一并行双边 CORDIC运算单元，并根据所述控制单元发出的控制信号通过分时复用来实现。

由以上本发明的技术方案可知，本发明所给出的并行双边CORDIC运算单元以及利用其实现埃尔米特阵特征分解方法和分解实现电路，能够将子矩阵的实化和对角化运算中所需的两次单边CORDIC运算整合到一次双边CORDIC运算中完成，在保证分解运算精度的同时减少约一半的电路运算时延，且实现结构简单，非常适用于硬件实现；同时通过时分复用子矩阵实化和对角化运算所使用的CORDIC运算单元，有效降低硬件资源消耗，提高实现效率；此外在每次雅可比迭代结束后引入动态定标，在最终输出时再将多次CORDIC运算引入的幅度偏差一次校正，降低了由定点乘法带来的计算误差，提高了电路的运算精度。

附图说明

图1为传统单边CORDIC运算单元电路结构示意图。

图2为本发明埃尔米特阵特征分解实现电路的框架示意图。

图3为本发明埃尔米特阵特征分解方法的实现流程示意图。

图4为本发明并行双边CORDIC运算单元的整体框架示意图。

图5为本发明并行双边CORDIC运算单元的内部结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

为了能够清晰直观的描述本发明的技术细节，下面给出一个具体的4×4埃尔米特矩阵特征分解实现案例。图2给出了该实现电路的整体框图，从图2中可以看出，该实现电路主要由并行排序模块、子矩阵处理模块、因子校正模块以及控制模块四部分构成。下面结合图2所示的原理框架和图3所示的实现方法流程，详细说明本实施例的埃尔米特矩阵特征分解实现。

并行排序模块主要完成两个功能，其一是根据待消除非对角元素位置对矩阵进行行列交换并分为若干个2X2主子矩阵和从子矩阵，随后将各子矩阵元素传送到对应的子矩阵处理单元进行后续处理；其二是接收来自各子矩阵处理单元的输出数据，并按照行列交换的次序进行逆操作以进行下一次迭代运算或者数据输出。在雅可比算法中，对于矩阵A的非对角元素a_ij的操作只改变A矩阵的第(p,q)行和第(p,q)列，因此，如果两次变换操作分别针对矩阵的不同行列进行，则它们之间互不影响，可以并行进行，这就是并行雅可比算法的基本思想。根据并行雅可比算法，并行排序模块按照式3的顺序对矩阵进行划分，由于每个集合中的两个(p,q)对不冲突，即可并行处理。

\{\begin{matrix} set 1 : {(1,2), (3,4)} \\ set 2 : {(1,3), (2,4)} \\ set 3 : {(1,4), (2,3)} \end{matrix} - - - (3)

根据集合1的排序矩阵对矩阵A进行行列交换和子矩阵划分，划分成四个子矩阵，行列交换可以表示为：

\tilde{A} = P^{T} AP - - - (4)

子矩阵划分可以表示为：

\tilde{A} = [\begin{matrix} {\tilde{A}}_{11} & {\tilde{A}}_{12} \\ {\tilde{A}}_{21} & {\tilde{A}}_{22} \end{matrix}] - - - (5)

具体来说，集合1对应的4个2X2的子矩阵表示为：

同样，集合2对应的4个2X2子矩阵为：

集合3对应的4个2X2子矩阵为：

其中，集合1对应于原始矩阵，集合2和集合3的排列方式需要在变换完成之后，需要将矩阵元素重新排列成原始状态以进行下一次迭代运算或数据输出。

并行雅可比算法是一个迭代过程，按照公式3中三个集合所描述的顺序依次对矩阵A进行变换后，矩阵A中的每一个非对角元素将至少被置为0一次，称为一次“扫描”。这样的迭代过程通常需要执行多次，即多次“扫描”。具体“扫描”次数因精度要求不同而不同，通过增加扫描次数可以提高运算精度，但运算量也随之增加，在具体的实现中可以根据运算精度、延时等需求进行折衷。

对于某次并行雅可比迭代运算中的输入A^(k)，各处理单元在第k次迭代中所进行的运算可用下列公式描述：

A^(k+1)＝P^(k)G^(k)HΓ^(k)HP^(k)TA^(k)P^(k)Γ^(k)G^(k)P^(k)T (9)

其中，P^(k)表示在本次迭代中并行迭代模块所使用的行列交换阵，Γ^(k)为实化过程所使用的酉相似变换矩阵，G^(k)为对角化过程所使用的旋转矩阵，其中，Γ^(k)可以用分块矩阵表示，为：

Γ^{(k)} = [\begin{matrix} Γ_{1}^{(k)} & 0 \\ 0 & Γ_{2}^{(k)} \end{matrix}] - - - (10)

类似的，G^(k)也可以表示为分块模块矩阵的形式：

G^{(k)} = [\begin{matrix} G_{1}^{(k)} & 0 \\ 0 & G_{2}^{(k)} \end{matrix}] - - - (11)

令

{\tilde{A}}^{(k + 1)} = P^{(k) T} A^{(k + 1)} P^{(k)},

则

的各子矩阵可以表示为：

{\tilde{A}}_{11}^{(k + 1)} = G_{1}^{(k) H} Γ_{1}^{(k) H} {\tilde{A}}_{11}^{(k)} Γ_{1}^{(k)} G_{1}^{(k)} - - - (12)

{\tilde{A}}_{22}^{(k + 1)} = G_{2}^{(k) H} Γ_{2}^{(k) H} {\tilde{A}}_{22}^{(k)} Γ_{2}^{(k)} G_{2}^{(k)} - - - (13)

{\tilde{A}}_{12}^{(k + 1)} = G_{1}^{(k) H} Γ_{1}^{(k) H} {\tilde{A}}_{12}^{(k)} Γ_{2}^{(k)} G_{2}^{(k)} - - - (14)

{\tilde{A}}_{21}^{(k + 1)} = G_{2}^{(k) H} Γ_{2}^{(k) H} {\tilde{A}}_{21}^{(k)} Γ_{1}^{(k)} G_{1}^{(k)} - - - (15)

子矩阵处理是整个雅可比运算的核心部分，从上面的式子可以看出，对于4×4埃尔米特矩阵来说，需要4个并行的处理模块PE₁₁、PE₁₂、PE₂₁以及PE₂₂。根据子矩阵中是否包含对角元素，将待处理的子矩阵分为主子矩阵和从子矩阵，对应的PE₁₁和PE₂₂是主子矩阵处理单元，公式12和公式13为主子矩阵处理单元的运算过程。PE₁₂和PE₂₁是从子矩阵处理单元，公式14和公式15表示从子矩阵处理单元运算过程。

在公式12～15中，和

为主子矩阵实化运算中的酉相似矩阵，表示为：

其中，

表示取复数的实部，

表示取复数的虚部。和

是将实化后主子矩阵对角化的GIVENS旋转矩阵，

表示为：

c_{1}^{(k)} = \frac{1}{\sqrt{1 + t^{2}}}

s_{1}^{(k)} = ct - - - (17)

t = \frac{sgn (τ)}{| τ | + \sqrt{τ^{2} + 1}}

τ = \frac{{\tilde{a}}_{22} - {\tilde{a}}_{11}}{2 | {\tilde{a}}_{12} |}

的计算与类似，这里不再赘述。

从上面的公式可以看出，子矩阵处理单元包括两个运算操作，内层的酉相似运算和外层GIVENS旋转运算，先通过酉相似运算将复子矩阵实化，然后再GIVENS旋转将已经实化的子矩阵对角化。在上述公式中，主子矩阵处理单元PE₁₁和PE₂₂与从子矩阵处理单元PE₁₂和PE₂₁具有完全相同的运算过程，区别仅在于变换阵的参数以及参数的获取方式不同。具体来说，参数θ₁以及θ₂均由主子矩阵

和

决定，并由主子矩阵处理单元计算给出，在从处理模块中不需计算，直接从主子矩阵处理模块中读取参数进行相应运算即可。

从公式来看，子矩阵矩阵的实化和对角化具有不同的表达形式，对于任意一个2×2矩阵来说，子矩阵实化运算可以表示为：

其中非对角元素

和

的运算可以写为GIVENS旋转形式，即：

当对主子矩阵进行实化操作时，可得

从上式可以看出，实化和对角化过程虽然具体运算并不相同，但均可通过GIVENS旋转实现，因此在具体电路设计时，可以考虑，可复用同一个运算电路，并根据控制模块给出的控制信号来确定当前进行的是“实化”操作还是“对角化”操作，通过分时复用来实现。

此外，在对矩阵进行对角化操作求取特征值之外，还需要计算特征向量，在公式9中，令Q^(k)＝P^(k)Γ^(k)G^(k)P^(k)T，则有：

A^(k+1)＝Q^(k)HA^(k)Q^(k)＝Q^(k)HQ^(k-1)H...Q^(0)HAQ⁽⁰⁾...Q^(k-1)Q^(k) (20)

假设在第k次迭代后满足迭代终止条件并输出最终结果，此时输出的A^(k+1)即为对角元素为特征值的对角阵，特征特征向量矩阵为：

U^(k+1)＝Q⁽⁰⁾...Q^(k-1)Q^(k)＝U^(k)Q^(k) (21)

从公式21中可以得出特征特征向量矩阵的计算方法，特征向量可以通过一个初值为单位阵I的单边变换获得，且单边变换运算中的参数均与前述A^(k+1)求取过程中的行列转置、实化以及对角化过程相同，因此也可以通过类似的电路结构来实现。至此，可以得到子矩阵运算单元的设计需求，子矩阵运算单元需要能够支持实化和对角化操作，还要同时支持单边和双边的GIVENS旋转运算。

在GIVENS旋转操作中，涉及到旋转角度求取，三角函数运算以及乘法运算，直接实现必将带来大量的资源消耗，为此，本发明采用CORDIC算法实现GIVENS旋转操作。

对于一个GIVENS旋转矩阵G_i，可以写为：

G_{i} = [\begin{matrix} {\cos α}_{i} & - {\sin α}_{i} \\ {\sin α}_{i} & {\cos α}_{i} \end{matrix}] = \frac{1}{\sqrt{1 + \tan^{2} α_{i}}} [\begin{matrix} 1 & - {\tan α}_{i} \\ {\tan α}_{i} & 1 \end{matrix}] - - - (22)

上式的计算利用了三角函数性质：

\cos α = \frac{1}{\sqrt{1 + \tan^{2} α}}, \sin α = \frac{\tan α}{\sqrt{1 + \tan^{2} α}} - - - (23)

此外还具有下式所述的性质：

G_{i} G_{k} = \frac{1}{\sqrt{1 + \tan^{2} (α_{i} + α_{k})}} [\begin{matrix} 1 & - \tan (α_{i} + α_{k}) \\ \tan (α_{i} + α_{k}) & 1 \end{matrix}] - - - (24)

如果限制α_i的取值为α_i＝arctan(±2^-i)，则有：

G_{i} = \frac{1}{\sqrt{1 + 2^{- 2 i}}} [\begin{matrix} 1 & - d_{i} 2^{- i} \\ d_{i} 2^{- i} & 1 \end{matrix}] - - - (25)

这样就可以通过移位和加减运算代替复杂的乘法以及三角函数运算，极大的降低了实现复杂度。

在实际设计时，各处理模块中的操作均基于隐式的CORDIC运算，即并不需要明确的计算出旋转的参数，而是只需要确定CORDIC运算过程中每次迭代的符号参数{d_i,0≤i＜n}，如图1所示。由于第i次迭代的角度α_i＝arctan(2^-i)是确定的，因而最终旋转的角度

也将被确定下来。使用显式的CORDIC运算进行设计，从子矩阵处理模块必需要等到主子矩阵处理模块计算出旋转的参数之后，才能开始运算。这意味着采用显式的CORDIC运算使得计算过程具有一定的串行性。如果采用隐式的CORDIC运算进行设计，根据主子矩阵处理模块中次对角线元素的符号位即可确定符号参数{d_i,0≤i＜n}。主、从子矩阵处理模块中的CORDIC运算单元（向量模式）获取符号参数d_i后即可以工作。因而，参数计算和向量旋转运算可以同时操作，具有极高的并行性，使得计算的延迟明显减小。

如12～15式所示，主子矩阵和从子矩阵在处理时均为双边运算，如果左右两边变换顺序执行，必将带来较大的电路延迟，为此，参考图4～5所示，本实施例给出一种双边CORDIC运算电路结构，能够有效的减少电路延迟。

对于一个任意2×2矩阵的双边GIVENS旋转，可以写为：

{[\begin{matrix} \cos θ_{l} & - \sin θ_{l} \\ \sin θ_{l} & {\cos θ}_{l} \end{matrix}]}^{H} [\begin{matrix} x_{11} & x_{12} \\ x_{21} & x_{22} \end{matrix}] [\begin{matrix} {\cos θ}_{r} & {- \sin θ}_{r} \\ {\sin θ}_{r} & {\cos θ}_{r} \end{matrix}] - - - (26)

= K^{2} {[\begin{matrix} 1 & - d_{l, i} 2^{- i} \\ d_{l, i} 2^{- i} & 1 \end{matrix}]}^{H} \cdot \cdot \cdot {[\begin{matrix} 1 & - d_{l, 1} 2^{- 1} \\ d_{l, 1} 2^{- 1} & 1 \end{matrix}]}^{H} [\begin{matrix} x_{11} & x_{12} \\ x_{21} & x_{22} \end{matrix}] [\begin{matrix} 1 & {- d}_{r, 1} 2^{- 1} \\ d_{r, 1} 2^{- 1} & 1 \end{matrix}] \cdot \cdot \cdot [\begin{matrix} 1 & - d_{r, i} 2^{- i} \\ d_{r, i} 2^{- i} & 1 \end{matrix}]

其中

为由CORDIC运算带来的幅度因子，

θ_{l} = Σ_{i = 0}^{n - 1} d_{l, i} \arctan (2^{- i}),

θ_{r} = Σ_{i = 0}^{n - 1} d_{r, i} \arctan (2^{- i}) .

令

X^{(i + 1)} = [\begin{matrix} x_{11}^{(i + 1)} & x_{12}^{(i + 1)} \\ x_{21}^{(i + 1)} & x_{22}^{(i + 1)} \end{matrix}] = {[\begin{matrix} 1 & {- d}_{l, i} 2^{- i} \\ d_{l, i} 2^{- i} & 1 \end{matrix}]}^{H} [\begin{matrix} x_{11}^{(i)} & x_{12}^{(i)} \\ x_{21}^{(i)} & x_{22}^{(i)} \end{matrix}] [\begin{matrix} 1 & - d_{r, i} 2^{- i} \\ d_{r, i} 2^{- i} & 1 \end{matrix}] - - - (27)

为一次双边CORDIC迭代运算，对27式进行分解，可得：

x_{11}^{(i + 1)} = x_{11}^{(i)} + x_{21}^{(i)} \cdot d_{l, i} 2^{- i} + (x_{12}^{(i)} + x_{22}^{(i)} \cdot d_{l, i} 2^{- i}) \cdot d_{r, i} 2^{- i}

x_{22}^{(i + 1)} = x_{22}^{(i)} - x_{12}^{(i)} \cdot d_{l, i} 2^{- i} - (x_{21}^{(i)} - x_{11}^{(i)} \cdot d_{l, i} 2^{- i}) \cdot d_{r, i} 2^{- i} - - - (28)

x_{12}^{(i + 1)} = x_{12}^{(i)} + x_{22}^{(i)} \cdot d_{l, i} 2^{- i} - (x_{11}^{(i)} + x_{21}^{(i)} \cdot d_{l, i} 2^{- i}) \cdot d_{r, i} 2^{- i}

x_{21}^{(i + 1)} = x_{21}^{(i)} - x_{11}^{(i)} \cdot d_{l, i} 2^{- i} + (x_{22}^{(i)} - x_{12}^{(i)} \cdot d_{l, i} 2^{- i}) \cdot d_{r, i} 2^{- i}

类似的，对实化操作中的运算进行分解，假设一个复数x+jy，按照公式25进行运算可以记为：

= K^{2} [\begin{matrix} 1 & - d_{i} 2^{- i} \\ d_{i} 2^{- i} & 1 \end{matrix}] [\begin{matrix} 1 & - d_{i} 2^{- i} \\ d_{i} 2^{- i} & 1 \end{matrix}] \cdot \cdot \cdot [\begin{matrix} 1 & {- d}_{1} 2^{- 1} \\ d_{1} 2^{- 1} & 1 \end{matrix}] [\begin{matrix} 1 & - d_{1} 2^{- 1} \\ d_{1} 2^{- 1} & 1 \end{matrix}] [\begin{matrix} x \\ y \end{matrix}]

其中，

设计这样的运算结构的目的有两个：其一，在求取特征向量的过程中，需要进行单边变换，也就是需要知道

其二，这样的结构与上面的双边CORDIC运算单元类似，可以复用同样的电路，此外还带来一个额外的好处，就是将CORDIC运算旋转的角度范围扩大了一倍。将式29进一步分解，令

[\begin{matrix} x^{(i + 1)} \\ y^{(i + 1)} \end{matrix}] = [\begin{matrix} 1 & {- d}_{i} 2^{- i} \\ d_{i} 2^{- i} & 1 \end{matrix}] [\begin{matrix} 1 & {- d}_{i} 2^{- i} \\ d_{i} 2^{- i} & 1 \end{matrix}] [\begin{matrix} x^{(i)} \\ y^{(i)} \end{matrix}] - - - (30)

为一次迭代运算，对式30进行进一步分解，可得：

x⁽ⁱ⁺¹⁾＝x⁽ⁱ⁾-y⁽ⁱ⁾·d_i2^-i-(y⁽ⁱ⁾+x⁽ⁱ⁾·d_i2^-i)·d_i2^-i (31)

y⁽ⁱ⁺¹⁾＝y⁽ⁱ⁾+x⁽ⁱ⁾·d_i2^-i+(x⁽ⁱ⁾-y⁽ⁱ⁾·d_i2^-i)·d_i2^-i

可以看出式31和式28有相似的实现结构，可以时分复用。

此外，在实化过程中，原矩阵的对角元素保持不变，但是非对角元素在运算过程中会产生K²的幅度缩放，为了让对角元素也具有相同的幅度缩放，我们让对角元素进行如下迭代运算：

[\begin{matrix} u^{(i + 1)} \\ v^{(i + 1)} \end{matrix}] = [\begin{matrix} 1 & d_{i} 2^{- i} \\ {- d}_{i} 2^{- i} & 1 \end{matrix}] [\begin{matrix} 1 & {- d}_{i} 2^{- i} \\ d_{i} 2^{- i} & 1 \end{matrix}] [\begin{matrix} u^{(i)} \\ v^{(i)} \end{matrix}] = [\begin{matrix} 1 + d_{i}^{2} \\ 1 + d_{i}^{2} \end{matrix}] [\begin{matrix} u^{(i)} \\ v^{(i)} \end{matrix}] - - - (32)

这样在迭代完成之后，能够保证对角元素和非对角元素进行了相同幅度的缩放。

在传统的单边CORDIC变换结构下，形如（27）式的双边GIVENS旋转需要2i步才能完成，在采用并行双边CORDIC运算结构之后，并行Jacobi运算的主子矩阵和从子矩阵都按照（28）式进行计算，即形如Xⁱ⁺¹＝AXⁱB，其中A为左边CORDIC运算，B为右边CORDIC运算，为单边CORDIC算。采用并行双边CORDIC运算结构之后，原来先左边再右边的CORDIC运算才能完成Xⁱ⁺¹中元素的计算，现在只需一步既可完成。这样操作本质上并没有增加计算的复杂度（双边CORDIC运算单元本质上与4个单边CORDIC运算单元等价，且需要相同的加法器和移位单元），但能够减少由于每次单边CORDIC运算之后所需要的寄存器以及保证运算位长所使用的四舍五入和截位运算单元，能够有效减少电路延迟。此外，双边CORDIC结构，能够将单边CORDIC运算的角度范围从[-π/2,π/2)扩大一倍至[-π,π)，使得实化过程和对角化过程复用相同的电路结构成为可能。双边Cordic运算模块是我们设计的并行Jacobi运算的主要模块。另外本发明创新点还在于并行Coridc运算，浮动定标，复用Cordic运算模块进行对角化和实化操作等等。

式28和式31给出了并行双边CORDIC运算单元的实现结构，从式中可以看出，双边CORDIC运算单元实际上是由若干个单边CORDIC运算单元组合而成的，但双边CORDIC运算可以一步完成，在不增加硬件资源的前提下可以将运算延时减少一半。

从式25和式26可以看出，CORDIC运算会引入幅度变化因子K，

K = Π_{i} K_{i} = Π_{i} 1 / \sqrt{1 + 2^{- 2 i}} \approx 0.6072529350088812561694 - - - (33)

在计算过程中需要补偿，否则会因为幅度的变化而导致定点计算精度下降。如果在每次CORDIC运算之后立刻进行校正，则多次定点乘法会使误差逐渐累积而影响最终结果的精度。在进行一次子矩阵的实化和对角化运算之后，按照定义好的模式进行定标调整，在最终输出时再进行统一矫正，这样可以降低定点乘法带来的计算误差。

综上所述，在本发明中，通过让子矩阵的实化和对角化运算复用同样的CORDIC运算单元来减少硬件资源开销。对于埃尔米特矩阵而言，主子矩阵的实化和对角化运算本质都是向量旋转，因此可以通过相同的CORDIC运算单元实现，但在具体实现时计算每一次旋转判定符号的判据不同，这可以通过控制电路以及分时复用来实现。

在本发明中，子矩阵的实化和对角化过程不需要求出具体的角度值，而是在计算相位角度的同时进行相位调整。CORDIC运算由一系列串行的旋转操作迭代完成，每次旋转都会得到一个判定符号。最终的旋转相位由CORDIC运算输出的一系列判定符号唯一确定。而对从子矩阵和特征向量矩阵计算模块需要进行同样的CORDIC旋转，所以可以将每次主子矩阵的CORDIC运算判定符号直接输出给从子矩阵和特征向量矩阵计算模块，使其同步运算，将经典方法中先由主子矩阵计算旋转角度，然后从子矩阵和特征向量矩阵再根据这个旋转角度进行CORDIC运算的串行计算变为并行，可以有效的降低运算延时，具体过程如图2所示。

CORDIC运算会引入幅度偏差，如果在每次迭代运算之后立刻进行校正，定点乘法的误差会随着迭代次数的增加而逐渐累积，影响最终输出结果的定点精度，因此，本发明在每次双边雅可比迭代之后仅进行定标调整，在迭代结束后再对运算过程中引入的幅度偏差进行统一校正，可以有效降低由定点乘法带来的计算误差，提高了电路的运算精度。

虽然本发明已以较佳实施例揭露如上，然其并非用以限定本发明。本发明所属技术领域中具有通常知识者，在不脱离本发明的精神和范围内，当可作各种的更动与润饰。因此，本发明的保护范围当视权利要求书所界定者为准。

Claims

1.一种并行双边CORDIC运算单元，其特征在于，由若干个单边CORDIC运算单元组合形成六输入四输出结构，其输入和输出按照如下规则进行CORDIC迭代运算：

x_{11}^{(i + 1)} = x_{11}^{(i)} + x_{21}^{(i)} \cdot d_{l, i} 2^{- i} + (x_{12}^{(i)} + x_{22}^{(i)} \cdot d_{l, i} 2^{- i}) \cdot d_{r, i} 2^{- i}

\begin{matrix} x_{22}^{(i + 1)} = x_{22}^{(i)} - x_{12}^{(i)} \cdot d_{l, i} 2^{- i} - (x_{21}^{(i)} - x_{11}^{(i)} \cdot d_{l, i} 2^{- i}) \cdot d_{r, i} 2^{- i} \\ x_{12}^{(i + 1)} = x_{12}^{(i)} + x_{22}^{(i)} \cdot d_{l, i} 2^{- i} - (x_{11}^{(i)} + x_{21}^{(i)} \cdot d_{l, i} 2^{- i}) \cdot d_{r, i} 2^{- i} \end{matrix} - - - (1)

x_{21}^{(i + 1)} = x_{21}^{(i)} - x_{11}^{(i)} \cdot d_{l, i} 2^{- i} + (x_{22}^{(i)} - x_{12}^{(i)} \cdot d_{l, i} 2^{- i}) \cdot d_{r, i} 2^{- i}

其中，

为数据输入，{d_l,i,d_r,i,0≤i＜n}为CORDIC运算过程中每次迭代的符号参数，其根据CORDIC运算原理，由主子矩阵处理模块中次对角线元素的符号位确定，即：如果符号位为正，则符号参数为-1，反之则符号参数为+1。此外，双边CORDIC结构，能够将单边CORDIC运算的角度范围从[-π/2,π/2)扩大一倍至[-π,π)，使得实化过程和对角化过程复用相同的电路结构成为可能。

2.一种应用权利要求1中所述的并行双边CORDIC运算单元的并行雅可比运算的埃尔米特阵特征分解实现电路，其特征在于，包括：并行排序模块、子矩阵处理模块、因子校正模块和控制模块，其中：

控制模块用于控制各模块执行具体的操作和运算；

并行排序模块用于根据待消除非对角元素位置对输入矩阵进行行列交换并分为若干个2X2主子矩阵和从子矩阵，随后将各子矩阵元素传送到子矩阵处理模块进行CORDIC迭代运算，并且接收来自子矩阵处理模块的运算输出数据，再按照行列交换的次序进行逆操作以进行下一次迭代运算或者数据输出；

子矩阵处理模块，包括多个并行的主子矩阵处理单元和从子矩阵处理单元，用于通过酉相似运算将复子矩阵实化，然后再通过GIVENS旋转运算将已经实化的子矩阵对角化；以及因子校正模块，其用于对多次CORDIC迭代运算的最后结果进行校正。

3.一种应用权利要求1中所述的并行双边CORDIC运算单元的并行雅可比运算的埃尔米特阵特征分解方法，其特征在于，该方法包括下列步骤：

a.从外部输入待分解的埃尔米特矩阵；

f.对引入的幅度偏差进行统一校正，并输出最终结果。

4.根据权利要求3所述的方法，其特征在于，所述子矩阵的实化运算过程和对角化运算过程复用同一并行双边CORDIC运算单元，并根据所述控制单元发出的控制信号通过分时复用来实现。