CN112035795A

CN112035795A - Cholesky分解算法运算级流水线硬件加速方法

Info

Publication number: CN112035795A
Application number: CN202010929259.XA
Authority: CN
Inventors: 王珂; 包敏杰; 李瑞峰; 赵立军
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2020-09-07
Filing date: 2020-09-07
Publication date: 2020-12-04

Abstract

Cholesky分解算法运算级流水线硬件加速方法，涉及Cholesky分解算法领域。解决了如何对Cholesky分解算法进行加速计算的问题。本发明加速方法是基于FPGA实现的，利用FPGA对对称正定矩阵A进行Cholesky分解，使对称正定矩阵A的Cholesky分解矩阵L以并行运算的方式计算，获得矩阵L中待计算元素，完成对矩阵L的运算，实现对对称正定矩阵A的Cholesky分解。本发明主要用于对Cholesky分解算法进行加速。

Description

Cholesky分解算法运算级流水线硬件加速方法

技术领域

本发明涉及Cholesky分解算法领域，特别涉及一种借助现场可编程门阵列(FieldProgrammable Gate Array，FPGA)实现浮点数矩阵Cholesky分解算法硬件加速的方法。

背景技术

假设矩阵A为对称正定矩阵，则A＝LL^T称为矩阵A的Cholesky分解，其中矩阵L为具有正对角线元素的下三角矩阵，即：

Cholesky分解算法的一种伪代码如下：

式中，n为待分解矩阵维度，A为待分解矩阵，L为对矩阵A进行Cholesky分解得到的下三角将矩阵。

Cholesky分解算法计算规则如图1所示：对于某一列来说，只有该列的第一个元素被计算出来后，其后的所有元素才可被计算；对于某一行来说，只有其前序所有元素被计算出来，此行中某一列的元素才可被计算出来。这样的规则决定了我们一般是从上到下、从左往右去计算下三角矩阵中的各个元素。

Cholesky分解算法在很多领域有着广泛的应用，尤其是机器人同步定位与建图领域，UKF-Slam(无迹卡尔曼滤波)算法中涉及到大维度浮点数矩阵的Cholesky分解。研究表明维数为n×n的矩阵Cholesky分解算法的运算量为O(n³/6)。因此，大维度浮点数矩阵的Cholesky分解算法的运算量很大。若Cholesky分解算法在CPU中进行，采用串行计算的方法，将消耗大量时间。因此，如何对大维度浮点数矩阵Cholesky分解算法进行加速计算，以上问题急需解决。

发明内容

本发明目的是为了解决如何对Cholesky分解算法进行加速计算的问题，提供了一种Cholesky分解算法运算级流水线硬件加速方法。

Cholesky分解算法运算级流水线硬件加速方法，该加速方法是基于FPGA实现的，利用FPGA对对称正定矩阵A进行Cholesky分解，使对称正定矩阵A的Cholesky分解矩阵L以并行运算的方式计算，获得矩阵L中待计算元素，完成对矩阵L的运算，实现对对称正定矩阵A的Cholesky分解；

所述矩阵L为下三角矩阵，矩阵L的主对角线元素及其下方元素为待计算元素；

矩阵L和对称正定矩阵A的维数相同，且二者中的元素全为浮点数。

优选的是，矩阵L为n×n的矩阵，矩阵L中待计算元素个数为m；

n和m均为整数；

FPGA包括多个计算模块，所有计算模块的个数与所有待计算元素的个数相同，均为m；

m个计算模块分别用于对矩阵L中m个待计算元素进行计算，每个计算模块对应一个计算公式，m个计算模块之间存在数据通讯关系，从而实现FPGA对矩阵L的每一列中由上至下，除最上方一个待计算元素外，剩余的多个待计算元素同步输出。

优选的是，对称正定矩阵A的Cholesky分解矩阵L以并行运算的方式计算的规则为：

对于矩阵L的某一列来说，只有该列的第一个元素被计算出来后，该列其后的所有元素才能被计算出来；

对于矩阵L的某一行来说，只有其前序所有元素被计算出来，此行中某一列的元素才能被计算出来。

优选的是，当矩阵L为4×4的矩阵时，所述FPGA包括第一至第十计算模块；

所述利用FPGA对对称正定矩阵A进行Cholesky分解，使对称正定矩阵A的Cholesky分解矩阵L以并行运算的方式计算，获得矩阵L中待计算元素，完成对矩阵L的运算的具体过程为：

首先、使第一至第十计算模块依次从DDR内存中读取对称正定矩阵A中的数据A₁₁、A₂₁、A₃₁、A₄₁、A₂₂、A₃₂、A₄₂、A₃₃、A₄₃和A₄₄；

其中，A₁₁为对称正定矩阵A中1行第1列的元素；

A₂₁为对称正定矩阵A中2行第1列的元素；

A₃₁为对称正定矩阵A中3行第1列的元素；

A₄₁为对称正定矩阵A中4行第1列的元素；

A₂₂为对称正定矩阵A中2行第2列的元素；

A₃₂为对称正定矩阵A中3行第2列的元素；

A₄₂为对称正定矩阵A中4行第2列的元素；

A₃₃为对称正定矩阵A中3行第3列的元素；

A₄₃为对称正定矩阵A中4行第3列的元素；

A₄₄为对称正定矩阵A中4行第4列的元素；

第一计算模块，用于根据接收的数据A₁₁进行运算获得l₁₁，并将获得的l₁₁同时发送至第二至第四运算模块；其中，l₁₁为矩阵L中第1行第1列的元素；

第二计算模块，用于根据接收的数据l₁₁和A₂₁进行运算获得l₂₁，并将获得的l₂₁同时发送至第五至第七运算模块；其中，l₂₁为矩阵L中第2行第1列的元素；

第三计算模块，用于根据接收的数据l₁₁和A₃₁进行运算获得l₃₁，并将获得的l₃₁发送至第六、第八和第九运算模块；其中，l₃₁为矩阵L中第3行第1列的元素；

第四计算模块，用于根据接收的数据l₁₁和A₄₁进行运算获得l₄₁，并将获得的l₄₁发送至第七、第九和第十运算模块；其中，l₄₁为矩阵L中第4行第1列的元素；

第五计算模块，用于根据接收的数据l₂₁和A₂₂进行运算获得l₂₂，并将获得的l₂₂发送至第六和第七运算模块；其中，l₂₂为矩阵L中第2行第2列的元素；

第六计算模块，用于根据接收的数据l₂₁、l₃₁、l₂₂和A₃₂进行运算获得l₃₂，并将获得的l₃₂发送至第八和第九运算模块；其中，l₃₂为矩阵L中第3行第2列的元素；

第七计算模块，用于根据接收的数据l₂₁、l₄₁、l₂₂和A₄₂进行运算获得l₄₂，并将获得的l₄₂发送至第九和第十运算模块；其中，l₄₂为矩阵L中第4行第2列的元素；

第八计算模块，用于根据接收的数据l₃₁、l₃₂和A₃₃进行运算获得l₃₃，并将获得的l₃₃发送至第九和第十运算模块；其中，l₃₃为矩阵L中第3行第3列的元素；

第九计算模块，用于根据接收的数据l₃₁、l₄₁、l₃₂、l₄₂、l₃₃和A₄₃进行运算获得l₄₃；其中，l₄₃为矩阵L中第4行第3列的元素；

第十计算模块，用于根据接收的数据l₄₁、l₄₂、l₃₃和A₄₄进行运算获得l₄₄；其中，l₄₄为矩阵L中第4行第4列的元素；

其次，l₁₁、l₂₁、l₂₂、l₃₁、l₃₂、l₃₃、l₄₁、l₄₂、l₄₃和l₄₄为矩阵L中的10个待计算元素，根据l₁₁、l₂₁、l₂₂、l₃₁、l₃₂、l₃₃、l₄₁、l₄₂、l₄₃和l₄₄完成对矩阵L的运算；其中，

优选的是，FPGA还包括接口模块，第一至第十计算模块通过接口模块与CPU的DDR内存实现通讯。

优选的是，接口模块为AXI协议的接口。

优选的是，第二至第四计算模块的运算方式相同；第六和第七计算模块的运算方式相同。

本发明的优点：通过借助FPGA，使浮点数矩阵的Cholesky分解算法在FPGA中实现，且以并行的计算方式进行计算，从而提高了计算速度。本发明脱离了现有技术中浮点数矩阵的Cholesky分解算法完全依赖于CPU实现的计算方式，避免了占用过多的CPU计算资源与硬件存储资源；避免了Cholesky分解算法在CPU中进行，采用串行计算的方法，将消耗大量时间的问题，且与传统硬件实现矩阵的Cholesky分解算法相比较，本发明实现的算法简单，由运算器直接进行互联，没有复杂的时序控制。

附图说明

图1是对称正定矩阵A的Cholesky分解矩阵L以并行运算的方式计算的规则示意图。；

图2是FPGA的原理示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

本实施方式所述的Cholesky分解算法运算级流水线硬件加速方法，该加速方法是基于FPGA实现的，利用FPGA对对称正定矩阵A进行Cholesky分解，使对称正定矩阵A的Cholesky分解矩阵L以并行运算的方式计算，获得矩阵L中待计算元素，完成对矩阵L的运算，实现对对称正定矩阵A的Cholesky分解；

本实施方式中，通过借助FPGA，使浮点数矩阵的Cholesky分解算法在FPGA中实现，且以并行的计算方式进行计算，从而提高了计算速度。本发明脱离了现有技术中浮点数矩阵的Cholesky分解算法完全依赖于CPU实现的计算方式，避免了占用过多的CPU计算资源与硬件存储资源。

进一步的，矩阵L为n×n的矩阵，矩阵L中待计算元素个数为m；

n和m均为整数；

本优选实施方式中，本发明所述的Cholesky分解算法运算级流水线硬件加速方法与传统硬件实现矩阵的Cholesky分解算法相比较，本发明实现的算法简单，由计算模块之间直接进行互联，没有复杂的时序控制。

更进一步的，具体参见图1，对称正定矩阵A的Cholesky分解矩阵L以并行运算的方式计算的规则为：

更进一步的，具体参见图2，当矩阵L为4×4的矩阵时，所述FPGA包括第一至第十计算模块；

其中，A₁₁为对称正定矩阵A中1行第1列的元素；

A₂₁为对称正定矩阵A中2行第1列的元素；

A₃₁为对称正定矩阵A中3行第1列的元素；

A₄₁为对称正定矩阵A中4行第1列的元素；

A₂₂为对称正定矩阵A中2行第2列的元素；

A₃₂为对称正定矩阵A中3行第2列的元素；

A₄₂为对称正定矩阵A中4行第2列的元素；

A₃₃为对称正定矩阵A中3行第3列的元素；

A₄₃为对称正定矩阵A中4行第3列的元素；

A₄₄为对称正定矩阵A中4行第4列的元素；

本优选实施方式中，本发明所述的Cholesky分解算法运算级流水线硬件加速方法与传统硬件实现矩阵的Cholesky分解算法相比较，本发明实现的算法简单，由计算模块之间直接进行互联，没有复杂的时序控制。通过计算模块之间的互联方式构建运算模型实现并行的计算方式进行计算。

对称正定矩阵A的Cholesky分解矩阵L以并行运算的方式计算的规则为：

以矩阵L第一列的4个元素l₁₁、l₂₁、l₃₁和l₄₁为例进行说明，只有该列的第一个元素l₁₁被计算出来后，该列其后的所有元素l₂₁、l₃₁和l₄₁才能被计算出来；即：对于矩阵L的某一列来说，只有该列的第一个元素被计算出来后，该列其后的所有元素才能被计算出来；

以矩阵L第三行中的三个元素l₃₁、l₃₂、l₃₃为例进行说明，若要求取l₃₂，必须先计算出l₃₁，才能实现对l₃₂的求取，若要求取l₃₃，必须先计算出l₃₁和l₃₂，才能实现对l₃₃的求取。即：对于矩阵L的某一行来说，只有其前序所有元素被计算出来，此行中某一列的元素才能被计算出来。

更进一步的，FPGA还包括接口模块，第一至第十计算模块通过接口模块与DDR内存实现通讯。

更进一步的，接口模块为AXI协议的接口。

更进一步的，第二至第四计算模块的运算方式相同；第六和第七计算模块的运算方式相同。

如图1所示，本实施方式中得到了矩阵Cholesky分解算法计算规则：对于某一列来说，只有该列的第一个元素被计算出来后，其后的所有元素才可被计算；对于某一行来说，只有其前序所有元素被计算出来，此行中某一列的元素才可被计算出来。

本实施方式中分析了Cholesky分解算法的计算规则，得到了下三角矩阵L的元素计算顺序，矩阵L的正对角线元素的下三角矩阵中各元素的计算方式为固定，其计算方式及顺序为：

(1)

(2)

(3)

(4)

(5)

(6)

(7)

(8)……

由于矩阵L中每个元素的计算公式是固定的，根据其每个元素的运算方式，搭建相应的硬件结构，实现相应运算模块的功能，例如：获取l₁₁的过程，只需对A₁₁进行开根号，则求取l₁₁的运算模块需要使用根号器；获取l₂₁的过程，

故求取l₂₁的运算模块需要使用除法器；通过搭建各运算模块之间的连接关系，使矩阵L的每一列中由上至下，除最上方一个待计算元素外，剩余的多个待计算元素同步输出；例如矩阵

中第一列的4个元素，由上至下依次为l₁₁、l₂₁、l₃₁和l₄₁；先获得l₁₁，当l₁₁获得完成后，根据l₁₁，可同步计算出l₂₁、l₃₁和l₄₁，实现数据的并行计算，解决了现有技术中串行计算的方式，必须依次计算l₁₁、l₂₁、l₃₁和l₄₁，才能获得一列元素，本发明的整个并行运算的方式，提高了Cholesky分解算法的解算速度。

虽然在本文中参照了特定的实施方式来描述本发明，但是应该理解的是，这些实施例仅仅是本发明的原理和应用的示例。因此应该理解的是，可以对示例性的实施例进行许多修改，并且可以设计出其他的布置，只要不偏离所附权利要求所限定的本发明的精神和范围。应该理解的是，可以通过不同于原始权利要求所描述的方式来结合不同的从属权利要求和本文中所述的特征。还可以理解的是，结合单独实施例所描述的特征可以使用在其他所述实施例中。

Claims

1.Cholesky分解算法运算级流水线硬件加速方法，其特征在于，该加速方法是基于FPGA实现的，利用FPGA对对称正定矩阵A进行Cholesky分解，使对称正定矩阵A的Cholesky分解矩阵L以并行运算的方式计算，获得矩阵L中待计算元素，完成对矩阵L的运算，实现对对称正定矩阵A的Cholesky分解；

2.根据权利要求1所述的Cholesky分解算法运算级流水线硬件加速方法，其特征在于，矩阵L为n×n的矩阵，矩阵L中待计算元素个数为m；

n和m均为整数；

3.根据权利要求1所述的Cholesky分解算法运算级流水线硬件加速方法，其特征在于，对称正定矩阵A的Cholesky分解矩阵L以并行运算的方式计算的规则为：

4.根据权利要求1或2所述的Cholesky分解算法运算级流水线硬件加速方法，其特征在于，当矩阵L为4×4的矩阵时，所述FPGA包括第一至第十计算模块；

其中，A₁₁为对称正定矩阵A中1行第1列的元素；

A₂₁为对称正定矩阵A中2行第1列的元素；

A₃₁为对称正定矩阵A中3行第1列的元素；

A₄₁为对称正定矩阵A中4行第1列的元素；

A₂₂为对称正定矩阵A中2行第2列的元素；

A₃₂为对称正定矩阵A中3行第2列的元素；

A₄₂为对称正定矩阵A中4行第2列的元素；

A₃₃为对称正定矩阵A中3行第3列的元素；

A₄₃为对称正定矩阵A中4行第3列的元素；

A₄₄为对称正定矩阵A中4行第4列的元素；

5.根据权利要求4所述的Cholesky分解算法运算级流水线硬件加速方法，其特征在于，FPGA还包括接口模块，第一至第十计算模块通过接口模块与CPU的DDR内存实现通讯。

6.根据权利要求4所述的Cholesky分解算法运算级流水线硬件加速方法，其特征在于，接口模块为AXI协议的接口。

7.根据权利要求4所述的Cholesky分解算法运算级流水线硬件加速方法，其特征在于，第二至第四计算模块的运算方式相同；第六和第七计算模块的运算方式相同。