CN110928605A

CN110928605A - 一种基于Zynq FPGA的光束平差法硬件加速器

Info

Publication number: CN110928605A
Application number: CN201911113742.4A
Authority: CN
Inventors: 刘强; 秦书臻
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2019-11-14
Filing date: 2019-11-14
Publication date: 2020-03-27
Anticipated expiration: 2039-11-14
Also published as: CN110928605B

Abstract

本发明公开基于Zynq FPGA的光束平差法硬件加速器，光束平差法中的舒尔消除、雅各比矩阵更新和成本函数计算部分在Zynq的PL端通过电路设计实现，其他部分在Zynq的PS端通过软件编程实现；加速器PL端根据算法拆分两个硬件电路，舒尔消除使用单独硬件，雅各比矩阵更新和成本函数计算共享同一硬件；加速器内部电路形成不同的计算单元，计算单元之间采用FPGA片上双端口RAM进行数据传递，计算单元内部采用有限状态机，通过状态的转换来控制每步数据的读入、读出和存储；雅各比矩阵更新和成本函数计算模块通过采用解析微分和自动微分相结合的方式求取雅各比矩阵并同时计算成本函数。本发明可大幅降低BA计算能量消耗。

Description

一种基于Zynq FPGA的光束平差法硬件加速器

技术领域

本发明涉及硬件加速器技术领域，特别是涉及一种基于Zynq FPGA的光束平差法硬件加速器。

背景技术

光束平差法(Bundle Adjustment,BA)通过同时优化相机参数和三维空间特征点位置来获得最优的视觉重建效果。最优意味着通过最小化量化模型的来找到最优的参数估计值，两者的同时优化意味着无论是三维空间特征点和相机的参数而言，其估计值都是最优的。广泛应用于三维立体场景的重建和同步定位和地图构建(SLAM)。BA的目标是通过最小化重投影误差来找到最优的参数估计，即三维空间点位置和相机参数。该误差被定义为观察到的特征位置与根据输入参数计算点在相机图像平面上位置差的L2范数。

BA是移动机器人视觉系统的重要组成部分，Mur-Artal等人设计了使用BA来优化三维空间结构SLAM系统ORB-SLAM，Agarwal等人利用BA通过15万张照片重构了罗马城，在火星探测任务中，NASA利用BA技术生成了火星地图并优化火星探测器的定位精度。

但目前无论是在SLAM中的机器人本地BA计算还是在离线SfM视觉重建应用中，性能和功耗问题仍然是影响BA应用的瓶颈。当前相关优化BA性能的方法很大程度上依赖于并行处理或分布式计算，其以高功耗换取更高的性能。

发明内容

本发明的目的在于克服上述现有技术的不足，而提供一种基于Zynq FPGA的光束平差法硬件加速器，通过同时优化系统的性能和功效，通过FPGA的并行计算来提嵌入式中光束平差法的计算速度，同时能够节省BA计算所消耗的能量。

为实现本发明的目的所采用的技术方案是：

一种基于Zynq FPGA的光束平差法硬件加速器，其光束平差法中的舒尔消除、雅各比矩阵更新和成本函数计算部分在Zynq的PL端通过电路设计实现，其他部分在Zynq的PS端通过软件编程实现；

加速器PL端根据算法拆分两个硬件电路，舒尔消除使用单独硬件，雅各比矩阵更新和成本函数计算共享同一硬件；

加速器内部电路形成不同的计算单元，计算单元之间采用FPGA片上双端口RAM进行数据传递，计算单元内部采用有限状态机，通过状态的转换来控制每步数据的读入、读出和存储；

雅各比矩阵更新和成本函数计算模块通过采用解析微分和自动微分相结合的方式求取雅各比矩阵并同时计算成本函数。

本发明可以利用共视优化技术降低片上RAM消耗，可以通过复制多个SPU，SchurPE，PRPE以提升硬件加速器的并行度。本发明通过FPGA的并行计算来实现光束平差法加速，性能比嵌入式平台快7.56倍，相比Intel与ARM处理器分别节约76.33％，51.49％的能量。

附图说明

图1是本发明基于Zynq FPGA的光束平差法加速器的硬件架构框图；

图2是本发明舒尔消除加速模块的硬件结构图；

图3是本发明舒尔消除加速模块中SPU的硬件结构图；

图4是本发明雅各比矩阵更新和成本函数计算模块的硬件结构图。

图5是本发明雅各比矩阵更新和成本函数计算模块中CRPE的硬件结构图。

图6是本发明雅各比矩阵更新和成本函数计算模块中PRPE的硬件结构图。

具体实施方式

以下结合附图和具体实施例对本发明作进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，本发明基于Zynq FPGA的光束平差法硬件加速器，光束平差法中的舒尔消除、雅各比矩阵更新和成本函数计算部分在Zynq的PL端通过电路设计实现，其他部分在Zynq的PS端通过软件编程实现；

本发明的加速器可以应用于SLAM，也可应运动恢复结构SfM问题，经测试求解BA问题中，雅各比矩阵更新，舒尔消除和成本函数计算。在本发明测试中，三者之和可达到总计算时长的80％以上。优化方法使用经典求解BA的Levenberg-Marquardt(LM)算法。

本发明的基于Zynq FPGA的光束平差法加速器如图1所示，其Zynq芯片分为PS与PL两部分，其中PL部分上实现了舒尔消除，雅各比矩阵的更新和成本函数的计算，其中雅各比矩阵的更新和成本函数计算使用同一模块同时完成，PS部分实现了其余计算。

本发明中，加速器的舒尔消除模块根据算法拆分成两个部分，分别为舒尔消除处理单元(SchurPE)和累加单元(AU)两部分，舒尔消除处理单元计算舒尔消除中的S矩阵和r向量的中间值，累加单元通过加法树将中间值相加得到最后输出的S矩阵和r向量。在舒尔消除模块中，可以通过复制SchurPE内部中的SPU或者SchurPE的数量增加计算的并行度，提升计算速度。

所述SchurPE内部根据算法的数据依赖性拆分为四个计算阶段，第一阶段计算

和

第二阶段求取矩阵U_i的逆inv，第三阶段计算第四阶段需要的中间变量-W_ij×inv，第四阶段完成-W_ij×inv×g_i和

的计算，并在S矩阵和r向量的相应位置上做累加。SchurPE中第四阶段SPU完成

的计算，其计算量最大，采用全并行的矩阵乘，如图2。

所述AU先计算S矩阵对角线

在将该对角线和每个SchurPE计算出来的S矩阵和r向量的对应位置相加得到最后输出的S矩阵和r向量。SchurPE中四个计算阶段的产生的中间变量存储在片上RAM中或寄存器堆中，同时扩展计算阶段之间的RAM大小形成Ping-pong缓冲的结构以提升计算并行度。

本发明中，加速器的雅各比矩阵更新和成本函数计算模块，根据算法拆分成两个部分，分别为相机旋转处理单元(CRPE)和三维点投影处理单元(PRPE)。

软件算法为了计算的一致性，同时输入相机参数和三维点位置计算投影位置，计算每个点的每一次投影位置都需要计算相机的旋转，这样就造成了不同点在同一相机投影下对相机旋转矩阵的重复计算，而硬件设计就避免了这一缺陷。CRPE计算相机的旋转矩阵及它们相对于旋转向量的偏导数，PRPE根据输入的三维点位置和CRPE的计算结果计算J，D，∈和成本函数值。计算过程采用解析微分与自动微分相结合的方式，通过时分复用硬件资源使用同一电路计算雅各比矩阵和成本函数值。

CRPE的硬件架构如附图5所示，通过罗德里格斯公式将旋转向量转换为旋转矩阵，由于需要求雅各比矩阵，还需要求得旋转矩阵R对旋转向量ω的偏导数。由于相机的数目远远小于观测的数目，CRPE计算量先对来说非常小，所需的计算的时间较短，CRPE模块设计近似采用串行执行以节约计算资源，根据计算的数据的依赖性划分为了两个部分四个计算阶段，第一部分两个阶段主要通过输入的旋转矢量r计算旋转角θ；其中为保证计算精度通过坐标旋转数字计算方法(CORDIC)计算θ的三角函数值sinθ和cosθ；第二部分两个阶段进行该公式中剩余的乘加操作，为了平衡CRPE中四个计算阶段的延时，将该公式中最后一项的向量乘r^T r提前到第一阶段进行计算。四个计算阶段的产生的中间变量存储在片上RAM中或寄存器堆中，同时扩展计算阶段之间的RAM大小形成Ping-pong缓冲的结构以提升计算的并行度。第四阶段将所有相机的旋转矩阵计算结果R和其余的相机参数存储到片上RAM中，供后续RPP模块读取计算。同时为完成更新雅各比矩阵的功能CRPE，通过时分复用的方法，计算了旋转矩阵R对旋转向量ω的偏导数。

PRPE的硬件架构如附图6所示，根据输入相机参数和三维点的世界坐标计算点在相机平面的投影位置与实际投影位置的误差和投影位置对点坐标的偏导数，并同时计算对角矩阵D^T D和成本函数值

与RMP相似，RPP也根据计算的数据依赖性分为了五个部分共八个计算阶段，其中不同的部分根据计算量的大小和数据的依懒性，拆分为1～3个计算阶段以平衡计算延迟，增加计算速度，每个两个阶段之间的数据交互也通过片上RAM。第一部分一个计算阶段计算三维点在相机坐标系下的位置X_c,Y_c,Z_c；第二部分两个阶段计算点投影在归一化坐标平面的位置x^*,y^*；第三部分三个计算阶段计算投影在归一化平面上径向失真的大小d^*；第四部分一个计算阶段先计算含有失真的投影的位置u,v，再根据输入的观测值的真实值计算重投影与实际投影的残差∈和雅各比矩阵J，最后一部分一个计算阶段通过使用乘累加计算LM算法的对角矩阵D和成本函数值

由于硬件设计的时分复用思想，在PRPE中，每一阶段除了计算函数值之外，还计算了它们相对于点三维空间位置的偏导数，以更新雅各比矩阵。

同时改进软件算法，使用猜测执行，在LM算法计算p_new处成本函数值的同时，计算了在p_new处的雅各比矩阵J，对角矩阵D以及残差∈，根据LM算法的增益比ρ来确定LM下一次迭代输入的数据时新的J，D，∈，还是旧的J，D，∈。加速器设计中可复制多个PRPE模块以提升系统处理并行度，减少系统计算时间。

同时加速器采用了共视优化技术，通过共视值设计硬件，节约两个加速模块的RAM的消耗。光束平差法是指计算的相机参数和三维空间点的位置，即移动机器人的轨迹和地图结构。BA旨在将三维空间点在图片上的真实投影位置与它根据输入参数计算出的预测投影位置之间的差异最小化来达到优化参数的目的。假设p_i为第i个三维点的位置，c_j为第j张图片的相机参数，o_ij为第i个三维点在第j张图片上的真实的位置，P(p_i，c_j)为投影函数，在BA问题中，由于空间物体遮挡等原因，一个三维空间点并不会被所有的相机观测到，当一个被在两个或多个相机观测到时称这两个相机之间存在共视。

本发明中，定义三维点共视相机集合V_i表征点p_i被哪些相机观测到了，同时定义共视值CO_i＝card(V_i)来表征共视相机集合的大小。

则光束平差法的成本函数可以被描述为：

Levenberg-Marquardt(LM)算法是一种非线性最小二乘法，被广泛用于寻找非线性函数的局部最小值。其是一种基于信任域的算法，因为每次寻找的步长不一定能较小成本函数，在每次迭代计算新候选点p_new后，需要根据新的成本值和旧的成本值判定是否接受新的候选点p_new，同时计算新一次迭代的信任域半径。在BA问题中，求解步长方程中矩阵含有特殊结构，可以使用舒尔消除的方法减少计算量。此时算法可以被拆分为雅各比矩阵更新，舒尔消除，Cholesky分解求解δp和信任域评估四部分。已知重投影误差函数的雅各比矩阵J，重投影误差(残差向量)∈，信任域矩阵D^T D信任域半径μ，舒尔消除可被描述为：

下面对该硬件架构进行测试，下面对测试方法进行介绍：

根据设计的硬件结构，在Xilinx Vivado 2017.04上编写RTL代码并综合实现，再下载到XilinxZC706开发板上进行板级调试。舒尔消除模块所能达到的时最大钟频率为208MHz，雅各比矩阵更新与成本函数计算模块中CRPE和PRPE所能达到的最大时钟频率分别为143MHz和268MHz。就硬件设计的资源利用率、加速比和功耗三方面，本发明进行了性能评估。评估所使用的的数据集为BundleAdjustment in the Large。

资源利用率：由Xilinx Vivado综合实现后得到，数据精度使用单精度浮点数。

运行时间：软件实现选用来自于Google的开源的Ceres-Solver最优化库，使用双精度浮点数编译。X86平台选用Inteli5-8400，主频为2.8GHz，ARM平台选用Zynq-7000芯片中的ARMCortex-A9处理器，主频为667MHz。

功率消耗：通过XilinxPowerEstimator计算的功率值。

所述的加速器测试结果如下：

硬件加速器消耗的硬件资源：查找表96671，占44.22％；触发器111991，占25.62％，BRAM 509.5，占93.49％，DSP 456，占50.67％。

Intel x86，ARM和FPGA平台在测试使用的五个数据集上BA的平均执行时间分别为86.334ms，1825.960ms和241.550ms，FPGA平台的性能是ARM平台的7.56倍，可以达到嵌入式实时建图的要求。在三个平台能量平均消耗分别为5611.723mJ，2738.941mJ，1328.526mJ，FPGA平台相比Intel，ARM平台节约76.33％，51.49％的能量。

本发明提出的基于ZynqFPGA光束平差法加速器，通过Xilinx Vivado2017.04，将提出的硬件设计在XilinxZC706开发板上综合实现，优点如下：

1.该设计中舒尔消除模块可达到的最高频率为208MHz，雅各比矩阵更新和成本函数计算模块中相机旋转处理单元(CRPE)可达到的最高频率为143MHz，三维点重投影处理单元(PRPE)可达到的最高频率为268MHz；

2.该设计舒尔消除模块可以通过复制多个SchurPE以提升计算并行度；

3.该设计雅各比矩阵更新和成本函数计算模块中可以复制多个PRPE以提升计算并行度；

4.相比嵌入式处理器该设计达7.56倍的加速；

5.同时该设计相比Intel处理器和ARM处理器分别可以减少76.33％和51.49％的能量消耗，可以大幅降低BA计算的能量消耗。

以上所述仅是本发明的优选实施方式，应当指出的是，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于Zynq FPGA的光束平差法硬件加速器，其特征在于，其特征在于，其光束平差法中的舒尔消除、雅各比矩阵更新和成本函数计算部分在Zynq的PL端通过电路设计实现，其他部分在Zynq的PS端通过软件编程实现；

2.根据权利要求1所述基于Zynq FPGA的光束平差法硬件加速器，其特征在于，所述加速器利用共视优化技术节约片上RAM消耗。

3.根据权利要求1所述基于Zynq FPGA的光束平差法硬件加速器，其特征在于，所述的加速器使用猜测执行改进软件算法，在LM算法计算p_new处成本函数值的同时，计算了在p_new处的雅各比矩阵J，对角矩阵D以及残差∈，根据LM算法的增益比ρ来确定LM下一次迭代输入的数据时新的J，D，∈，还是旧的J，D，∈。

4.根据权利要求1所述基于Zynq FPGA的光束平差法硬件加速器，其特征在于，舒尔消除模块根据算法拆分成两个部分，分别为舒尔消除处理单元SchurPE和累加单元AU，舒尔消除处理单SchurPE元计算舒尔消除中的S矩阵和r向量的中间值，累加单元AU通过加法树将中间值相加得到最后输出的S矩阵和r向量；舒尔消除模块中，通过复制舒尔消除处理单元SchurPE内部中的SPU或者SchurPE的数量增加计算并行度，提升计算速度。

5.根据权利要求1所述基于Zynq FPGA的光束平差法硬件加速器，其特征在于，加速器的雅各比矩阵更新和成本函数计算模块，根据算法拆分成两个部分，分别为相机旋转处理单元CRPE和三维点投影处理单元PRPE，相机旋转处理单元CRPE计算相机的旋转矩阵及它们相对于旋转向量的偏导数，三维点投影处理单元PRPE根据输入的三维点位置和相机旋转处理单元CRPE的计算结果计算J，D，∈和成本函数值，计算过程采用解析微分与自动微分相结合的方式，通过时分复用硬件资源使用同一电路计算雅各比矩阵和成本函数值。

6.根据权利要求1所述基于Zynq FPGA的光束平差法硬件加速器，其特征在于，相机旋转处理单元CRPE通过罗德里格斯公式将旋转向量转换为旋转矩阵，分为两个部分四个计算阶段，第一部分两个阶段主要通过输入的旋转矢量r计算旋转角θ；其中为保证计算精度通过坐标旋转数字计算方法(CORDIC)计算θ的三角函数值sinθ和cosθ；第二部分两个阶段进行该公式中剩余的乘加操作，为了平衡CRPE中四个计算阶段的延时，将该公式中最后一项的向量乘r^Tr提前到第一阶段进行计算；其中，四个计算阶段的产生的中间变量存储在片上RAM中或寄存器堆中，同时扩展计算阶段之间的RAM大小形成Ping-pong缓冲的结构以提升计算的并行度，其中，第四阶段将所有相机的旋转矩阵计算结果R和其余的相机参数存储到片上RAM中，供后续三维点投影处理单元PRPE读取计算；同时为完成更新雅各比矩阵的功能，相机旋转处理单元CRPE通过时分复用的方法，计算了旋转矩阵R对旋转向量ω的偏导数；

三维点投影处理单元PRPE，根据输入相机参数和三维点的世界坐标计算点在相机平面的投影位置与实际投影位置的误差和投影位置对点坐标的偏导数，并同时计算对角矩阵D^TD和成本函数值

根据计算的数据依赖性分为了五个部分共八个计算阶段，其中不同的部分根据计算量的大小和数据的依懒性，拆分为1～3个计算阶段以平衡计算延迟，增加计算速度，每个两个阶段之间的数据交互也通过片上RAM，其中，第一部分一个计算阶段计算三维点在相机坐标系下的位置X_c,Y_c,Z_c；第二部分两个阶段计算点投影在归一化坐标平面的位置x^*,y^*；第三部分三个计算阶段计算投影在归一化平面上径向失真的大小d^*；第四部分一个计算阶段先计算含有失真的投影的位置u,v，再根据输入的观测值的真实值计算重投影与实际投影的残差∈和雅各比矩阵J，最后一部分一个计算阶段通过使用乘累加计算LM算法的对角矩阵D和成本函数值

在三维点投影处理单元PRPE中，每一阶段除了计算函数值之外，还计算了它们相对于点三维空间位置的偏导数，以更新雅各比矩阵。