CN110928605A - 一种基于Zynq FPGA的光束平差法硬件加速器 - Google Patents

一种基于Zynq FPGA的光束平差法硬件加速器 Download PDF

Info

Publication number
CN110928605A
CN110928605A CN201911113742.4A CN201911113742A CN110928605A CN 110928605 A CN110928605 A CN 110928605A CN 201911113742 A CN201911113742 A CN 201911113742A CN 110928605 A CN110928605 A CN 110928605A
Authority
CN
China
Prior art keywords
calculation
cost function
matrix
accelerator
hardware
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911113742.4A
Other languages
English (en)
Other versions
CN110928605B (zh
Inventor
刘强
秦书臻
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201911113742.4A priority Critical patent/CN110928605B/zh
Publication of CN110928605A publication Critical patent/CN110928605A/zh
Application granted granted Critical
Publication of CN110928605B publication Critical patent/CN110928605B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/448Execution paradigms, e.g. implementations of programming paradigms
    • G06F9/4498Finite state machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/76Architectures of general purpose stored program computers
    • G06F15/78Architectures of general purpose stored program computers comprising a single central processing unit
    • G06F15/7896Modular architectures, e.g. assembled from a number of identical packages

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开基于Zynq FPGA的光束平差法硬件加速器,光束平差法中的舒尔消除、雅各比矩阵更新和成本函数计算部分在Zynq的PL端通过电路设计实现,其他部分在Zynq的PS端通过软件编程实现;加速器PL端根据算法拆分两个硬件电路,舒尔消除使用单独硬件,雅各比矩阵更新和成本函数计算共享同一硬件;加速器内部电路形成不同的计算单元,计算单元之间采用FPGA片上双端口RAM进行数据传递,计算单元内部采用有限状态机,通过状态的转换来控制每步数据的读入、读出和存储;雅各比矩阵更新和成本函数计算模块通过采用解析微分和自动微分相结合的方式求取雅各比矩阵并同时计算成本函数。本发明可大幅降低BA计算能量消耗。

Description

一种基于Zynq FPGA的光束平差法硬件加速器
技术领域
本发明涉及硬件加速器技术领域,特别是涉及一种基于Zynq FPGA的光束平差法硬件加速器。
背景技术
光束平差法(Bundle Adjustment,BA)通过同时优化相机参数和三维空间特征点位置来获得最优的视觉重建效果。最优意味着通过最小化量化模型的来找到最优的参数估计值,两者的同时优化意味着无论是三维空间特征点和相机的参数而言,其估计值都是最优的。广泛应用于三维立体场景的重建和同步定位和地图构建(SLAM)。BA的目标是通过最小化重投影误差来找到最优的参数估计,即三维空间点位置和相机参数。该误差被定义为观察到的特征位置与根据输入参数计算点在相机图像平面上位置差的L2范数。
BA是移动机器人视觉系统的重要组成部分,Mur-Artal等人设计了使用BA来优化三维空间结构SLAM系统ORB-SLAM,Agarwal等人利用BA通过15万张照片重构了罗马城,在火星探测任务中,NASA利用BA技术生成了火星地图并优化火星探测器的定位精度。
但目前无论是在SLAM中的机器人本地BA计算还是在离线SfM视觉重建应用中,性能和功耗问题仍然是影响BA应用的瓶颈。当前相关优化BA性能的方法很大程度上依赖于并行处理或分布式计算,其以高功耗换取更高的性能。
发明内容
本发明的目的在于克服上述现有技术的不足,而提供一种基于Zynq FPGA的光束平差法硬件加速器,通过同时优化系统的性能和功效,通过FPGA的并行计算来提嵌入式中光束平差法的计算速度,同时能够节省BA计算所消耗的能量。
为实现本发明的目的所采用的技术方案是:
一种基于Zynq FPGA的光束平差法硬件加速器,其光束平差法中的舒尔消除、雅各比矩阵更新和成本函数计算部分在Zynq的PL端通过电路设计实现,其他部分在Zynq的PS端通过软件编程实现;
加速器PL端根据算法拆分两个硬件电路,舒尔消除使用单独硬件,雅各比矩阵更新和成本函数计算共享同一硬件;
加速器内部电路形成不同的计算单元,计算单元之间采用FPGA片上双端口RAM进行数据传递,计算单元内部采用有限状态机,通过状态的转换来控制每步数据的读入、读出和存储;
雅各比矩阵更新和成本函数计算模块通过采用解析微分和自动微分相结合的方式求取雅各比矩阵并同时计算成本函数。
本发明可以利用共视优化技术降低片上RAM消耗,可以通过复制多个SPU,SchurPE,PRPE以提升硬件加速器的并行度。本发明通过FPGA的并行计算来实现光束平差法加速,性能比嵌入式平台快7.56倍,相比Intel与ARM处理器分别节约76.33%,51.49%的能量。
附图说明
图1是本发明基于Zynq FPGA的光束平差法加速器的硬件架构框图;
图2是本发明舒尔消除加速模块的硬件结构图;
图3是本发明舒尔消除加速模块中SPU的硬件结构图;
图4是本发明雅各比矩阵更新和成本函数计算模块的硬件结构图。
图5是本发明雅各比矩阵更新和成本函数计算模块中CRPE的硬件结构图。
图6是本发明雅各比矩阵更新和成本函数计算模块中PRPE的硬件结构图。
具体实施方式
以下结合附图和具体实施例对本发明作进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,本发明基于Zynq FPGA的光束平差法硬件加速器,光束平差法中的舒尔消除、雅各比矩阵更新和成本函数计算部分在Zynq的PL端通过电路设计实现,其他部分在Zynq的PS端通过软件编程实现;
加速器PL端根据算法拆分两个硬件电路,舒尔消除使用单独硬件,雅各比矩阵更新和成本函数计算共享同一硬件;
加速器内部电路形成不同的计算单元,计算单元之间采用FPGA片上双端口RAM进行数据传递,计算单元内部采用有限状态机,通过状态的转换来控制每步数据的读入、读出和存储;
雅各比矩阵更新和成本函数计算模块通过采用解析微分和自动微分相结合的方式求取雅各比矩阵并同时计算成本函数。
本发明的加速器可以应用于SLAM,也可应运动恢复结构SfM问题,经测试求解BA问题中,雅各比矩阵更新,舒尔消除和成本函数计算。在本发明测试中,三者之和可达到总计算时长的80%以上。优化方法使用经典求解BA的Levenberg-Marquardt(LM)算法。
本发明的基于Zynq FPGA的光束平差法加速器如图1所示,其Zynq芯片分为PS与PL两部分,其中PL部分上实现了舒尔消除,雅各比矩阵的更新和成本函数的计算,其中雅各比矩阵的更新和成本函数计算使用同一模块同时完成,PS部分实现了其余计算。
本发明中,加速器的舒尔消除模块根据算法拆分成两个部分,分别为舒尔消除处理单元(SchurPE)和累加单元(AU)两部分,舒尔消除处理单元计算舒尔消除中的S矩阵和r向量的中间值,累加单元通过加法树将中间值相加得到最后输出的S矩阵和r向量。在舒尔消除模块中,可以通过复制SchurPE内部中的SPU或者SchurPE的数量增加计算的并行度,提升计算速度。
所述SchurPE内部根据算法的数据依赖性拆分为四个计算阶段,第一阶段计算
Figure BDA0002273486000000041
Figure BDA0002273486000000042
Figure BDA0002273486000000043
第二阶段求取矩阵Ui的逆inv,第三阶段计算第四阶段需要的中间变量-Wij×inv,第四阶段完成-Wij×inv×gi
Figure BDA0002273486000000044
的计算,并在S矩阵和r向量的相应位置上做累加。SchurPE中第四阶段SPU完成
Figure BDA0002273486000000045
的计算,其计算量最大,采用全并行的矩阵乘,如图2。
所述AU先计算S矩阵对角线
Figure BDA0002273486000000046
在将该对角线和每个SchurPE计算出来的S矩阵和r向量的对应位置相加得到最后输出的S矩阵和r向量。SchurPE中四个计算阶段的产生的中间变量存储在片上RAM中或寄存器堆中,同时扩展计算阶段之间的RAM大小形成Ping-pong缓冲的结构以提升计算并行度。
本发明中,加速器的雅各比矩阵更新和成本函数计算模块,根据算法拆分成两个部分,分别为相机旋转处理单元(CRPE)和三维点投影处理单元(PRPE)。
软件算法为了计算的一致性,同时输入相机参数和三维点位置计算投影位置,计算每个点的每一次投影位置都需要计算相机的旋转,这样就造成了不同点在同一相机投影下对相机旋转矩阵的重复计算,而硬件设计就避免了这一缺陷。CRPE计算相机的旋转矩阵及它们相对于旋转向量的偏导数,PRPE根据输入的三维点位置和CRPE的计算结果计算J,D,∈和成本函数值。计算过程采用解析微分与自动微分相结合的方式,通过时分复用硬件资源使用同一电路计算雅各比矩阵和成本函数值。
CRPE的硬件架构如附图5所示,通过罗德里格斯公式将旋转向量转换为旋转矩阵,由于需要求雅各比矩阵,还需要求得旋转矩阵R对旋转向量ω的偏导数。由于相机的数目远远小于观测的数目,CRPE计算量先对来说非常小,所需的计算的时间较短,CRPE模块设计近似采用串行执行以节约计算资源,根据计算的数据的依赖性划分为了两个部分四个计算阶段,第一部分两个阶段主要通过输入的旋转矢量r计算旋转角θ;其中为保证计算精度通过坐标旋转数字计算方法(CORDIC)计算θ的三角函数值sinθ和cosθ;第二部分两个阶段进行该公式中剩余的乘加操作,为了平衡CRPE中四个计算阶段的延时,将该公式中最后一项的向量乘rT r提前到第一阶段进行计算。四个计算阶段的产生的中间变量存储在片上RAM中或寄存器堆中,同时扩展计算阶段之间的RAM大小形成Ping-pong缓冲的结构以提升计算的并行度。第四阶段将所有相机的旋转矩阵计算结果R和其余的相机参数存储到片上RAM中,供后续RPP模块读取计算。同时为完成更新雅各比矩阵的功能CRPE,通过时分复用的方法,计算了旋转矩阵R对旋转向量ω的偏导数。
PRPE的硬件架构如附图6所示,根据输入相机参数和三维点的世界坐标计算点在相机平面的投影位置与实际投影位置的误差和投影位置对点坐标的偏导数,并同时计算对角矩阵DT D和成本函数值
Figure BDA0002273486000000051
与RMP相似,RPP也根据计算的数据依赖性分为了五个部分共八个计算阶段,其中不同的部分根据计算量的大小和数据的依懒性,拆分为1~3个计算阶段以平衡计算延迟,增加计算速度,每个两个阶段之间的数据交互也通过片上RAM。第一部分一个计算阶段计算三维点在相机坐标系下的位置Xc,Yc,Zc;第二部分两个阶段计算点投影在归一化坐标平面的位置x*,y*;第三部分三个计算阶段计算投影在归一化平面上径向失真的大小d*;第四部分一个计算阶段先计算含有失真的投影的位置u,v,再根据输入的观测值的真实值计算重投影与实际投影的残差∈和雅各比矩阵J,最后一部分一个计算阶段通过使用乘累加计算LM算法的对角矩阵D和成本函数值
Figure BDA0002273486000000061
由于硬件设计的时分复用思想,在PRPE中,每一阶段除了计算函数值之外,还计算了它们相对于点三维空间位置的偏导数,以更新雅各比矩阵。
同时改进软件算法,使用猜测执行,在LM算法计算pnew处成本函数值的同时,计算了在pnew处的雅各比矩阵J,对角矩阵D以及残差∈,根据LM算法的增益比ρ来确定LM下一次迭代输入的数据时新的J,D,∈,还是旧的J,D,∈。加速器设计中可复制多个PRPE模块以提升系统处理并行度,减少系统计算时间。
同时加速器采用了共视优化技术,通过共视值设计硬件,节约两个加速模块的RAM的消耗。光束平差法是指计算的相机参数和三维空间点的位置,即移动机器人的轨迹和地图结构。BA旨在将三维空间点在图片上的真实投影位置与它根据输入参数计算出的预测投影位置之间的差异最小化来达到优化参数的目的。假设pi为第i个三维点的位置,cj为第j张图片的相机参数,oij为第i个三维点在第j张图片上的真实的位置,P(pi,cj)为投影函数,在BA问题中,由于空间物体遮挡等原因,一个三维空间点并不会被所有的相机观测到,当一个被在两个或多个相机观测到时称这两个相机之间存在共视。
本发明中,定义三维点共视相机集合Vi表征点pi被哪些相机观测到了,同时定义共视值COi=card(Vi)来表征共视相机集合的大小。
则光束平差法的成本函数可以被描述为:
Figure BDA0002273486000000062
Levenberg-Marquardt(LM)算法是一种非线性最小二乘法,被广泛用于寻找非线性函数的局部最小值。其是一种基于信任域的算法,因为每次寻找的步长不一定能较小成本函数,在每次迭代计算新候选点pnew后,需要根据新的成本值和旧的成本值判定是否接受新的候选点pnew,同时计算新一次迭代的信任域半径。在BA问题中,求解步长方程中矩阵含有特殊结构,可以使用舒尔消除的方法减少计算量。此时算法可以被拆分为雅各比矩阵更新,舒尔消除,Cholesky分解求解δp和信任域评估四部分。已知重投影误差函数的雅各比矩阵J,重投影误差(残差向量)∈,信任域矩阵DT D信任域半径μ,舒尔消除可被描述为:
Figure BDA0002273486000000071
下面对该硬件架构进行测试,下面对测试方法进行介绍:
根据设计的硬件结构,在Xilinx Vivado 2017.04上编写RTL代码并综合实现,再下载到XilinxZC706开发板上进行板级调试。舒尔消除模块所能达到的时最大钟频率为208MHz,雅各比矩阵更新与成本函数计算模块中CRPE和PRPE所能达到的最大时钟频率分别为143MHz和268MHz。就硬件设计的资源利用率、加速比和功耗三方面,本发明进行了性能评估。评估所使用的的数据集为BundleAdjustment in the Large。
资源利用率:由Xilinx Vivado综合实现后得到,数据精度使用单精度浮点数。
运行时间:软件实现选用来自于Google的开源的Ceres-Solver最优化库,使用双精度浮点数编译。X86平台选用Inteli5-8400,主频为2.8GHz,ARM平台选用Zynq-7000芯片中的ARMCortex-A9处理器,主频为667MHz。
功率消耗:通过XilinxPowerEstimator计算的功率值。
所述的加速器测试结果如下:
硬件加速器消耗的硬件资源:查找表96671,占44.22%;触发器111991,占25.62%,BRAM 509.5,占93.49%,DSP 456,占50.67%。
Intel x86,ARM和FPGA平台在测试使用的五个数据集上BA的平均执行时间分别为86.334ms,1825.960ms和241.550ms,FPGA平台的性能是ARM平台的7.56倍,可以达到嵌入式实时建图的要求。在三个平台能量平均消耗分别为5611.723mJ,2738.941mJ,1328.526mJ,FPGA平台相比Intel,ARM平台节约76.33%,51.49%的能量。
本发明提出的基于ZynqFPGA光束平差法加速器,通过Xilinx Vivado2017.04,将提出的硬件设计在XilinxZC706开发板上综合实现,优点如下:
1.该设计中舒尔消除模块可达到的最高频率为208MHz,雅各比矩阵更新和成本函数计算模块中相机旋转处理单元(CRPE)可达到的最高频率为143MHz,三维点重投影处理单元(PRPE)可达到的最高频率为268MHz;
2.该设计舒尔消除模块可以通过复制多个SchurPE以提升计算并行度;
3.该设计雅各比矩阵更新和成本函数计算模块中可以复制多个PRPE以提升计算并行度;
4.相比嵌入式处理器该设计达7.56倍的加速;
5.同时该设计相比Intel处理器和ARM处理器分别可以减少76.33%和51.49%的能量消耗,可以大幅降低BA计算的能量消耗。
以上所述仅是本发明的优选实施方式,应当指出的是,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (6)

1.一种基于Zynq FPGA的光束平差法硬件加速器,其特征在于,其特征在于,其光束平差法中的舒尔消除、雅各比矩阵更新和成本函数计算部分在Zynq的PL端通过电路设计实现,其他部分在Zynq的PS端通过软件编程实现;
加速器PL端根据算法拆分两个硬件电路,舒尔消除使用单独硬件,雅各比矩阵更新和成本函数计算共享同一硬件;
加速器内部电路形成不同的计算单元,计算单元之间采用FPGA片上双端口RAM进行数据传递,计算单元内部采用有限状态机,通过状态的转换来控制每步数据的读入、读出和存储;
雅各比矩阵更新和成本函数计算模块通过采用解析微分和自动微分相结合的方式求取雅各比矩阵并同时计算成本函数。
2.根据权利要求1所述基于Zynq FPGA的光束平差法硬件加速器,其特征在于,所述加速器利用共视优化技术节约片上RAM消耗。
3.根据权利要求1所述基于Zynq FPGA的光束平差法硬件加速器,其特征在于,所述的加速器使用猜测执行改进软件算法,在LM算法计算pnew处成本函数值的同时,计算了在pnew处的雅各比矩阵J,对角矩阵D以及残差∈,根据LM算法的增益比ρ来确定LM下一次迭代输入的数据时新的J,D,∈,还是旧的J,D,∈。
4.根据权利要求1所述基于Zynq FPGA的光束平差法硬件加速器,其特征在于,舒尔消除模块根据算法拆分成两个部分,分别为舒尔消除处理单元SchurPE和累加单元AU,舒尔消除处理单SchurPE元计算舒尔消除中的S矩阵和r向量的中间值,累加单元AU通过加法树将中间值相加得到最后输出的S矩阵和r向量;舒尔消除模块中,通过复制舒尔消除处理单元SchurPE内部中的SPU或者SchurPE的数量增加计算并行度,提升计算速度。
5.根据权利要求1所述基于Zynq FPGA的光束平差法硬件加速器,其特征在于,加速器的雅各比矩阵更新和成本函数计算模块,根据算法拆分成两个部分,分别为相机旋转处理单元CRPE和三维点投影处理单元PRPE,相机旋转处理单元CRPE计算相机的旋转矩阵及它们相对于旋转向量的偏导数,三维点投影处理单元PRPE根据输入的三维点位置和相机旋转处理单元CRPE的计算结果计算J,D,∈和成本函数值,计算过程采用解析微分与自动微分相结合的方式,通过时分复用硬件资源使用同一电路计算雅各比矩阵和成本函数值。
6.根据权利要求1所述基于Zynq FPGA的光束平差法硬件加速器,其特征在于,相机旋转处理单元CRPE通过罗德里格斯公式将旋转向量转换为旋转矩阵,分为两个部分四个计算阶段,第一部分两个阶段主要通过输入的旋转矢量r计算旋转角θ;其中为保证计算精度通过坐标旋转数字计算方法(CORDIC)计算θ的三角函数值sinθ和cosθ;第二部分两个阶段进行该公式中剩余的乘加操作,为了平衡CRPE中四个计算阶段的延时,将该公式中最后一项的向量乘rTr提前到第一阶段进行计算;其中,四个计算阶段的产生的中间变量存储在片上RAM中或寄存器堆中,同时扩展计算阶段之间的RAM大小形成Ping-pong缓冲的结构以提升计算的并行度,其中,第四阶段将所有相机的旋转矩阵计算结果R和其余的相机参数存储到片上RAM中,供后续三维点投影处理单元PRPE读取计算;同时为完成更新雅各比矩阵的功能,相机旋转处理单元CRPE通过时分复用的方法,计算了旋转矩阵R对旋转向量ω的偏导数;
三维点投影处理单元PRPE,根据输入相机参数和三维点的世界坐标计算点在相机平面的投影位置与实际投影位置的误差和投影位置对点坐标的偏导数,并同时计算对角矩阵DTD和成本函数值
Figure FDA0002273485990000021
根据计算的数据依赖性分为了五个部分共八个计算阶段,其中不同的部分根据计算量的大小和数据的依懒性,拆分为1~3个计算阶段以平衡计算延迟,增加计算速度,每个两个阶段之间的数据交互也通过片上RAM,其中,第一部分一个计算阶段计算三维点在相机坐标系下的位置Xc,Yc,Zc;第二部分两个阶段计算点投影在归一化坐标平面的位置x*,y*;第三部分三个计算阶段计算投影在归一化平面上径向失真的大小d*;第四部分一个计算阶段先计算含有失真的投影的位置u,v,再根据输入的观测值的真实值计算重投影与实际投影的残差∈和雅各比矩阵J,最后一部分一个计算阶段通过使用乘累加计算LM算法的对角矩阵D和成本函数值
Figure FDA0002273485990000031
在三维点投影处理单元PRPE中,每一阶段除了计算函数值之外,还计算了它们相对于点三维空间位置的偏导数,以更新雅各比矩阵。
CN201911113742.4A 2019-11-14 2019-11-14 一种基于Zynq FPGA的光束平差法硬件加速器 Active CN110928605B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911113742.4A CN110928605B (zh) 2019-11-14 2019-11-14 一种基于Zynq FPGA的光束平差法硬件加速器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911113742.4A CN110928605B (zh) 2019-11-14 2019-11-14 一种基于Zynq FPGA的光束平差法硬件加速器

Publications (2)

Publication Number Publication Date
CN110928605A true CN110928605A (zh) 2020-03-27
CN110928605B CN110928605B (zh) 2023-05-02

Family

ID=69852952

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911113742.4A Active CN110928605B (zh) 2019-11-14 2019-11-14 一种基于Zynq FPGA的光束平差法硬件加速器

Country Status (1)

Country Link
CN (1) CN110928605B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112949240A (zh) * 2021-03-22 2021-06-11 梁文毅 一种集中参数模型多物理场耦合仿真方法
CN113177877A (zh) * 2021-04-13 2021-07-27 浙江大学 一种面向slam后端优化的舒尔消除加速器
CN114116557A (zh) * 2021-11-15 2022-03-01 同济大学 基于硬件加速器与数字信号处理器的信道估计装置及方法
CN117237181A (zh) * 2023-11-08 2023-12-15 深圳市其域创新科技有限公司 基于自动微分的光束平差计算方法、装置、设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103325124A (zh) * 2012-03-21 2013-09-25 东北大学 一种基于fpga的背景差分法目标检测跟踪系统及方法
JP2015210677A (ja) * 2014-04-25 2015-11-24 国立大学法人 東京大学 情報処理装置および情報処理方法
CN106228238A (zh) * 2016-07-27 2016-12-14 中国科学技术大学苏州研究院 现场可编程门阵列平台上加速深度学习算法的方法和系统
CN106803271A (zh) * 2016-12-23 2017-06-06 成都通甲优博科技有限责任公司 一种视觉导航无人机的摄像机标定方法及装置
CN109397294A (zh) * 2018-12-05 2019-03-01 南京邮电大学 一种基于ba-abc融合通信算法的机器人协作定位方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103325124A (zh) * 2012-03-21 2013-09-25 东北大学 一种基于fpga的背景差分法目标检测跟踪系统及方法
JP2015210677A (ja) * 2014-04-25 2015-11-24 国立大学法人 東京大学 情報処理装置および情報処理方法
CN106228238A (zh) * 2016-07-27 2016-12-14 中国科学技术大学苏州研究院 现场可编程门阵列平台上加速深度学习算法的方法和系统
CN106803271A (zh) * 2016-12-23 2017-06-06 成都通甲优博科技有限责任公司 一种视觉导航无人机的摄像机标定方法及装置
CN109397294A (zh) * 2018-12-05 2019-03-01 南京邮电大学 一种基于ba-abc融合通信算法的机器人协作定位方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HAOMIN LIU; MINGYU CHEN; GUOFENG ZHANG; HUJUN BAO; YINGZE BAO: "ICE-BA: Incremental, Consistent and Efficient Bundle Adjustment for Visual-Inertial SLAM" *
SHUZHEN QIN,QIANG LIU,BO YU,SHAOSHAN LIU: "π-BA: Bundle Adjustment Acceleration on Embedded FPGAs with Co-observation Optimization" *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112949240A (zh) * 2021-03-22 2021-06-11 梁文毅 一种集中参数模型多物理场耦合仿真方法
CN112949240B (zh) * 2021-03-22 2023-08-01 梁文毅 一种集中参数模型多物理场耦合仿真方法
CN113177877A (zh) * 2021-04-13 2021-07-27 浙江大学 一种面向slam后端优化的舒尔消除加速器
CN114116557A (zh) * 2021-11-15 2022-03-01 同济大学 基于硬件加速器与数字信号处理器的信道估计装置及方法
CN114116557B (zh) * 2021-11-15 2024-02-27 同济大学 基于硬件加速器与数字信号处理器的信道估计装置及方法
CN117237181A (zh) * 2023-11-08 2023-12-15 深圳市其域创新科技有限公司 基于自动微分的光束平差计算方法、装置、设备及介质
CN117237181B (zh) * 2023-11-08 2024-03-29 深圳市其域创新科技有限公司 基于自动微分的光束平差计算方法、装置、设备及介质

Also Published As

Publication number Publication date
CN110928605B (zh) 2023-05-02

Similar Documents

Publication Publication Date Title
CN110928605A (zh) 一种基于Zynq FPGA的光束平差法硬件加速器
Rahnama et al. Real-time dense stereo matching with ELAS on FPGA-accelerated embedded devices
Liu et al. $\pi $ π-BA: Bundle Adjustment Hardware Accelerator Based on Distribution of 3D-Point Observations
KR102378887B1 (ko) 객체 탐지에서의 둘레기반 IoU 손실함수를 통한 효율적인 바운딩 박스 회귀 학습 방법 및 장치
Boikos et al. A high-performance system-on-chip architecture for direct tracking for SLAM
CN111311632A (zh) 一种物体位姿跟踪方法、装置及设备
US20220261650A1 (en) Machine learning training in logarithmic number system
US20210350230A1 (en) Data dividing method and processor for convolution operation
CN111707262B (zh) 基于最近点向量投影的点云匹配方法、介质、终端和装置
Shiri et al. An FPGA implementation of singular value decomposition
CN111028125B (zh) 一种用于slam的已知自身位姿的光束平差法fpga加速器
CN113779779A (zh) 优化掩模的方法、设备和计算机可读存储介质
CN111369549A (zh) 数字图像变形表征方法、装置、电子设备及介质
Idris et al. A co-processor design to accelerate sequential monocular SLAM EKF process
Hu et al. Estimating gray intensities for saturated speckle to improve the measurement accuracy of digital image correlation
Taranco et al. A low-power hardware accelerator for ORB feature extraction in self-driving cars
Liu et al. An energy efficient and runtime reconfigurable accelerator for robotic localization
Karakaya et al. Wave computer core using fixed-point arithmetic
Schlessman et al. Tailoring design for embedded computer vision applications
Xin et al. Order analysis comparison between traditional fourier transform-based atmospheric turbulence compensation methods and new well optimized linear finder methodology
Kisačanin et al. Algorithmic and software techniques for embedded vision on programmable processors
Dutt et al. Low-Complexity Square-Root Unscented Kalman Filter Design Methodology
CN112907669A (zh) 基于共面特征点的相机位姿测量方法及装置
Ram et al. Least-squares fitting of analytic primitives on a GPU
Chan et al. Implementation and evaluation of a pothole detection system on TI C6678 digital signal processor

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant