CN117853649A

CN117853649A - 基于sfm和渲染技术的图像-位姿数据库生成方法及装置

Info

Publication number: CN117853649A
Application number: CN202311624789.3A
Authority: CN
Inventors: 潘晨; 宛敏红; 张春龙; 郑涛; 李特; 原崧育; 周洋
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2023-11-30
Filing date: 2023-11-30
Publication date: 2024-04-09

Abstract

本发明公开了一种基于SFM和渲染技术的图像‑位姿数据库生成方法及装置，该方法包括：使用图像采集设备采集多组图像，并进行三维重建，获取图像的位姿；采用图像渲染方法对图像位姿进行迭代优化，生成三维模型的渲染图像，获取真实图像和渲染图像的匹配结果以及真实图像和三维模型的匹配结果，进行PnP算法位姿求解得到优化位姿；构建图像‑位姿数据库。本发明仅使用普通相机和软件算法层面的三维重建和渲染技术，实现了低成本全自动构建高精度的采集图像‑位姿数据库；可用于视觉定位算法的运行和评估，对机器人、自动驾驶等领域具有重要意义；降低了硬件成本和人力资源投入，为视觉定位算法研究和应用提供了有力支持。

Description

基于SFM和渲染技术的图像-位姿数据库生成方法及装置

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种基于SFM和渲染技术的图像-位姿数据库生成方法及装置。

背景技术

近年来，伴随着工业商业的需求，自动驾驶汽车、自主导航机器人等领域蓬勃发展。在这些领域中，机体的自主定位方法成为了一个关键性问题。有一种成本较为低廉的定位方法，具体是：首先离线建立周边环境的图像-位姿数据库，然后使用一个或多个相机来采集实时图像，通过图像检索、图像匹配、位姿求解等技术来估计机体的当前位置和姿态。在这种方法中，建立图像-位姿数据库是一件非常必要的工作，由于对图像对应位姿的高精度要求，需要高精度且昂贵的采集设备采集图像，然后图像-位姿的标注通常需要手动对齐完成，需要耗费大量的人力物力，极其增加方案成本，成本过高难以批量生成。

发明内容

本发明的目的在于针对现有技术中图像采集设备昂贵以及需要手动标注位姿而导致的高成本难以批量生成的问题，提供一种基于SFM和渲染技术的图像-位姿数据库生成方法及装置。本发明可以仅使用相机采集图像，能够全自动生成图像与其位姿的精确关系，有助于减少成本。

本发明的目的是通过以下技术方案来实现的：本发明实施例第一方面提供了一种基于SFM和渲染技术的图像-位姿数据库生成方法，包括以下步骤：

(1)使用图像采集设备沿着采集环境呈多层阵列式采集多组图像，并对图像进行三维重建，得到三维模型，以获取每一张图像的位姿；

(2)采用图像渲染的方法对步骤(1)获取的图像的位姿进行优化，首先使用三维渲染工具将三维重建好的三维模型加载到渲染系统的渲染引擎中；然后将渲染系统中的虚拟相机的内参设置为与图像采集设备的内参相同，将渲染系统中的虚拟相机的外参设置为步骤(1)获取的图像的位姿作为初始位姿；再使用虚拟相机对三维模型进行投影渲染，以生成渲染图像；其次对步骤(1)采集到的真实图像和渲染图像进行图像匹配，以获取2D-2D匹配结果；再根据2D-2D匹配结果，通过渲染图像重投影的方式，找到对应的三维模型上的三维点，进行PnP算法位姿求解得到优化位姿；

(3)重复步骤(2)中提到的初始位姿设置、生成图像渲染、图像匹配、位姿优化，对单张图像进行N次迭代，在每次迭代后计算位姿的变化量，直至位姿的变化量小于预设的变化量阈值，获得以三维模型作为世界坐标系，真实图像与三维模型的位姿关系，并根据真实图像与三维模型的位姿关系构建图像-位姿数据库。

进一步地，所述图像采集设备为相机。

进一步地，所述步骤(1)中采集的多组图像覆盖完整的采集环境，相邻两张图像之间的画面重叠区域大于等于50％。

进一步地，所述步骤(1)中对图像进行三维重建，以获取每一张图像的位姿，具体包括：采集到多组图像之后，将其作为输入，运行三维重建算法，输出三维模型；其中三维重建算法对所有的图像两两进行匹配，三角化计算三维模型坐标点，同时进行非线性优化，之后三维重建算法运行栅格化贴片、法向量估计对三维模型的表面进行重建，以获取一个由三维模型坐标点以及三维模型面片组成的三维模型，以获取每张参与计算的图像的位姿。

进一步地，所述三维渲染工具为OpenGL工具。

进一步地，所述渲染引擎包括OGRE、Blender和Unity。

进一步地，所述对步骤(1)采集到的真实图像和渲染图像进行图像匹配，以获取2D-2D匹配结果；再根据2D-2D匹配结果，通过渲染图像重投影的方式，找到对应的三维模型上的三维点，进行PnP算法位姿求解得到优化位姿，具体包括：首先使用图像匹配方法对步骤(1)采集到的真实图像和渲染图像进行图像匹配，获取2D-2D匹配结果；然后根据2D-2D匹配结果，以渲染图像作为中间桥梁，根据步骤(1)获取的真实图像的位姿确定对应的渲染图像的位姿，通过光线投影关系，找到像素点发出的光线与三维模型的交叉点，得到三维模型上的三维点的坐标；对于渲染图像上所有的像素点，都通过上述方式获取三维模型上的三维点，以构建真实图像和三维模型的2D-3D匹配结果；最后将多个2D-3D匹配结果输入PnP算法中获取真实图像的优化位姿。

进一步地，所述图像匹配方法包括使用SIFT传统算子的图像匹配方法和使用SuperGlue神经网络算子的图像匹配方法。

本发明实施例第二方面提供了一种基于SFM和渲染技术的图像-位姿数据库生成装置，包括一个或多个处理器和存储器，所述存储器与所述处理器耦接；其中，所述存储器用于存储程序数据，所述处理器用于执行所述程序数据以实现上述的基于SFM和渲染技术的图像-位姿数据库生成方法。

本发明实施例第三方面提供了一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，用于实现上述的基于SFM和渲染技术的图像-位姿数据库生成方法。

本发明的有益效果是，本发明仅使用相机作为图像采集装置，相机作为成本最低廉的传感器，能够大幅降低数据库的生成成本；同时采用三维重建和渲染技术，使用渲染图像作为桥梁，全自动的不断优化真实图像和三维模型之间的位姿关系，能够达到较高的位姿精度，有利于提高位姿精度，将真实图像和优化后的位姿构成图像-位姿数据库；本发明不需要人工标注位姿，可以全自动流程化，克服了视觉定位中，建立高精度图像-位姿数据库带来的高昂成本问题，降低了硬件成本和人力资源的投入成本。

附图说明

图1是本发明的基于SFM和渲染技术的图像-位姿数据库生成方法的流程图；

图2是本发明的基于SFM和渲染技术的图像-位姿数据库生成方法的流程示意图；

图3是本发明的多层圆形阵列图像采集方法的流程示意图；

图4是本发明的基于渲染技术的位姿求解方法的流程示意图；

图5是本发明的基于SFM和渲染技术的图像-位姿数据库生成装置的一种结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。显而易见地，下面描述中使用的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

在本发明使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本发明可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本发明范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

下面结合附图，对本发明进行详细说明。在不冲突的情况下，下述的实施例及实施方式中的特征可以相互组合。

本发明所述的基于SFM(Structure From Motion，运动结构恢复)和渲染技术的图像-位姿数据库生成方法以三维重建后的三维模型作为世界坐标的真值，使用迭代优化的方式，将采集到的多组图像对齐到三维模型上，使在处理视觉定位时可以使用真实成像的图像以及获取其在三维模型中的位姿数据作为评价用真值。

参见图1，本发明的基于SFM和渲染技术的图像-位姿数据库生成方法，具体包括以下步骤：

(1)使用图像采集设备沿着采集环境呈多层阵列式采集多组图像，并对图像进行三维重建，以获取每一张图像的位姿。

进一步地，图像采集设备为相机，相机为普通的相机、无人机上的相机等，相机作为成本最低廉的传感器，能够大幅降低图像采集的成本。

进一步地，相邻两张图像之间的画面重叠区域大于等于50％。

具体地，针对采集环境即需要建图的环境，室内室外均可，使用无人机或普通相机以多层阵列式采集图像的方式进行采集，采集多组图像，采集到的多组图像能够覆盖完整的采集环境。

应当理解的是，可以按照多层圆形阵列式采集多组图像，如图3所示；当然，圆形图像阵列只是一个参考，实际操作时并不需要按照严格的圆形来操作，也不需要按照图3所示的图像个数进行采集，只需要保证采集到的多组图像能够覆盖完整的建图环境即可。同时需要注意的是，相邻两张图像必须包含大于等于50％的画面重叠区域。按照如此方式采集多组图像可以保证三维重建的成功率和覆盖率，若未按照上述操作说明采集多组图像，会导致三维重建后的三维模型残缺、重影等，会导致最终数据库失败例子大幅增加，位姿不准确，使得大部分图像-位姿数据处于不可用状态。

进一步地，对图像进行三维重建，以获取每一张图像的位姿，具体包括：如图2所示，采集到多组图像之后，将其作为输入，运行三维重建算法，输出三维模型。其中，三维重建算法对所有的图像两两进行匹配，三角化计算三维模型坐标点，同时进行非线性优化使得重投影误差最小；随后三维重建算法会运行栅格化贴片、法向量估计等对三维模型的表面进行重建；最终获得一个由计算出的三维模型坐标点以及三维模型面片组成的三维模型，同时也可以获得每张参与计算的图像的位姿。

需要说明的是，本实施例中的三维重建算法可以采用公知的三维重建算法，例如，KinectFusio算法、BundleFusion算法等，KinectFusio算法提供了开源算法，同时也有成熟的产品如大疆无人机可以实现将图像输入算法中，得到三维模型和图像位姿。

应当理解的是，理想情况下，三维重建的重投影误差很小，获得的三维模型质量很高，计算得到的图像位姿也比较准确。但一般情况下，由于光照、采集角度导致图像本身质量较差的影响，在弱纹理、无纹理区域采集的影响等等，三维重建算法计算出来的模型总是有误差的，获得的图像位姿并不十分准确。如果此时直接使用该位姿作为采集图像的真值位姿来使用，会导致后续定位算法的评估不可信，因此，需要对图像位姿进行优化。

(2)采用图像渲染的方法对步骤(1)获取的图像的位姿进行优化，首先使用三维渲染工具将三维重建好的三维模型加载到渲染系统的渲染引擎中；然后将渲染系统中的虚拟相机的内参设置为与图像采集设备的内参相同，将渲染系统中的虚拟相机的外参设置为步骤(1)获取的图像的位姿作为初始位姿，记作R0；再使用虚拟相机对三维模型进行投影渲染，以生成渲染图像；其次对步骤(1)采集到的真实图像和渲染图像进行图像匹配，以获取2D-2D匹配结果；再根据2D-2D匹配结果，通过渲染图像重投影的方式，找到对应的三维模型上的三维点，进行PnP(Perspective-n-Point)算法位姿求解得到优化位姿，记为R1。

应当理解的是，PnP算法是一个常用的成熟的算法，输入为N对2D-3D点对，通过相机投影公式构建矩阵，求解该矩阵即可得到相机的位姿；至少3对正确的2D-3D点对就可以求解出相机图像的位姿。将渲染图像作为一个桥梁，找到真实图像上的2D点和三维模型中的3D点的对应关系(即它们表示的是空间中的同一个物理点)，如此便可通过PnP算法求解真实图像在三维空间中的位置和姿态。相机的位姿可以连接三维模型上的三维点和二维图像(即作为桥梁的渲染图像)中的二维点，已知一个三维点、真实图像位姿，就能够求得该相机拍摄的图像上这个三维点所在的位置。由于点的位置也是有误差的(这部分误差的来源有图像匹配中的误差、三维重建中的误差、相机拍摄的误差、渲染系统的误差等等)，所以需要通过这样一步一步迭代的方法，来优化2D-3D点对的位置，从而优化相机图像的位姿。

进一步地，三维渲染工具为OpenGL工具，使用OpenGL工具即可将三维重建好的三维模型加载入渲染系统中。

进一步地，渲染引擎包括但不限于：OGRE、Blender和Unity等。

需要说明的是，由于在图像采集和三维重建的过程中势必会存在误差，会导致三维重建过程中计算获取的图像位姿并不一定准确，因此，不能直接将三维重建获取的图像位姿作为采集图像的真值位姿来使用，但伴随着计算机虚拟技术的发展，可以在虚拟空间中做任何旋转、移动操作，因此有了优化采集图像位姿的机会，即使用图像渲染的方法对图像位姿进行优化。

具体地，如图4中提供的基于渲染技术的位姿求解方法的流程示意图所示，采用图像渲染的方法对步骤(1)获取的图像的位姿进行优化：首先使用三维渲染工具即OpenGL工具将三维重建好的三维模型加载到渲染系统的渲染引擎中。然后在渲染系统中新建一个虚拟相机，将真实使用的相机的焦距、视场角等参数输入进虚拟相机，即将虚拟相机的内参设置为与图像采集设备的内参相同，外参设置为步骤(1)获取的图像的位姿作为初始位姿，记作R0。再在此参数设置下，使用虚拟相机的渲染功能对三维模型进行投影渲染，即可得到三维模型在虚拟相机上的成像，即生成的渲染图像。

应当理解的是，不同的角度对三维模型进行投影渲染，所生成的渲染图像不同，生成的渲染图像是一个2D图像。由于此时真实图像和渲染图像的视角非常相似，因此对真实图像和渲染图像进行图像匹配的成功率是非常高的。

需要说明的是，在一些特殊情况下，相同的参数下虚拟相机渲染得到的渲染图像与采集到的真实图像不完全一致，这是由于虚拟相机无法完全做到与真实相机匹配，因此渲染出来的图像不能和真实相机的成像效果完全一致，因此无法直接使用渲染图像和真实图像一致这条原则来判断位姿的准确性，故需要使用图像匹配方法构建2D-3D匹配求解位姿的方式来优化位姿的准确度。

进一步地，对步骤(1)采集到的真实图像和渲染图像进行图像匹配，以获取2D-2D匹配结果；再根据2D-2D匹配结果，通过渲染图像重投影的方式，找到对应的三维模型上的三维点，进行PnP算法位姿求解得到优化位姿，具体包括：首先使用图像匹配方法对步骤(1)采集到的真实图像和渲染图像进行图像匹配，获取2D-2D匹配结果；然后根据2D-2D匹配结果，以渲染图像作为中间桥梁，根据步骤(1)获取的真实图像的位姿确定对应的渲染图像的位姿，通过光线投影关系，找到像素点发出的光线与三维模型的交叉点，得到三维模型上的三维点的坐标；对于渲染图像上所有的像素点，都通过上述方式获取三维模型上的三维点，以构建真实图像和三维模型的2D-3D匹配结果；最后将多个2D-3D匹配结果输入PnP算法中获取真实图像的优化位姿。当然，在一些重建密度较低，渲染图像上有空洞或三维模型上有空洞的情况，可以忽略这些落在空洞上的匹配对，因为2D-3D匹配理论上仅需要4对匹配点即可计算出高精度的位姿结果。通过渲染图像和真实图像之间的匹配操作，可以获得一个新的精度更高的位姿。

应当理解的是，步骤(1)三维重建后输出的是真实图像的位姿，该位姿是有误差的粗略位姿，通过该位姿和渲染系统可以得到与其对应的渲染图像，使用图像匹配方法对真实图像和渲染图像进行匹配，得到真实图像和渲染图像的匹配对，即2D-2D匹配结果；由于真实图像和渲染图像的2D-2D匹配结果，故根据真实图像的位姿即可得到渲染图像的位姿，其中将真实图像的粗略位姿作为渲染图像的位姿；之后以渲染图像作为中间桥梁，得到真实图像和三维模型的2D-3D匹配结果，渲染图像和三维模型的位姿是已知的，这个位姿同时也是真实图像的位姿，同时这个位姿也是有误差的，所以在得到多个2D-3D匹配结果之后，需要将其作为PnP算法的输入优化单个图像的位姿，获取真实图像的优化位姿。

进一步地，图像匹配方法包括使用SIFT(Scale Invariant Feature Transform)等传统算子的图像匹配方法和使用SuperGlue(Learning feature matching with graphneural networks)等神经网络算子的图像匹配方法，使用这些图像匹配方法可以对真实图像和渲染图像做自动的图像匹配。应当理解的是，由于渲染图像是使用真实图像的位姿构造虚拟相机渲染得到，视野与真实图像是非常相似的，因此使用自动图像匹配方法的成功率较高；对于那些失败的图像，可以忽略不计。

需要说明的是，当相同的参数下虚拟相机渲染得到的渲染图像与采集到的真实图像不完全一致时，可以手动微调虚拟相机内参，保证渲染图像和真实图像的视野范围相差不超过画面的1/6即可。因为在步骤(2)中，渲染图像仅作为三维模型和真实图像之间的桥梁，即真实图像中的点A与渲染图像中的点B对应，同时渲染图像中的点B与三维模型中的点C对应，能够得到点A与点C对应，点B的位置误差被忽略了；1/6的视野范围的限制是因为在图像匹配中，视野范围相近能够得到更好的匹配效果，获得更多的正确匹配点。

(3)重复步骤(2)中提到的初始位姿设置、生成图像渲染、图像匹配、位姿优化，对单张图像进行N次迭代，在每次迭代后计算位姿的变化量，直至位姿的变化量小于预设的变化量阈值，此时的优化位姿记为Rn，获得以三维模型作为世界坐标系，真实图像与三维模型的精确位姿关系，并根据真实图像与三维模型的精确位姿关系构建图像-位姿数据库。

应当理解的是，仅一次的匹配优化带来的位姿精度提升是有限的，对于精度要求高的情况，可通过多次迭代优化图像位姿。

具体地，重复步骤(2)中的操作，即初始位姿设置、生成图像渲染、图像匹配、位姿优化，在每一次操作后计算位姿的变化量，当位姿的变化量趋于不变时，即位姿的变化量小于预设的变化量阈值如1e-3，可认为已经获得了一个较稳定和准确的位姿结果，此时的优化位姿记为Rn，自此，我们优化了真实图像相对于三维模型的位姿结果，将其提升到一个准确度较高的状态。获得了以三维模型作为世界坐标系，真实图像与三维模型的精确位姿关系。再根据真实图像与三维模型的精确位姿关系构建图像-位姿数据库，使得由真实图像和优化位姿构成的图像-位姿数据库能够有准确的对应关系，作为视觉定位算法的评价方案也具有较高的可信度。本发明仅使用相机作为图像采集装置，相机作为成本最低廉的传感器，能够大幅降低数据库的生成成本；同时采用三维重建和渲染技术，使用渲染图像作为桥梁，全自动的不断优化真实图像和三维模型之间的位姿关系，能够达到较高的位姿精度，有利于提高位姿精度，将真实图像和优化后的位姿构成图像-位姿数据库；本发明不需要人工标注位姿，可以全自动流程化，克服了视觉定位中，建立高精度图像-位姿数据库带来的高昂成本问题，降低了硬件成本和人力资源的投入成本。

与前述基于SFM和渲染技术的图像-位姿数据库生成方法的实施例相对应，本发明还提供了基于SFM和渲染技术的图像-位姿数据库生成装置的实施例。

参见图5，本发明实施例提供的一种基于SFM和渲染技术的图像-位姿数据库生成装置，包括一个或多个处理器和存储器，存储器与处理器耦接；其中，存储器用于存储程序数据，处理器用于执行程序数据以实现上述实施例中的基于SFM和渲染技术的图像-位姿数据库生成方法。

本发明基于SFM和渲染技术的图像-位姿数据库生成装置的实施例可以应用在任意具备数据处理能力的设备上，该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图5所示，为本发明基于SFM和渲染技术的图像-位姿数据库生成装置所在任意具备数据处理能力的设备的一种硬件结构图，除了图5所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本发明实施例还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述实施例中的基于SFM和渲染技术的图像-位姿数据库生成方法。

所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备，例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card，SMC)、SD卡、闪存卡(Flash Card)等。进一步的，所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

以上实施例仅用于说明本发明的设计思想和特点，其目的在于使本领域内的技术人员能够了解本发明的内容并据以实施，本发明的保护范围不限于上述实施例。所以，凡依据本发明所揭示的原理、设计思路所作的等同变化或修饰，均在本发明的保护范围之内。

Claims

1.一种基于SFM和渲染技术的图像-位姿数据库生成方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于SFM和渲染技术的图像-位姿数据库生成方法，其特征在于，所述图像采集设备为相机。

3.根据权利要求1所述的基于SFM和渲染技术的图像-位姿数据库生成方法，其特征在于，所述步骤(1)中采集的多组图像覆盖完整的采集环境，相邻两张图像之间的画面重叠区域大于等于50％。

4.根据权利要求1所述的基于SFM和渲染技术的图像-位姿数据库生成方法，其特征在于，所述步骤(1)中对图像进行三维重建，以获取每一张图像的位姿，具体包括：采集到多组图像之后，将其作为输入，运行三维重建算法，输出三维模型；其中三维重建算法对所有的图像两两进行匹配，三角化计算三维模型坐标点，同时进行非线性优化，之后三维重建算法运行栅格化贴片、法向量估计对三维模型的表面进行重建，以获取一个由三维模型坐标点以及三维模型面片组成的三维模型，以获取每张参与计算的图像的位姿。

5.根据权利要求1所述的基于SFM和渲染技术的图像-位姿数据库生成方法，其特征在于，所述三维渲染工具为OpenGL工具。

6.根据权利要求1所述的基于SFM和渲染技术的图像-位姿数据库生成方法，其特征在于，所述渲染引擎包括OGRE、Blender和Unity。

7.根据权利要求1所述的基于SFM和渲染技术的图像-位姿数据库生成方法，其特征在于，所述对步骤(1)采集到的真实图像和渲染图像进行图像匹配，以获取2D-2D匹配结果；再根据2D-2D匹配结果，通过渲染图像重投影的方式，找到对应的三维模型上的三维点，进行PnP算法位姿求解得到优化位姿，具体包括：首先使用图像匹配方法对步骤(1)采集到的真实图像和渲染图像进行图像匹配，获取2D-2D匹配结果；然后根据2D-2D匹配结果，以渲染图像作为中间桥梁，根据步骤(1)获取的真实图像的位姿确定对应的渲染图像的位姿，通过光线投影关系，找到像素点发出的光线与三维模型的交叉点，得到三维模型上的三维点的坐标；对于渲染图像上所有的像素点，都通过上述方式获取三维模型上的三维点，以构建真实图像和三维模型的2D-3D匹配结果；最后将多个2D-3D匹配结果输入PnP算法中获取真实图像的优化位姿。

8.根据权利要求1或7所述的基于SFM和渲染技术的图像-位姿数据库生成方法，其特征在于，所述图像匹配方法包括使用SIFT传统算子的图像匹配方法和使用SuperGlue神经网络算子的图像匹配方法。

9.一种基于SFM和渲染技术的图像-位姿数据库生成装置，包括一个或多个处理器和存储器，其特征在于，所述存储器与所述处理器耦接；其中，所述存储器用于存储程序数据，所述处理器用于执行所述程序数据以实现权利要求1-8中任一项所述的基于SFM和渲染技术的图像-位姿数据库生成方法。

10.一种计算机可读存储介质，其特征在于，其上存储有程序，该程序被处理器执行时，用于实现权利要求1-8中任一项所述的基于SFM和渲染技术的图像-位姿数据库生成方法。