CN116228992B

CN116228992B - 基于视觉定位系统模型的不同类型图像的视觉定位方法

Info

Publication number: CN116228992B
Application number: CN202310506380.5A
Authority: CN
Inventors: 张广思; 冯建亮; 朱必亮; 李俊
Original assignee: Speed China Technology Co Ltd
Current assignee: Speed China Technology Co Ltd
Priority date: 2023-05-08
Filing date: 2023-05-08
Publication date: 2023-07-21
Anticipated expiration: 2043-05-08
Also published as: CN116228992A

Abstract

本发明公开了一种基于视觉定位系统模型的不同类型图像的视觉定位方法，步骤为：S1图像采集：通过图像采集设备采集图像，获得多种格式的图像，创建图像数据库；S2动态构建三维模型：对不同的图像格式分别进行提取和处理，并进行三维稀疏模型的训练，生成对应的三维稀疏模型和图像数据集；再进行三维重建，生成对应的三维重建模型和图像特征的数据库文件；S3视觉定位：在服务器端结合当前的图像采集设备的参数和图像数据集进行重定位，输出图像在三维空间的图像位姿数据信息。该基于视觉定位系统模型的不同类型图像的视觉定位方法能够处理不同格式的图像数据，更改不同的体系结构，同时验证不同的图像的数据格式提升整体的建模效率。

Description

基于视觉定位系统模型的不同类型图像的视觉定位方法

技术领域

本发明涉及视觉定位技术领域，具体涉及一种基于视觉定位系统模型的不同类型图像的视觉定位方法。

背景技术

基于VPS即Visual Positioning System(视觉定位系统)模型的图像训练方法，单目视觉仅用一支摄像头就能完成视觉定位系统。最大的优点是传感器简单且成本低廉，但同时也有个大问题，就是不能确切的得到深度，存在尺寸不确定的现象，比如丢失深度信息的相片，根据把图像数据处理成JPG和PNG的通用的格式，进行三维模型重建，根据重建的模型数据，启动视觉定位系统。

一方面是由于绝对深度未知，单目实时定位与导航系统不能得到机器人运动轨迹及地图的真实大小，假如轨迹和房间同时放大两倍，单目显示的像是一样，单目视觉只能估计一个相对深度。此外，单目相机无法依靠一张图像获得图像中物体离自己的相对距离。为了估计相对深度，单目SLAM要靠运动中的三角测量，来求解相机运动并估计像素的空间位置。即是说，它的轨迹和地图，在相机运动之后才能收敛，如果相机不进行运动，就无法得知像素的位置。同时，相机运动不能是纯粹的旋转，这给单目视觉系统的应用带来问题。

OpenXR的视觉定位的框架，目前只支持苹果手机获取空间的视频流二进制数据，为了开发图像和手机的通用性。新开发的视觉定位系统(VPS)通过进行三维重建的过程中检索不同的图像的格式，根据筛选出不同的图像的格式，比如图像格式(PNG)和图像格式(JPG)等通用的图像进行图像处理，三维重建的过程中，同时支持安卓手机的图像录制和数据处理，不同格式图像处理的效率上有很大的提升。

目前，视觉定位系统需要给定几张图片，根据图像的数据信息，获取图像在整个三维的空间中的位姿信息。从序列的一组2D图像中推算3D信息的过程。在这个过程中，我们最终的目的是通过算法分析出目标图像中所涵盖的运动信息，从而恢复出呈现在3D空间的位姿信息。为了优化视觉定位系统以及使用的多样性，检索不同的图像的格式，根据筛选出不同的图像的格式，比如图像格式(PNG)和图像格式(JPG)图像处理，促进三维重建的过程中，使不同的图像处理的效率有很大的提升。

OpenXR的视觉定位的框架，基于苹果手机获取空间的视频流二进制数据，根据视频流数据进行三维模型的构建，这个过程中会使用图像的检索，根据图像单独的计算出相机的数据信息，整个过程中只支持特定的二进制视频流格式，整个过程的数据处理，根据三维重建和重定位的处理过程，获取对应的图像在三维空间的数据信息。

目前基于OpenXR的视觉定位模型，这个模型根据录制的视频文件只支持IPHONE，在使用的过程中，数据格式比较单一，不具有使用的通用性，苹果手机的成本高，苹果手机系统被开源的技术限制等。

发明内容

本发明要解决的技术问题是提出一种基于视觉定位系统模型的不同类型图像的视觉定位方法，能够处理不同格式的图像数据，更改不同的体系结构，同时验证不同的图像的数据格式提升整体的建模的效率。

为了解决上述技术问题，本发明采用的技术方案是：该基于视觉定位系统模型的不同类型图像的视觉定位方法，具体包括以下步骤：

S1图像采集：通过图像采集设备采集图像，获得多种格式的图像，形成图像数据集，即创建图像数据库；

S2动态构建三维模型：采用运动结构法则对不同格式的图像格式分别进行提取和处理，并进行三维稀疏模型的训练，生成对应的三维稀疏模型和生成图像数据集；再进行三维重建，生成对应的三维重建模型和图像特征的数据库文件；

S3视觉定位：在服务器端结合当前的图像采集设备的参数和图像数据集进行重定位，输出图像在三维空间的图像位姿数据信息。

采用上述技术方案，使用场景的视频流，根据视频流的不同的多种图像格式分别进行三维稀疏模型的构建，生成图像数据集，构建三维稀疏模型之前首先进行图像的特征采集，图像的特征进行匹配，把图像进行稀疏模型的构建，三角化测量计算三维图像的在二维图像的投影获得2D的特征点；对不同图像格式使用与之对应的图像处理方式，解决不同的图像的数据类型以及图像采集设备的不同类型的问题，方便在最后的视觉定位的系统中生成图像在系统中的位姿信息，该方法包括数据的建模和数据的重定位功能，对收集到一系列的数据进行图像检索、特征提取、特验证、三维重建、遍历图像数据存储成图像二进制(images.bin)格式、光束平差法(BA)优化，定位(localization)数据重定位功能，更改不同的体系结构，同时验证不同的图像的数据格式提升整体的建模的效率。

优选地，在所述步骤S1中通过在不同环境中，使用图像采集设备录制视频流数据，再对视频流数据进行处理，生成JPG格式图像和PNG格式图像。图像采集设备包括安卓系统的相机和苹果系统的相机。

优选地，所述步骤S2中对JPG格式图像和PNG格式图像分别采用相同的方法进行动态构建三维模型，具体步骤为：

S21特征提取：从所述步骤S1中采集的图像中提取图像特征，获得特征集合；

S22特征匹配：对提取的图像特征进行特征匹配，并对匹配的特征关系进行几何验证；

S23构建稀疏模型：使用采集的场景的视频流，根据视频流的图像格式，进行对应的三维稀疏模型的构建，生成图像数据集；

S24三维重建：再将对场景中的点进行三角化处理，过滤异常值，并且使用光束平差法对重建进行优化；再通过三维稀疏模型将植入仔细选择的双视角重建，递增注册新图像，获得三维重建模型和图像特征的数据库文件。三维重建(structure from motion)即从运动(motion)中恢复结构(structure)是对三维重建算法的统称，在鲁棒性和准确性，实时性方面有了很大的提升；运动结构法则是一系列不同角度拍摄的图像进行三维重建的生成过程。运动结构法则是具有迭代重构组件的顺序处理管道；先进行特征(feature)提取和特征匹配，然后进行几何验证。特征(feature)提取和特征匹配是重建的基础，之后模型讲植入仔细选择的双视角重建，然后再递增注册新图像之前，将对场景中的点进行三角化处理，过滤异常值，并且使用光束平差法对重建进行优化。

优选地，所述步骤S21的具体步骤为：对于每个图像I_i，运动结构法则均检测到一个用以表示位置在X_j的特征集合，记为：F_i＝{(x_j,f_j)∣j＝1…N_Fi}，其中，f_j为位置X_j的对应的特征，j为遍历的次数，N_Fi最大的次数；再对特征进行提取并进行约束。对特征进行约束后对辐射和几何变化下应该是不变的，使得运动结构法则可以在不同的图像中唯一识别他们；特征提取和其衍生特征点以及最新了解的那些特征点在鲁棒性方面是事实标准，另外，二进制特征损失部分鲁棒性提高效率。

优选地，所述步骤S22的具体步骤为：

S221：通过运动结构法则利用特征集合F_i作为图像的外观描述，寻找具有相同场景的图像，基于特征集合F_i建立一个相似度的度量，为图像I_b中的每个特征找到在图像I_a中的对应特征来搜索对应的特征点，获得图像I_b中的特征对应关系；

S222：输出一组具有重叠关系的图像对和所述图像对之间的关联特征对应的关系矩阵，通过所述关系矩阵对所述图像对关联的特征对应关系的一致性进行几何验证；

S223：采用随机采样一致性算法消除异常值的影响，并输出通过几何验证的图像对以及所述图像对的几何关系的描述。

优选地，所述步骤S222中输出的一组具有重叠关系的图像对为C＝{{I_a,I_b}∣I_a,I_b∈I,a<b}，所述图像对C之间的关联特征对应的关系矩阵为Mab∈F_a×F_b，其中，F_a，F_b分别为图像I_a和图像I_b的特征；运动结构法则通过变换矩阵，使用投影几何图形在所述图像对C之间映射所述图像对C各自的特征点，来验证匹配；若有效的变换矩阵在所述图像对C之间映射出对应的特征，则将这个变换矩阵视为通过了几何验证。根据图像对C的空间配置，不同的映射将描述他们的几何关系，因此基于F_i建立一个相似度的度量，为图像I_b中的每个特征找到在图像I_a中的对应特征来搜索对应的特征点，获得这个图像对C的特征对应关系具有计算复杂度O且不可以用于大型图像的集合；于是有许多方法致力于解决规模和效率的问题，因此通过输出一组可能重叠的图像对C和他们关联的特征对应关系矩阵来验证可能重叠的图像对C关联的特征对应关系一致性，若有效的变换在图像对C之间映射足够的特征，将这个变换视为通过了几何验证。

优选地，在所述步骤S222中的变换矩阵包括单应性矩阵H和对极几何；其中单应性矩阵H用以描述捕获到的平面场景的纯旋转或者纯平移的图像采集设备的转换；对极几何中通过本征矩阵E(已经标定)或者基础矩阵F(未标定)描述运动中图像采集设备的关系，且通过三焦点张量扩展到三个视图。由于配准仅仅是基于外观的，那么不能保证相应的特征实际映射到同一场景点。因此，运动结构法则通过尝试估计一个变换矩阵，该矩阵通过使用投影几何图形在图像对之间映射他们各自的特征点，来验证匹配。根据图像对的空间配置，不同的映射将描述他们的几何关系。单应性矩阵H用以描述捕获到的平面场景的纯旋转或者纯平移的摄像机的转换；三焦点张量在计算机视觉中，是一个3*3*3的数组阵列，并入所有投影中的三个视图的几何关系，他与三个视图中的对应点或线的坐标相关联，这与场景结构无关，并且仅仅取决于三个视图之间的相对运动(即姿态)，以及其固有的校准参数(标定的内参)；三焦点张量可以是三视图中基础矩阵F的推广，其中27个元素，有18个元素是独立的。

优选地，所述步骤S223具体为：首先输出是一组已通过几何验证的图像对以及图像对/>之间关联的对应关系/>同时所述图像对/>的几何关系的描述G_ab具体为：在初始阶段输出场景图作为节点，已通过几何验证的图像对/>作为边缘；在重建阶段输入场景图，输出被配准的图像的姿态估计，记作P，P＝{Pc∈SE(3)∣c＝1…N_p}；其中，SE(3)是李群代数，Pc是图像姿势的变量，Np为自然数，是图像姿势Pc的统计次数；同时输出还包括重建的场景结构，以一组点的形式形成点集合记作X，X＝{X_k∈R3∣k＝1…N_X}，其中，X_k为统计的点，R3为三维的矩阵，k到Nx为对应的累加的次数，N_X为自然数。来自配准的信息一致性经常被异常值影响，采用随机采样一致性算法这类鲁棒的估计方法消除异常影响；同时还可选择一个关于他们几何关系的描述G_ab，因此为了确定适当的关系，初始构建阶段以输出场景图作为节点，已经验证的图像对作为边缘；重建阶段输入场景图，输出被配准的图像的姿态估计。

优选地，所述步骤S23的具体步骤为：

S231初始化：运动结构法则通过选取初始视图进行两视图重建来初始化三维稀疏模型；

S232图像配准：从度量重构开始，使用特征对应关系于已配准的图像(二维到三维的对应)中的三角点，来解决点透视图问题，使得新的图像配准至当前三维稀疏模型，再通过已配准的新的图像的姿势P_c来扩展集合P；

S233三角化：三角化测量并计算三维图像的在二维图像的投影获得2D的特征点；

S234光束平差法：采用光束平差法对图像采集设备的参数及场景点X_k进行联合非线性优化，减少重投影的误差E，获得稀疏的三维重建模型，生成特征点二进制文件(features.bin)、图像的二进制文件(images.bin)、点在空间坐标二进制文件(points3D.bin)；具体公式为：

其中，函数π是指将场景点X_k投影到图像空间；损失函数ρ_j是降低潜在异常值的权重；P_c为已配准的新的图像的姿势；X_j为遍历场景点。

采用上述技术方案，运动结构法则通过精心选择的两视图重建来初始化模型，选择适合的初始图像，否则无法成功重建；此外，重建的鲁棒性，准确性、性能取决于增量过程的种子位置；图像图中的稠密位置，代表这里有很多视角有重叠的相机，开始初始化通常会导致冗余度提高，从而使鲁棒性和准确性更高，相反，由于光速平差法(BA)处理了整个重建过程中累计的稀疏问题，因此从稀疏位置中进行初始化会降低运行时间。从度量重构开始，使用特征对应关系于已配准的图像(二维到三维的对应)中的三角点，来解决点透视图问题，点透视图问题涉及姿态估计，图像的姿势(Pc)和相机的内参；通过配准的新的图像的姿势(Pc)来扩展集合(P)，这里由于二维到三维的对应关系经常被异常值污染，因此通常使用随机采样一致性和最小姿态求解器处理已经标定的相机，对于没标定的相机，会有各种最小求解器，使用一种新颖的鲁棒的下一个最优图像选择方法，用于准确姿态估计和可靠的三角剖分；其中配准、登记指的是将二维图片上的点匹配到三维图像中去。

优选地，所述步骤S233具体为：采用已配准的新的图像通过三角剖分来扩展点集合X，增加场景的覆盖范围；即当图像被配准之后，一个新的场景点X_k则被三角化并同时增加到点集合X中；所述步骤S234中采用列文伯格-马夸尔特算法进行光束平差法的优化，生成图像数据集、图像三维的点数据集和2D的特征点数据集。首先已配准的新的图像具有现有已存在的场景点，通过三角剖分来扩展点集，增加场景覆盖范围。在至少一幅图像或者更多幅图像，不仅覆盖了新的场景部分，并且从一个新的视角覆盖了这个场景部分，当这(些)图像被配准之后，一个新的场景点(X_k)立刻就可以被三角化和增加到点集合(X)中；三角剖分是运动结构法则的关键一步，通过冗余性增加了场景的稳定性，并且通过提供附加的2d-3d对应关系来启用新图像的配准。此外，图像配准和三角化测量是独立的过程，即使他们的输出是高度相关的，相机姿态的不确定性会传播到三角测量的点，反之亦然，附加的三角测量可能会通过增加冗余度来改善相机姿态，如果没有进一步的改进，运动结构法则通常会迅速漂移到不可恢复的状态，因此采用光束平差法进行优化。列文伯格-马夸尔特算法是解决光束平差法问题的首选方法。光束平差法问题中参数的特殊结构，激发了补充技巧，而列文伯格-马夸尔特算法解决简化的相机系统，首先解决简化的相机系统，然后通过反替换来更新点。由于相机的数量通常小于点的数量，因此该方案通常更有效，解决系统有两种选择，精确和不精确的步长算法。精确的算法将整个系统存储为空间复杂度为O稀疏或者稠密矩阵，方法的时间复杂度是O/>不精确的方法近似求解该系统使用迭代求解器(计算方法那类求正规方程)，例如时间、空间复杂度都是O(N_P)。直接的算法是多数相机的首选算法，在大规模的条件下代价还是巨大。尽管稀疏的直接方法在很大程度上减少了整个稀疏问题的复杂程度，由于通常具有更密集的连接图，因此对于大型非结构化图像集是禁止的。在这种情况下，可以选择间接方法。BA将花费大量的时间来优化许多几乎重复的图片。

优选地，所述步骤S24采用图像局部特征聚合方法(VLAD)对采集的图像进行特征提取，再根据训练的三维稀疏模型进行特征提取，生成对应的数据库二进制文件(database.bin)，并存储成二进制数据文件。

优选地，所述步骤S24的具体步骤为：在图像数据集中采集图像特征，使用图像局部特征聚合方法遍历图像数据集，将局部特征描述子的聚合改成1接1卷积，同时将硬性任务改成软性任务，使用图像局部特征聚合算法加载对应的原始图像和该原始图像的二进制文件(images.bin)获取的图像，并保存原始图像和二进制文件获取的图像的共同图像特征到数据库二进制(database.bin)文件中，生成图像特征的数据库文件。

优选地，所述步骤S21特征提取分为使用图像格式数据进行特征提取和使用图像金字塔寻找极值进行特征提取；其中，使用图像格式JPG和PNG数据进行特征提取即使用三维重建的特征提取和描述；使用图像金字塔寻找极值进行特征提取，即通过尺度不变的特征变换和特征检测与描述，确定主方向和256维的描述子，再进行归一化。

与现有技术相比，本发明具有的有益效果为：

(1)通过安卓的手机获取对应的视频或者图像的数据格式进行三维模型的训练；且实现了将不同的数据格式的图像分别进行数据提取和处理，进行视觉定位；

(2)采用光束平差法使相机参数以及场景点集合的联合非线性优化，可以最大限度的减少重投影的误差；

(3)使用图像局部特征聚合方法遍历图像数据集，将局部特征描述子的聚合改成1接1卷积，同时将硬性任务改成软性任务，获得图像特征的数据库文件。

附图说明

图1是本发明基于视觉定位系统模型的不同类型图像的视觉定位方法的流程示意图；

图2是本发明基于视觉定位系统模型的不同类型图像的视觉定位方法的图像采集流程示意图；

图3是本发明基于视觉定位系统模型的不同类型图像的视觉定位方法的使用的PNG格式图像的原数据图；

图4是本发明基于视觉定位系统模型的不同类型图像的视觉定位方法的使用的JPG格式图像的原数据图；

图5是本发明基于视觉定位系统模型的不同类型图像的视觉定位方法的图像处理过程的效果图一；

图6是本发明基于视觉定位系统模型的不同类型图像的视觉定位方法的图像处理过程的效果图二；

图7是本发明基于视觉定位系统模型的不同类型图像的视觉定位方法的通过处理生成bin文件的示意图；

图8是本发明基于视觉定位系统模型的不同类型图像的视觉定位方法的定位输出结果示意图；

图9是本发明基于视觉定位系统模型的不同手机系统图像类型视觉定位方法。

具体实施方式

下面将结合本发明的实施例图中的附图，对本发明实施例中的技术方案进行清楚、完整的描述。

实施例：如图1所示，该基于视觉定位系统模型的不同类型图像的视觉定位方法，具体包括以下步骤：

在所述步骤S1中通过在不同环境中，使用图像采集设备录制视频流数据，再对视频流数据进行处理，生成JPG格式图像和PNG格式图像；在本实施例中图像采集设备为安卓手机的相机或苹果手机的相机，采集的格式支持常规的图像格式，这次开发图像格式分别使用JPG和PNG两种不同的格式；

所述步骤S2中对JPG格式图像和PNG格式图像分别采用相同的方法进行动态构建三维模型，具体步骤为：

S21特征提取：从所述步骤S1中采集的图像中提取图像特征，获得特征集合；所述步骤S21的具体步骤为：对于每个图像I_i，运动结构法则均检测到一个用以表示位置在X_j的特征集合，记为：F_i＝{(x_j,f_j)∣j＝1…N_Fi}，其中，f_j为位置X_j的对应的特征，j为遍历的次数，N_Fi最大的次数；再对特征进行提取并进行约束；对特征进行约束后对辐射和几何变化下应该是不变的，使得运动结构法则可以在不同的图像中唯一识别他们；特征提取和其衍生特征点以及最新了解的那些特征点在鲁棒性方面是事实标准，另外，二进制特征损失部分鲁棒性提高效率；

S22特征匹配：对提取的图像特征进行特征匹配，并对匹配的特征关系进行几何验证；所述步骤S22的具体步骤为：

S221：通过运动结构法则利用特征集合Fi作为图像的外观描述，寻找具有相同场景的图像，基于特征集合F_i建立一个相似度的度量，为图像I_b中的每个特征找到在图像I_a中的对应特征来搜索对应的特征点，获得图像I_b中的特征对应关系；需要说明的是，这里的对应即是找到在图像Ia中的最相似的特征，用来搜索对应的特征点；

所述步骤S222中输出的一组具有重叠关系的图像对为C＝{{I_a,I_b}∣I_a,I_b∈I,a<b}，所述图像对C之间的关联特征对应的关系矩阵为Mab∈F_a×F_b，其中，F_a，F_b分别为图像I_a和图像I_b的特征；运动结构法则通过变换矩阵，使用投影几何图形在所述图像对C之间映射所述图像对C各自的特征点，来验证匹配；若有效的变换矩阵在所述图像对C之间映射出对应的特征，则将这个变换矩阵视为通过了几何验证。根据图像对的空间配置，不同的映射将描述他们的几何关系；基于F_i建立一个相似度的度量，为图像I_b中的每个特征找到在图像I_a中的对应特征来搜索对应的特征点，获得这个图像对的特征对应关系具有计算复杂度O且不可以用于大型图像的集合；于是有许多方法致力于解决规模和效率的问题，因此通过输出一组可能重叠的图像对和他们关联的特征对应关系矩阵来验证可能重叠的图像对关联的特征对应关系一致性，如果有效的变换在图像对之间映射出对应的特征(这里的对应，指的是匹配相似度超过30％，即能形成有效匹配，满足有效的变换矩阵要求)，将这个变换视为通过了几何验证；

在所述步骤S222中的变换矩阵包括单应性矩阵H和对极几何；其中单应性矩阵H用以描述捕获到的平面场景的纯旋转或者纯平移的图像采集设备的转换；对极几何中通过本征矩阵E(已经标定)或者基础矩阵F(未标定)描述运动中图像采集设备的关系，且通过三焦点张量扩展到三个视图。由于配准仅仅是基于外观的，那么不能保证相应的特征实际映射到同一场景点。因此，运动结构法则通过尝试估计一个变换矩阵，该矩阵通过使用投影几何图形在图像对之间映射他们各自的特征点，来验证匹配。根据图像对的空间配置，不同的映射将描述他们的几何关系。单应性矩阵H用以描述捕获到的平面场景的纯旋转或者纯平移的摄像机的转换；三焦点张量在计算机视觉中，是一个3*3*3的数组阵列，并入所有投影中的三个视图的几何关系，他与三个视图中的对应点或线的坐标相关联，这与场景结构无关，并且仅仅取决于三个视图之间的相对运动(即姿态)，以及其固有的校准参数(标定的内参)；三焦点张量可以是三视图中基础矩阵F的推广，其中27个元素，有18个元素是独立的；

S223：采用随机采样一致性算法消除异常值的影响，并输出通过几何验证的图像对以及所述图像对的几何关系的描述；

所述步骤S223具体为：首先输出是一组已通过几何验证的图像对以及图像对/>之间关联的对应关系/>同时所述图像对/>的几何关系的描述G_ab具体为：在初始阶段输出场景图作为节点，已通过几何验证的图像对/>作为边缘；在重建阶段输入场景图，输出被配准的图像的姿态估计，记作P，P＝{Pc∈SE(3)∣c＝1…N_p}；其中，SE(3)是李群代数，Pc是图像姿势的变量，Np为自然数，是图像姿势Pc的统计次数；同时输出还包括重建的场景结构，以一组点的形式形成点集合记作X，X＝{X_k∈R3∣k＝1…N_X}，其中，X_k为统计的点，R3为三维的矩阵，k到Nx为对应的累加的次数，N_X为自然数。来自配准的信息一致性经常被异常值影响，采用随机采样一致性算法这类鲁棒的估计方法消除异常影响；同时还可选择一个关于他们几何关系的描述G_ab，因此为了确定适当的关系，初始构建阶段以输出场景图作为节点，已经验证的图像对作为边缘；重建阶段输入场景图，输出被配准的图像的姿态估计；

所述步骤S23的具体步骤为：

S231初始化：运动结构法则通过选取初始视图进行两视图重建来初始化三维稀疏模型；运动结构法则通过精心选择的两视图重建来初始化模型，选择适合的初始图像，否则无法成功重建；此外，重建的鲁棒性，准确性、性能取决于增量过程的种子位置。图像图中的稠密位置，代表这里有很多视角有重叠的相机，开始初始化通常会导致冗余度提高，从而使鲁棒性和准确性更高，相反，由于光速平差法(BA)处理了整个重建过程中累计的稀疏问题，因此从稀疏位置中进行初始化会降低运行时间；

S233三角化：三角化测量并计算三维图像的在二维图像的投影获得2D的特征点；所述步骤S233具体为：采用已配准的新的图像通过三角剖分来扩展点集合X，增加场景的覆盖范围；即当图像被配准之后，一个新的场景点X_k则被三角化并同时增加到点集合X中；所述步骤S234中采用列文伯格-马夸尔特算法进行光束平差法的优化，生成图像数据集、图像三维的点数据集和2D的特征点数据集；首先已配准的新的图像具有现有已存在的场景点，通过三角剖分来扩展点集，增加场景覆盖范围；在至少一幅图像或者更多幅图像，不仅覆盖了新的场景部分，并且从一个新的视角覆盖了这个场景部分，当这(些)图像被配准之后，一个新的场景点(X_k)立刻就可以被三角化和增加到点集合(X)中；三角剖分是运动结构法则的关键一步，通过冗余性增加了场景的稳定性，并且通过提供附加的2d-3d对应关系来启用新图像的配准。此外，图像配准和三角化测量是独立的过程，即使他们的输出是高度相关的，相机姿态的不确定性会传播到三角测量的点，反之亦然，附加的三角测量可能会通过增加冗余度来改善相机姿态，如果没有进一步的改进，运动结构法则通常会迅速漂移到不可恢复的状态，因此采用光束平差法进行优化。列文伯格-马夸尔特算法是解决光束平差法问题的首选方法，光束平差法问题中参数的特殊结构，激发了补充技巧；列文伯格-马夸尔特算法解决简化的相机系统，然后通过反替换来更新点。由于相机的数量通常小于点的数量，因此该方案通常更有效，解决系统有两种选择，精确和不精确的步长算法。精确的算法将整个系统存储为空间复杂度为O稀疏或者稠密矩阵，方法的时间复杂度是O/>不精确的方法近似求解该系统，使用迭代求解器(计算方法那类求正规方程)，例如时间、空间复杂度都是O(N_P)。直接的算法是多数相机的首选算法，在大规模的条件下代价还是巨大。尽管稀疏的直接方法在很大程度上减少了整个稀疏问题的复杂程度，由于通常具有更密集的连接图，因此对于大型非结构化图像集是禁止的。在这种情况下，可以选择间接方法。BA将花费大量的时间来优化许多几乎重复的图片；

其中，函数π是指将场景点X_k投影到图像空间；损失函数ρ_j是降低潜在异常值的权重；P_c为已配准的新的图像的姿势；X_j为遍历场景点；

运动结构法则通过精心选择的两视图重建来初始化模型，选择适合的初始图像，否则无法成功重建；此外，重建的鲁棒性，准确性、性能取决于增量过程的种子位置；图像图中的稠密位置，代表这里有很多视角有重叠的相机，开始初始化通常会导致冗余度提高，从而使鲁棒性和准确性更高，相反，由于光速平差法(BA)处理了整个重建过程中累计的稀疏问题，因此从稀疏位置中进行初始化会降低运行时间。从度量重构开始，使用特征对应关系于已配准的图像(二维到三维的对应)中的三角点，来解决点透视图问题，点透视图问题涉及姿态估计，图像的姿势(Pc)和相机的内参；通过配准的新的图像的姿势(Pc)来扩展集合(P)，这里由于二维到三维的对应关系经常被异常值污染，因此通常使用随机采样一致性和最小姿态求解器处理已经标定的相机，对于没标定的相机，会有各种最小求解器，使用一种新颖的鲁棒的下一个最优图像选择方法，用于准确姿态估计和可靠的三角剖分；其中配准、登记指的是将二维图片上的点匹配到三维图像中去；

S24三维重建：再将对场景中的点进行三角化处理，过滤异常值，并且使用光束平差法对重建进行优化；再通过模型将植入仔细选择的双视角重建，递增注册新图像，获得三维重建模型和图像特征的数据库文件。三维重建(structure from motion)即从运动(motion)中恢复结构(structure)是对三维重建算法的统称，在鲁棒性和准确性，实时性方面有了很大的提升；运动结构法则是一系列不同角度拍摄的图像进行三维重建的生成过程。运动结构法则是具有迭代重构组件的顺序处理管道；先进行特征(feature)提取和特征匹配，然后进行几何验证。特征(feature)提取和特征匹配是重建的基础，之后模型讲植入仔细选择的双视角重建，然后再递增注册新图像之前，将对场景中的点进行三角化处理，过滤异常值，并且使用光束平差法对重建进行优化；

所述步骤S24采用图像局部特征聚合方法(VLAD)对采集的图像进行特征提取，再根据训练的三维稀疏模型进行特征提取，生成对应的数据库二进制文件(database.bin)，并存储成二进制数据文件；

所述步骤S24的具体步骤为：在图像数据集中采集图像特征，使用图像局部特征聚合方法遍历图像数据集，将局部特征描述子的聚合改成1接1卷积，同时将硬性任务改成软性任务，使用图像局部特征聚合算法加载对应的原始图像和该原始图像的二进制文件(images.bin)获取的图像，并保存原始图像和二进制文件获取的图像的共同图像特征到数据库二进制(database.bin)文件中，生成图像特征的数据库文件；如图7所示；

S3视觉定位：在服务器端结合当前的图像采集设备的参数和图像数据集进行重定位，输出图像在三维空间的图像位姿数据信息，如图8所示。

在本实施例中，使用不同格式的图像训练模型，会影响三维模型的构建时间；如图2～4所示，通过安卓手机的相机进行图像采集，使用237张图像，其中使用视频流转JPG的图像格式，图像大致是237张，使用视频流转PNG的格式，视频流转237张图像，共用图像的训练三维稀疏模型处理来验证不同的图像的格式使用模型处理的效率；对于图像数据进行JPG和PNG的格式处理，最后生成对应的二进制(bin)文件；选用PNG格式图像训练模型，输入训练样本后，colmap模型训练，完成时间为50分钟；选用JPG格式图像训练模型，输入训练样本后，colmap模型训练，完成时间为30分钟；模型的训练过程如下图5、图6所示，结果对比如表1所示，完成任务237张JPG格式图像使用的时间为PNG格式图像的五分之三，因此，图像选取问题，直接提升整体的处理速度。使用苹果或者安卓的手机都可以处理视频或者图像的数据，数据格式的多样性，使用手机的硬件通用性，支持不同手机系统的开放平台，如图9所示。

表1不同格式的图像训练模型的结果对比

图像格式	Android	Iphone
			JPG	30	False
PNG	50	False
			Bin	True	True

以上所述仅为本发明的较佳实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于视觉定位系统模型的不同类型图像的视觉定位方法，其特征在于，具体包括以下步骤：

S1图像采集：通过图像采集设备采集图像，获得多种格式的图像，创建图像数据库；

S2动态构建三维模型：采用运动结构法则对不同格式的图像分别进行提取和处理，并进行三维稀疏模型的训练，生成对应的三维稀疏模型和图像数据集；再进行三维重建，生成对应的三维重建模型和图像特征的数据库文件；

S3视觉定位：在服务器端结合当前的图像采集设备的参数和图像数据集进行重定位，输出图像在三维空间的图像位姿数据信息；

在所述步骤S1中通过在不同环境中，使用图像采集设备录制视频流数据，再对视频流数据进行处理，生成JPG格式图像和PNG格式图像；

S23构建稀疏模型：使用采集的场景的视频流，根据视频流的图像格式，进行对应的三维稀疏模型的构建；再将对场景中的点进行三角化处理，过滤异常值，并且使用光束平差法对重建进行优化，生成图像数据集；

S24三维重建：再通过三维稀疏模型将植入选择的双视角重建，递增注册新图像，获得三维重建模型和图像特征的数据库文件。

2.根据权利要求1所述的基于视觉定位系统模型的不同类型图像的视觉定位方法，其特征在于，所述步骤S21的具体步骤为：对于每个图像I_i，运动结构法则均检测到一个用以表示位置在X_j的特征集合，记为：F_i＝{(X_j,f_j)∣j＝1…N_Fi}，其中，f_j为位置X_j的对应的特征，j为遍历的次数，N_Fi最大的次数；再对特征进行提取并进行约束。

3.根据权利要求2所述的基于视觉定位系统模型的不同类型图像的视觉定位方法，其特征在于，所述步骤S22的具体步骤为：

4.根据权利要求3所述的基于视觉定位系统模型的不同类型图像的视觉定位方法，其特征在于，所述步骤S222中输出的一组具有重叠关系的图像对为C＝{{I_a,I_b}∣I_a,I_b∈I,a<b}，所述图像对C之间的关联特征对应的关系矩阵为Mab∈F_a×F_b，其中，F_a，F_b分别为图像I_a和图像I_b的特征；运动结构法则通过变换矩阵，使用投影几何图形在所述图像对之间映射所述图像对C各自的特征点，来验证匹配；若有效的变换矩阵在所述图像对C之间映射出对应的特征，则将这个变换矩阵视为通过了几何验证。

5.根据权利要求4所述的基于视觉定位系统模型的不同类型图像的视觉定位方法，其特征在于，在所述步骤S222中的变换矩阵包括单应性矩阵H和对极几何；其中单应性矩阵H用以描述捕获到的平面场景的纯旋转或者纯平移的图像采集设备的转换；对极几何中通过本征矩阵E或者基础矩阵F描述运动中图像采集设备的关系，且通过三焦点张量扩展到三个视图。

6.根据权利要求3所述的基于视觉定位系统模型的不同类型图像的视觉定位方法，其特征在于，所述步骤S223具体为：首先输出是一组已通过几何验证的图像对以及图像对/>之间关联的对应关系/>同时所述图像对/>的几何关系的描述G_ab具体为：在初始阶段输出场景图作为节点，已通过几何验证的图像对/>作为边缘；在重建阶段输入场景图，输出被配准的图像的姿态估计，记作P，P＝{Pc∈SE(3)∣c＝1…N_p}，其中，SE(3)是李群代数，Pc是图像姿势的变量，Np为自然数，是图像姿势Pc的统计次数；同时输出还包括重建的场景结构，以一组点的形式形成点集合记作X，X＝{X_k∈R3∣k＝1…N_X}，其中，X_k为统计的点，R3为三维的矩阵，k到Nx为对应的累加的次数，N_X为自然数。

7.根据权利要求6所述的基于视觉定位系统模型的不同类型图像的视觉定位方法，其特征在于，所述步骤S23的具体步骤为：

S232图像配准：从度量重构开始，使用特征对应关系于已配准的图像中的三角点，使得新的图像配准至当前三维稀疏模型，再通过已配准的新的图像的姿势P_c来扩展集合P；

S234光束平差法：采用光束平差法对图像采集设备的参数及场景点X_k进行联合非线性优化，减少重投影的误差E，获得稀疏的三维重建模型，生成特征点二进制文件、图像的二进制文件和点在空间坐标二进制文件；具体公式为：

8.根据权利要求7所述的基于视觉定位系统模型的不同类型图像的视觉定位方法，其特征在于，所述步骤S233具体为：采用已配准的新的图像通过三角剖分来扩展点集合X，增加场景的覆盖范围；即当图像被配准之后，一个新的场景点X_k则被三角化并同时增加到点集合X中；所述步骤S234中采用列文伯格-马夸尔特算法进行光束平差法的优化，生成图像数据集、图像三维的点数据集和2D的特征点数据集。

9.根据权利要求7所述的基于视觉定位系统模型的不同类型图像的视觉定位方法，其特征在于，所述步骤S24采用图像局部特征聚合方法对采集的图像进行特征提取，再根据训练的三维稀疏模型进行特征提取，生成对应的数据库二进制文件，并存储成二进制数据文件。

10.根据权利要求9所述的基于视觉定位系统模型的不同类型图像的视觉定位方法，其特征在于，所述步骤S24的具体步骤为：在图像数据集中采集图像特征，使用图像局部特征聚合方法遍历图像数据集，将局部特征描述子的聚合改成1接1卷积，同时将硬性任务改成软性任务，使用图像局部特征聚合算法加载对应的原始图像和该原始图像的二进制文件获取的图像，并保存原始图像和二进制文件获取的图像的共同图像特征到数据库二进制文件中，生成图像特征的数据库文件。

11.根据权利要求9所述的基于视觉定位系统模型的不同类型图像的视觉定位方法，其特征在于，所述步骤S21特征提取分为使用图像格式数据进行特征提取和使用图像金字塔寻找极值进行特征提取；其中，使用图像格式数据进行特征提取即使用三维重建的特征提取和描述；使用图像金字塔寻找极值进行特征提取，即通过尺度不变的特征变换和特征检测与描述，确定主方向和256维的描述子，再进行归一化。