CN116843754A

CN116843754A - 一种基于多特征融合的视觉定位方法及系统

Info

Publication number: CN116843754A
Application number: CN202310815607.4A
Authority: CN
Inventors: 周忠; 王静茹; 熊源
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2023-07-05
Filing date: 2023-07-05
Publication date: 2023-10-03

Abstract

本发明公开了一种基于多特征融合的视觉定位方法及系统。所述方法：采集场景照片，进行三维重建、数据标注与图片渲染，得到带标注的数据集；使用带标注的数据集进行语义分割与法向量估计；对图片的语义分割结果、法向量估计结果进行多特征提取与融合，得到图片的融合全局向量；检索得到查询图的候选图；对查询图进行置信度估计；对查询图和每张候选图进行局部特征匹配，得到多个2D‑3D匹配对；使用置信度对2D‑3D匹配对筛选，剔除数值低于置信度阈值的匹配对；对剩下的2D‑3D匹配对进行RANSAC PnP计算，得到相机位姿结果。本发明增强了视觉定位方法的鲁棒性，使其在面对外界环境变化时仍能具备精确、稳定的位姿计算结果。

Description

一种基于多特征融合的视觉定位方法及系统

技术领域

本发明涉及自动驾驶、机器人、增强现实、混合现实等领域，具体涉及一种基于多特征融合的视觉定位方法及系统。

背景技术

定位指通过各项技术和方法来确定目标物体在空间中的位置和朝向信息，它是一项非常重要且基础的任务，在多个领域中都起着关键性作用，如同步定位与建图(Simultaneous Localization And Mapping，SLAM)、数字孪生、自动驾驶等。目前有多种方法被用来应对定位任务，如卫星定位方法中，信号接收器接收多个卫星发射的信号，根据信号传播时间得到自己与每个卫星之间的距离，使用三角定位原理确定自身具体位置；蓝牙定位方法中，目标设备周期性广播蓝牙信号，接收器接收并测量蓝牙信号强度，根据提前建立的信号强度数据库确定目标设备位置；射频识别定位方法中，射频识别读写器发送射频信号，携带特定标签的目标物体对信号进行响应，读写器接收到响应信号后使用相应算法(如位置指纹定位算法)计算目标物体位置。

上述方法虽然已经在很多场景中被应用，但仍普遍存在一些问题，如卫星定位方法在室内环境下信号易受干扰，定位性能不稳定；蓝牙定位方法定位精度较低，且信号衰减、多径效应等现象的存在导致其定位系统覆盖范围较小；射频识别定位方法易受环境干扰，且系统部署成本高。与此同时，在数字孪生、增强现实等领域内存在很多基于虚拟场景的应用，虚拟场景中无法装备实体硬件，不具备使用上述方法的条件。相比之下，视觉定位技术仅凭相机采集的图片信息，就能够计算出当前目标的精确位姿，具有成本低、精度高等优点。因此，视觉定位技术研究有着广泛的应用场景和重要的研究意义。

当前国内外针对视觉定位技术的相关方法主要有四种，分别是基于二维图像检索的相机位姿计算方法，基于三维场景的相机位姿计算方法，分层的相机位姿计算方法和基于语义信息的相机位姿计算方法。其中，基于二维图像的相机位姿计算方法在泛化性上表现较好，但是由于缺乏三维几何信息的引入，其位姿计算结果的精度并不理想；基于三维场景的相机位姿计算方法大多包含使用多视几何技术进行精确位姿求解的过程，故其结果精度通常较高，但是为了实现几何求解会需要提前进行图像的二维特征点到场景的三维点云之间的2D-3D匹配，这一过程中容易出现大量误匹配，且耗时较高，使此类方法具有计算成本高、鲁棒性较差的缺点，尤其是在面对大场景和环境差异大的情况时表现较差；分层的相机位姿计算方法对前两种方法进行了有效结合，能够兼具鲁棒性和精确性，通常在计算结果方面表现更好，但是在面对季节、天气等环境变化时仍难以摆脱易受干扰的缺点；基于语义信息的相机位姿计算方法将语义信息等融入了相机位姿计算过程中，在一定程度上缓解了常规相机位姿计算方法面对环境变化时的性能不稳定问题，但此类方法出现较晚、尚未成熟，存在诸多不足，如不稳定的语义分割结果会导致定位结果差异较大、语义分割训练所需的语义标注真值难以获取等。

发明内容

为了解决上述技术问题，本发明提供一种基于多特征融合的视觉定位方法及系统。本发明技术解决方案为：一种基于多特征融合的视觉定位方法，该方法包括基于多特征融合的图像检索和基于置信度估计的位姿计算两个部分，基于多特征融合的图像检索步骤为：

S1、通过无人机预先获取场景中的RGB图像，使用三维重建技术构建场景的三维模型，对三维模型进行语义标注与法向量计算，使用快照渲染生成带标注的图像数据集；

S2、使用带标注数据集对语义分割网络、法向量估计网络与多特征提取与融合网络进行训练，并生成对应的融合特征数据库；

S3、将查询图输入语义分割网络、法向量估计网络与多特征提取与融合网络进行计算，得到查询图的融合特征；

S4、对融合特征数据库中的每个特征和查询图的融合特征进行欧氏距离计算，对距离结果进行大小排序，选取距离最小的向量所对应的图片作为候选图；

基于置信度估计的位姿计算步骤为：

S5、使用所述带标注的图像数据集进行置信度估计网络的训练，训练完成后存储网络参数；

S6、对查询图进行置信度估计，获得图片中像素级的置信度数值，作为判断该像素位置的特征点质量的量化参考；

S7、对查询图和其对应的带位姿的候选图进行逐个的二维特征匹配，根据候选图的深度信息对其特征点进行三维坐标映射，并据此建立查询图和三维场景之间的2D-3D匹配对；

S8、使用置信度图对2D-3D匹配对进行过滤，剔除对应置信度数值低于置信度阈值的2D-3D匹配对；

S9、对剩下的2D-3D匹配对进行随机采样一致性算法RANSACPnP计算，最终得到相机的位姿计算结果，实现视觉定位。

所述步骤S2具体包括如下步骤：

S2.1、根据数据集中的语义标签标注进行DeepLabv3+网络训练，存储训练完成的网络参数；

S2.2、根据数据集中的法向量数值标注进行DIW网络训练，存储训练完成的网络参数；

S2.3、对数据集进行1:9的查询图,候选图划分，根据数据集中标注的图片位姿数据，对每张查询图筛选出候选图集合中与其位姿差异在阈值以内的候选图，作为查询图的正集进行存储，其余候选图作为查询图的负集；

S2.4、使用生成的查询图与其对应的正负集对多特征提取与融合网络进行训练，训练过程使用三元组损失，在选取正负样本时，先对所有图片以当前训练状态下的网络计算得到对应的全局向量，然后选取正集向量中与查询图向量欧氏距离最大的向量对应的图片作为正样本，在负集中每次随机选取特定数量的图片作为负样本；

S2.5、网络训练完成之后，将渲染数据集中每张图片输入进DeepLabv3+、DIW与多特征提取与融合网络，得到每张图片的融合特征，将所有向量存储为融合特征数据库。

进一步地，所述步骤S3包括如下步骤：

S3.1、将查询图分别输入进DeepLabv3+和DIW网络进行语义分割与法向量估计，得到查询图的语义标签预测结果与法向量数值估计结果；

S3.2、将查询的RGB图、语义分割标签预测结果、法向量数值一起输入多特征提取与融合网络，计算得到查询图的全局融合向量。

进一步地，所述步骤S5包括如下步骤：

S5.1、根据带标注的数据集的位姿信息，计算筛选出每张作为查询图的训练图q所对应的与其位姿差异在阈值以内的候选图集合R；

S5.2、对查询图中的每一个像素点x_q计算其与候选图i中对应像素x_i的重投影差异数值r(x_q，x_i)；

S5.3、对x_q邻域内的所有像素点统计重投影差异，并计算得到标准差S(x_q，i)；

S5.4、对R中的每一个候选图重复步骤S5.2～S5.3，得到每个候选图下对应的标准差S(x_q，i)，然后对其应用激活函数e^-s并取均值作为x_q的置信度真值C(x_q)；

S5.5、使用置信度真值对置信度估计网络进行训练，存储网络参数。

进一步地，所述步骤S7包括如下步骤：

S7.1、对查询图和每一张检索到的候选图进行SIFT特征匹配，得到一系列查询图与候选图之间的2D-2D匹配对；

S7.2、对每张候选图读取对应的深度图，获取与查询图匹配上的每个候选图特征点的深度信息，根据深度信息与候选图的相机位姿标注计算该特征点在三维空间中的坐标数值，实现候选图与三维模型之间的2D-3D匹配对；

S7.3、根据S7.1的2D-2D匹配对与S7.2的2D-3D匹配对建立查询图与三维模型之间的2D-3D匹配对。

进一步地，所述步骤S8包括如下步骤：

S8.1、对于每一对2D-3D匹配对，根据2D点在查询图中的像素坐标查找对应的置信度数值，所述置信度数值在S6中获取；

S8.2、比较2D点像素上的置信度数值与置信度阈值，若2D点置信度数值低于阈值则舍弃，否则保留；

S8.3、对剩下的2D-3D对应用RANSACPnP算法进行解算，得到相机位姿，实现视觉定位。

进一步地，还包括数据的视觉展示，具体包括：

对场景的三维模型进行加载，渲染并在窗口中进行展示，支持用户使用鼠标和滚轮进行视角的三维交互；同时加载用户输入的查询RGB图，展示语义分割预测结果图、法向量估计结果图、置信度估计图，将图像检索结果以列表的形式展现出来，列表中每个项中都包含候选图的缩略图与文件名，将位姿计算的结果以空间x、y、z坐标和yaw、pitch、roll的数据形式列出，并将查询图以计算出来的位姿视角在三维场景中进行投影。

本发明的另一方面，一种多特征融合的视觉定位系统，所述系统包括下述模块：

数据处理模块：用于通过相机预先拍摄的场景RGB图片，使用三维重建技术构建场景的三维模型，进行语义标注与法向量计算，并渲染生成带标注的图片数据库；对数据库中的图片输入进图像分割网络、法向量估计网络、多特征提取与融合网络，提取数据库中每张图片的融合特征，构建融合特征数据库；

图像检索模块：将系统中输入的查询RGB图片输入进语义分割网络与法向量估计网络，计算得到图像的语义信息与法向量信息；将RGB、语义、法向量三种数据输入进多特征提取与融合网络，得到图像的融合特征；将查询图的融合特征和融合特征数据库中每个特征向量做欧氏距离计算，并对距离进行排序，选取相对距离最小的多张图作为查询图的图像检索到的候选图集合结果；

位姿计算模块：根据图像检索模块中计算得到的语义信息和法向量信息，联合原RGB图像一起进行置信度估计，得到查询图的像素级的置信度估计结果；对查询图和候选图集合中的每张图进行依次的局部特征匹配，并利用候选图的深度与位姿信息进行候选图中2D特征点的3D坐标映射，从而进一步建立查询图中2D点到三维模型中3D点的匹配关系；对2D-3D中2D点所在像素位置上置信度低于阈值的匹配对进行剔除，剩下的匹配对进行RANSACPnP计算，得到相机的位姿计算结果，并完成视觉定位。

数据展示模块：对场景的三维模型进行加载，渲染并在窗口中进行展示，支持用户使用鼠标和滚轮进行视角的三维交互；同时加载用户输入的查询RGB图，展示语义分割预测结果图、法向量估计结果图、置信度估计图，将图像检索结果以列表的形式展现出来，列表中每个项中都包含候选图的缩略图与文件名，将位姿计算的结果以空间x、y、z坐标和yaw、pitch、roll的数据形式列出，并将查询图以计算出来的位姿视角在三维场景中进行投影。

本发明与现有技术相比具有的优点在于：

1、本发明通过多特征提取与融合网络，在RGB、语义分割和法向量三个维度上对输入图像进行特征提取与融合。相比其他方法只使用单一特征，多特征融合能够更全面地描述图像内容，提升了图像检索的准确性和鲁棒性。通过综合多个特征，该方法能够更准确地匹配查询图像与数据库中的图像，提供更精确的检索结果。

2、本发明引入了置信度估计网络，通过量化匹配对对位姿解算过程中可能产生的有用信息大小来估计匹配对的置信度，能够在位姿计算过程中进行特征筛选，提高位姿计算的准确性和稳定性。通过准确的置信度估计，该方法能够排除不可靠的匹配对，提高位姿计算的精度，并且具有更好的鲁棒性，能够应对环境变化和干扰因素。

3、基于本发明中方法实现带标注的三维场景中的相机位姿计算工具，能够实现对用户输入的图片进行自动化位姿解算，并进行合适的结果可视化，满足用户需求。

附图说明

图1基于多特征融合的视觉定位方法流程图；

图2基于多特征融合的图像检索流程示意图；

图3基于置信度估计的位姿计算流程示意图；

图4基于多特征融合的视觉定位系统结构框图。

具体实施方式

下面将通过具体的实施步骤并结合附图，对本方法进行进一步详细说明。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。在不背离发明构思的精神和范围下，本领域技术人员能够想到的变化、变型和优点都被包括在本发明中。

实施例一

如图1所示，本发明实施例提供了一种基于多特征融合的视觉定位方法流程图。所述方法，包括下述步骤：

步骤S1：如图2所示，利用相机事先捕捉的场景RGB图像，运用三维重建技术建立场景的三维模型，并对三维模型进行语义标注和法向量计算。通过快照渲染技术生成场景图片，同时生成并保存对应的标注文件，得到带标注的图像数据集。将带标注的图像数据集中的图片输入到语义分割网络、法向量估计网络和多特征提取与融合网络，提取每张图片的融合特征，形成融合特征数据库。

步骤S2：将查询图输入到语义分割网络和法向量估计网络中，计算获得图像的语义信息和法向量信息。将查询图的RGB、语义和法向量数据输入到多特征提取与融合网络，得到图像的融合特征。根据查询图的融合特征对融合特征数据库进行相似度排序，具体计算方式为对查询图融合特征与融合特征数据库中每个特征依次计算欧氏距离，并对距离进行排序，选取距离最小的多张图作为查询图的图像检索候选图集合结果。

步骤S3：基于之前计算得到的语义信息和法向量信息，结合原始RGB图像进行置信度估计，得出查询图像的像素级置信度估计结果。

步骤S4：如图3所示，逐一对查询图和候选图集合中的每张图像进行局部特征匹配，并利用候选图的深度和位姿信息将候选图中的2D特征点映射为3D坐标，建立查询图中的2D点与三维模型中的3D点之间的匹配关系。

步骤S5：剔除在2D-3D匹配中置信度低于阈值的匹配对，对剩余的匹配对进行随机采样一致性算法RANSACPnP计算，得出相机的位姿计算结果，从而实现使用计算机视觉的方法完成主体的位姿计算，达到视觉定位的目的。

进一步地，加载并渲染场景的三维模型，并在窗口中展示，用户可以通过鼠标和滚轮进行三维视角交互；加载用户输入的查询RGB图，并展示语义分割预测结果图、法向量估计结果图和置信度估计图。图像检索结果以列表形式呈现，每个项包含候选图的缩略图和文件名。位姿计算的结果以空间坐标和姿态数据的形式列出，并将查询图的位姿视角投影到三维场景中，为用户提供直观的观看体验。

所述融合特征数据库生成过程具体包括如下步骤：

S2.3、对数据集进行1：9的查询图，候选图划分，根据数据集中标注的图片位姿数据，对每张查询图筛选出候选图集合中与其位姿差异在阈值以内的候选图，作为查询图的正集进行存储，其余候选图作为查询图的负集；

S2.5、网络训练完成之后，将渲染数据集中每张图片输入进DeepLabv3+、DIW与多特征提取与融合网络，得到每张图片的全局融合向量，将所有向量存储为融合特征数据库。

进一步地，所述生成融合特征具体包括如下步骤：

进一步地，所述查询图像的像素级置信度估计结果包括如下步骤：

进一步地，所述建立查询图和三维场景之间的2D-3D匹配对具体包括如下步骤：

进一步地，所述计算相机的位姿具体包括如下步骤：

S8.3、对剩下的2D-3D对应用RANSAC PnP算法进行解算，得到相机位姿，实现视觉定位。

进一步地，还包括数据的视觉展示，具体包括：

实施例二

如图4所示，本发明实施例提供了一种基于多特征融合的视觉定位系统，包括下述模块：

数据处理模块：获取相机提前拍摄的场景中RGB图片，应用三维重建技术构建场景的三维场景，加载场景并进行渲染，实现三维场景的展示，并且能够与用户进行三维视角交互；对数据库中每张图片输入进图像分割网络、法向量估计网络和多特征提取与融合网络中，以提取融合特征，并构建融合特征数据库。

图像检索模块：接收系统输入的查询RGB图片，并经过语义分割网络和法向量估计网络计算出图像的语义信息和法向量信息。同时，将RGB、语义和法向量三种数据输入到多特征提取与融合网络中，得到图像的融合特征。对查询图的融合特征与融合特征数据库中的每个特征向量进行欧氏距离计算，并按距离进行排序，从中选取相对距离最小的多张图作为查询图的图像检索候选图集合结果。

位姿计算模块：根据图像检索模块计算得到的语义信息和法向量信息，以及原始RGB图像，进行置信度估计。通过对查询图和候选图集合中的每张图进行逐个局部特征匹配，并利用候选图的深度与位姿信息映射候选图中2D特征点的3D坐标，建立查询图中2D点与三维模型中3D点的匹配关系。之后根据置信度阈值剔除2D-3D匹配中置信度低的匹配对，保留剩余的匹配对，并使用RANSACPnP计算相机的位姿。

数据展示模块：加载并渲染场景的三维模型，并在窗口中展示，用户可以通过鼠标和滚轮进行三维视角交互；加载用户输入的查询RGB图，并展示语义分割预测结果图、法向量估计结果图和置信度估计图。图像检索结果以列表形式呈现，每个项包含候选图的缩略图和文件名。位姿计算的结果以空间坐标和姿态数据的形式列出，并将查询图的位姿视角投影到三维场景中，为用户提供直观的观看体验。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多特征融合的视觉定位方法，其特征在于，该方法包括基于多特征融合的图像检索和基于置信度估计的位姿计算两个部分，基于多特征融合的图像检索步骤为：

S2、使用带标注的图像数据集对语义分割网络、法向量估计网络与多特征提取与融合网络进行训练，并生成对应的融合特征数据库；

基于置信度估计的位姿计算步骤为：

2.根据权利要求1所述的基于多特征融合的视觉定位方法，其特征在于，所述步骤S2具体包括如下步骤：

3.根据权利要求1所述的基于多特征融合的视觉定位方法，其特征在于：所述步骤S3包括如下步骤：

4.根据权利要求1所述的基于多特征融合的视觉定位方法，其特征在于，所述步骤S5包括如下步骤：

S5.1、根据带标注的数据集的位姿信息，计算筛选出每张作为查询图的训练图所对应的与其位姿差异在阈值以内的候选图集合；

S5.2、对查询图中的每一个像素点计算其与候选图中对应像素的重投影差异数值；

S5.3、对邻域内的所有像素点统计重投影差异，并计算得到标准差；

S5.4、对中的每一个候选图重复步骤S5.2～S5.3，得到每个候选图下对应的标准差，然后对其应用激活函数并取均值作为的置信度真值；

5.根据权利要求1所述的基于多特征融合的视觉定位方法，其特征在于，所述步骤S7包括如下步骤：

6.根据权利要求1所述的基于多特征融合的视觉定位方法，其特征在于，所述步骤S8包括如下步骤：

7.根据权利要求1所述的基于多特征融合的视觉定位方法，其特征在于，还包括数据的视觉展示，具体包括：

8.一种基于多特征融合的视觉定位系统，其特征在于，所述系统包括下述模块：

数据处理模块：使用三维重建技术对提前采集的场景照片进行场景的三维模型构建，对模型应用快照渲染生成带标注的图像数据集，将带标注的图像数据集中的图片输入进图像分割网络、法向量估计网络、多特征提取与融合网络，提取得到数据库中每张图片的融合特征，构建融合特征数据库；

图像检索模块：将系统中输入的查询RGB图片输入进语义分割网络与法向量估计网络，计算得到图像的语义信息与法向量信息；将RGB、语义、法向量三种数据输入进多特征提取与融合网络，得到图像的融合特征；将查询图的融合特征和融合特征数据库中的每个特征做欧氏距离计算，并对距离进行排序，选取相对距离最小的多张图作为查询图的图像检索到的候选图集合结果；

位姿计算模块：根据图像检索模块中计算得到的语义信息和法向量信息，联合原RGB图像一起进行置信度估计，得到查询图的像素级的置信度估计结果；对查询图和候选图集合中的每张图依次进行局部特征匹配，并利用候选图的深度与位姿信息进行候选图中2D特征点的3D坐标映射，从而建立查询图中2D点到三维模型中3D点的匹配关系；对2D-3D中2D点所在像素位置上置信度低于阈值的匹配对进行剔除，剩下的匹配对进行RANSAC PnP计算，得到相机的位姿计算结果，并完成视觉定位。

9.根据权利要求8所述的基于多特征融合的视觉定位系统，其特征在于，还包括：