CN117928538A

CN117928538A - 基于神经辐射场的视觉伺服实现视觉定位导航方法和系统

Info

Publication number: CN117928538A
Application number: CN202311682998.3A
Authority: CN
Inventors: 史殿习; 王元泽; 晏轶超; 黄怡兰; 夏坚强; 谭杰夫; 金松昌
Original assignee: Chinese People's Liberation Army 32806 Unit
Current assignee: Chinese People's Liberation Army 32806 Unit
Priority date: 2023-12-08
Filing date: 2023-12-08
Publication date: 2024-04-26

Abstract

本发明提供了一种基于神经辐射场的视觉伺服实现视觉定位导航方法和系统，包括：获取导航初始状态对应的初始状态图像和目标状态对应的目标状态图像；基于初始状态图像和目标状态图像，得到目标状态图像有效的关键点对应，将目标状态图像有效的关键点对应作为导航先验；基于所述导航先验，通过IBVS导航进行视觉导航，由于本发明在处理初始状态图像和目标状态图像得到导航先验的过程中使用到了视觉定位，因此本发明将视觉定位扩展到视觉导航，可以有效的增强基于IBVS的视觉导航任务。

Description

基于神经辐射场的视觉伺服实现视觉定位导航方法和系统

技术领域

本发明属于视觉定位和视觉导航技术领域，具体涉及一种基于神经辐射场的视觉伺服实现视觉定位导航方法和系统。

背景技术

基于单张查询图像估计相机位姿是视觉定位中基本的任务，它在机器人、虚拟现实和自动驾驶等领域具有广泛的应用。近年来，基于深度学习的视觉定位方法受到了广泛的关注，它们使用深度神经网络有效地从查询图像中提取视觉特征，然后利用这些特征估计查询图像的位姿。

当前主流的视觉定位方法一般可以分为两类。第一类是基于结构的方法，例如一种基于密集匹配和视角合成的视觉定位方法(见文献Taira H,Okutomi M,Sattler T,etal.InLoc:Indoor visual localization with dense matching and view synthesis[C]//Proceedings of the IEEE Conference on Computer Vision and PatternRecognition.2018:7199-7209.)和分层定位网络(见文献Sarlin P E,Cadena C,SiegwartR,et al.From coarse to fine:Robust hierarchical localization at large scale[C]//Proceedings ofthe IEEE/CVF Conference on Computer Vision and PatternRecognition.2019:12716-12725.)，它们使用复杂的流程实现精确的定位。结构方法首先建立场景3D坐标与2D像素之间的对应关系，之后使用透视变换与非线性优化算法结合随机一致性采样算法计算相机的位姿。结构方法的第一阶段一般需要一个复杂的流程，包括图像检索、特征提取和匹配。第二类是基于回归的方法，它们具有更简洁紧凑的框架和快速推理的性能，近些年吸引了越来越多的关注。它们要么直接回归查询图像对应的场景3D坐标，要么直接回归查询图像对应的绝对位姿。基于坐标回归的视觉定位方法，例如基于三维曲面回归的视觉定位方法(见文献Brachmann E,Rother C.Learning less is more-6dcamera localization via 3d surface regression[C]//Proceedings of the IEEEconference on computer vision andpattern recognition.2018:4654-4662.)和基于场景分层坐标分类和回归的视觉定位方法(见文献Li X,Wang S,Zhao Y,etal.Hierarchical scene coordinate classification and regression for visuallocalization[C]//Proceedings ofthe IEEE/CVF Conference on Computer Vision andPattern Recognition.2020:11983-11992.)使用神经网络学习结构方法的第一阶段，直接从查询图像中回归3D场景坐标，之后得到3D坐标与2D像素之间的对应关系，这些基于坐标回归的视觉定位方法通常使用真值3D标签作为监督来获得更好的定位性能，增加了训练集获取的成本。与坐标回归方法不同，绝对位姿回归方法通常仅使用带有位姿的图像来训练神经网络，不需要真值3D标签进行监督训练，但由于缺少3D几何的约束，其定位性能往往低于坐标回归方法。

当前的视觉定位方法一般需要大量数据进行训练(在7-Scenes数据集中每个场景使用数千张带有位姿的图像作为训练集)，以保证其具有泛化到新视角的定位能力。此外，最先进的定位方法还需要密集真实的3D标签进行监督，例如深度和3D模型。然而，在现实世界中获取大量带有位姿的图像和真值3D标签是具有挑战的和高成本的。

目前的视觉定位方法往往只聚焦于视觉定位任务，与之密切相关的视觉导航任务采用另一种框架完成，从而增加了机器人在此方面相关应用的复杂性。

发明内容

为了解决现有技术中视觉定位任务和视觉导航任务采用不同的框架，从而增加了相关应用复杂性的问题，本发明提出了一种基于神经辐射场的视觉伺服实现视觉定位导航方法，包括：

获取导航初始状态对应的初始状态图像和目标状态对应的目标状态图像；

基于初始状态图像和目标状态图像，得到目标状态图像有效的关键点对应，将目标状态图像有效的关键点对应作为导航先验；

基于所述导航先验，通过IBVS导航进行视觉导航。

可选的，所述基于初始状态图像和目标状态图像，得到目标状态图像有效的关键点对应，包括：

基于初始状态图像和目标状态图像，通过关键点对应检测和匹配算法得到目标状态图像的关键点对应；

将目标状态图像的关键点对应进行过滤，得到目标状态图像有效的关键点对应。

可选的，所述基于初始状态图像和目标状态图像，通过关键点对应检测和匹配算法得到目标状态图像的关键点对应，包括：

基于初始状态图像，使用视觉定位方法得到导航的初始位姿，并将导航的初始位姿作为导航的目标粗位姿；

基于初始状态图像和目标状态图像，使用关键点对应检测和匹配算法得到目标状态图像的关键点对应。

可选的，所述基于初始状态图像，使用视觉定位方法得到导航的初始位姿，包括：

基于初始状态图像，使用预先训练完成的坐标回归网络得到初始状态图像对应的3D坐标，并基于初始状态图像对应的3D坐标，得到初始状态图像对应的粗位姿；

基于初始状态图像对应的粗位姿，通过预先训练完成的神经辐射场模型渲染得到初始状态图像的渲染图像；

基于初始状态图像和其渲染图像，通过关键点对应检测和匹配算法得到初始状态图像的关键点对应并将初始状态图像的关键点对应进行过滤；

对初始状态图像对应的粗位姿和过滤后的关键点进行优化，得到导航的初始位姿；

所述坐标回归网络，以图像为输入，图像对应的3D坐标为输出进行训练；所述神经辐射场模型，训练的时候以位姿为输入，位姿对应的图像为输出，使用的时候以位姿为输入，位姿对应图像的渲染图像为输出。

可选的，所述将初始状态图像的关键点对应进行过滤，包括：

基于初始状态图像的3D坐标，得到关键点对应的3D坐标；

基于初始状态图像的粗位姿，将关键点对应的3D坐标投影到初始状态图像的渲染图像得到投影图像关键点坐标，基于初始状态图像的渲染图像，得到渲染图像关键点坐标；

基于所述投影图像关键点坐标和所述渲染图像关键点坐标，计算关键点对应的坐标距离；

基于关键点对应的坐标距离，结合阈值对关键点对应进行过滤。

可选的，所述神经辐射场模型的训练，包括：

从室内评估数据集中获取室内场景中一定量的图像和图像对应的位姿；

以位姿为输入，位姿对应的图像为输出，对神经辐射场模型进行训练，得到训练完成的神经辐射场模型。

可选的，所述坐标回归网络的训练，包括：

基于室内场景的图像对应的位姿，通过神经辐射场模型得到图像对应的渲染图像；

基于图像对应的渲染图像，结合相机内外参反投影得到图像对应的3D坐标；

以图像为输入，图像对应的3D坐标为输出，对坐标回归网络进行训练，得到训练完成的坐标回归网络。

再一方面，本申请还提出了一种基于神经辐射场的视觉伺服实现视觉定位导航系统，包括：

图像获取模块，用于获取导航初始状态对应的初始状态图像和目标状态对应的目标状态图像；

导航先验获取模块，用于基于初始状态图像和目标状态图像，得到目标状态图像有效的关键点对应，将目标状态图像有效的关键点对应作为导航先验；

视觉导航模块，用于基于所述导航先验，通过IBVS导航进行视觉导航。

可选的，所述导航先验获取模块基于初始状态图像和目标状态图像，得到目标状态图像有效的关键点对应，包括：

可选的，所述导航先验获取模块基于初始状态图像和目标状态图像，通过关键点对应检测和匹配算法得到目标状态图像的关键点对应，包括：

可选的，所述导航先验获取模块基于初始状态图像，使用视觉定位方法得到导航的初始位姿，包括：

可选的，所述导航先验获取模块中导航先验获取模块将初始状态图像的关键点对应进行过滤，包括：

基于初始状态图像的3D坐标，得到关键点对应的3D坐标；

可选的，所述导航先验获取模块中神经辐射场模型的训练，包括：

可选的，所述导航先验获取模块中坐标回归网络的训练，包括：

再一方面，本申请还提出了一种计算设备，包括：一个或多个处理器；

处理器，用于执行一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，实现如上述所述的一种基于神经辐射场的视觉伺服实现视觉定位导航方法。

再一方面，本申请还提出了一种计算机可读存储介质，其上存有计算机程序，所述计算机程序被执行时，实现如上述所述的一种基于神经辐射场的视觉伺服实现视觉定位导航方法。

与最接近的现有技术相比，本发明具有的有益效果如下：

本发明提供了一种基于神经辐射场的视觉伺服实现视觉定位导航方法和系统，包括：获取导航初始状态对应的初始状态图像和目标状态对应的目标状态图像；基于初始状态图像和目标状态图像，得到目标状态图像有效的关键点对应，将目标状态图像有效的关键点对应作为导航先验；基于所述导航先验，通过IBVS导航进行视觉导航，本发明通过获取导航初始状态对应的初始状态图像和目标状态对应的目标状态图像，得到目标状态图像有效的关键点对应作为导航先验，最后基于导航先验进行视觉导航，由于在处理初始状态图像和目标状态图像得到导航先验的过程中使用到了视觉定位，因此本发明将视觉定位扩展到视觉导航，可以有效的增强基于IBVS的视觉导航任务。

附图说明

图1为本发明提出的一种基于神经辐射场的视觉伺服实现视觉定位导航方法的流程示意图；

图2为本发明提出的方法中的视觉导航方法的流程示意图；

图3为本发明提出的方法中的视觉定位方法的流程示意图；

图4为本发明实现IBVS导航的仿真结果图；

图5为本发明提出的一种基于神经辐射场的视觉伺服实现视觉定位导航系统的结构示意图。

具体实施方式

本发明提出一种基于神经辐射场的视觉伺服实现视觉定位导航方法和系统，其解决了现有视觉定位技术使用少量数据训练使得定位精度不佳的问题，并使用单一框架完成视觉定位和导航两个任务来减少机器人相关应用的复杂性。

实施例1：

本发明提供了一种基于神经辐射场的视觉伺服实现视觉定位导航方法，如图1所示，包括以下的步骤：

步骤1：获取导航初始状态对应的初始状态图像和目标状态对应的目标状态图像；

步骤2：基于初始状态图像和目标状态图像，得到目标状态图像有效的关键点对应，将目标状态图像有效的关键点对应作为导航先验；

步骤3：基于所述导航先验，通过IBVS导航进行视觉导航。

在步骤1中，获取导航初始状态对应的初始状态图像和目标状态对应的目标状态图像。

如图2所示，由于基于IBVS的导航，需要关键点对应不仅准确和非共线，而且需要一直保持在相机视野范围内，所以基于IBVS(神经辐射场)的导航，在选择的初始状态和目标状态对应的图像的时候需要具有一定的共视区域。即是初始状态图像和目标状态图像需要具有一定的共视区域。

在步骤2中，基于初始状态图像和目标状态图像，得到目标状态图像有效的关键点对应，将目标状态图像有效的关键点对应作为导航先验。

其中，所述基于初始状态图像和目标状态图像，得到目标状态图像有效的关键点对应，包括以下的步骤：

◎基于初始状态图像和目标状态图像，通过关键点对应检测和匹配算法得到目标状态图像的关键点对应；

◎将目标状态图像的关键点对应进行过滤，得到目标状态图像有效的关键点对应。

其中，所述基于初始状态图像和目标状态图像，通过关键点对应检测和匹配算法得到目标状态图像的关键点对应，包括以下的步骤：

※基于初始状态图像，使用视觉定位方法得到导航的初始位姿，并将导航的初始位姿作为导航的目标粗位姿；

※基于初始状态图像和目标状态图像，使用关键点对应检测和匹配算法得到目标状态图像的关键点对应。

其中，目标粗位姿的作用：基于导航的目标粗位姿，对关键点对应进行过滤，得到目标状态图像有效的关键点对应。

即是，首先本发明通过视觉定位方法使用初始状态图像估计导航初始状态的最优位姿，将初始状态的最优位姿看作目标状态的粗糙位姿(目标状态的粗糙位姿为目标粗位姿)，目标状态图像作为视觉定位方法的输入，在视觉定位方法的每次RANSAC迭代，根据关键点对应在目标状态图像的平面上从初始状态到达期望状态的轨迹，过滤掉运动到相机视野范围外的关键点对应。本发明仅启动一轮IBVS(神经辐射场)和RANSAC(随机抽样一致)迭代来得到最佳的关键点对应先验以及关键点对应3D坐标先验。

本发明提出的视觉定位方法，以初始状态图像为例，通过视觉定位方法得到导航的初始位姿，包括以下的步骤：

◎基于初始状态图像，使用预先训练完成的坐标回归网络得到初始状态图像对应的3D坐标，并基于初始状态图像对应的3D坐标，得到初始状态图像对应的粗位姿；

◎基于初始状态图像对应的粗位姿，通过预先训练完成的神经辐射场模型渲染得到初始状态图像的渲染图像；

◎基于初始状态图像和其渲染图像，通过关键点对应检测和匹配算法得到初始状态图像的关键点对应并将初始状态图像的关键点对应进行过滤；

◎对初始状态图像对应的粗位姿和过滤后的关键点进行优化，得到导航的初始位姿；

其中，所述坐标回归网络，以图像为输入，图像对应的3D坐标为输出进行训练；所述神经辐射场模型，训练的时候以位姿为输入，位姿对应的图像为输出，使用的时候以位姿为输入，位姿对应图像的渲染图像为输出。

在视觉定位方法中，所述将初始状态图像的关键点对应进行过滤，包括：

※基于初始状态图像的3D坐标，得到关键点对应的3D坐标；

※基于初始状态图像的粗位姿，将关键点对应的3D坐标投影到初始状态图像的渲染图像得到投影图像关键点坐标，基于初始状态图像的渲染图像，得到渲染图像关键点坐标；

※基于所述投影图像关键点坐标和所述渲染图像关键点坐标，计算关键点对应的坐标距离；

※基于关键点对应的坐标距离，结合阈值对关键点对应进行过滤。

其中，所述神经辐射场模型的训练，包括：

其中，所述坐标回归网络的训练，包括：

在本发明中，如图3所示，首先获取用于训练视觉定位方法(视觉定位方法在图2中为定位模块)的数据集：采用视觉定位常用的室内评估数据集：7-Scenes。7-Scenes数据集(见文献Shotton J,Glocker B,Zach C,et al.Scene coordinate regression forestsfor camera relocalization in RGB-D images[C]//Proceedings ofthe IEEEconference on computer vision andpattern recognition.2013:2930-2937.)包含由KinectV1相机记录的七个室内场景，数据包括RGB-D图像(RGB-D图像为深度图像，即是渲染图像)、位姿和真值3D模型(真值3D模型是场景的文件，每个场景只有一个)，每个场景包含数千张图像作为训练数据。本发明仅使用每个场景中的数百张带有位姿的图像(RGB图像)作为训练集，大约占原始训练集的5％～25％。

每个场景使用数百张带有位姿的图像训练NeRF(神经辐射场)模型，该模型在训练的时候输入是位姿，输出是RGB图像，使用的时候，输入的是位姿，输出是深度图像。

使用训练好的NeRF渲染出训练集的对应的深度图像，并将深度图像结合相机内外参反投影得到场景3D坐标，最后将场景3D坐标根据场景大小归一化到0～1范围之内得到3D坐标伪标签，3D坐标伪标签用作监督标签训练坐标回归网络。

有了训练好的NeRF，就可以再构建一个坐标回归网络，并使用所有场景的带有位姿的图像和NeRF提供的3D坐标伪标签训练坐标回归网络，训练坐标回归网络的时候，输入为深度图像对应的RGB图像，输出为3D坐标。

将以上的两个NeRF和坐标回归网络训练完成，就可以进行使用了。

首先，使用坐标回归网络处理查询图像(查询图像为视觉定位方法的输入的图像)得到其对应的粗糙3D坐标，然后建立场景3D坐标与2D像素之间的对应关系，最后使用PnP结合RANSAC估计查询图像的粗糙位姿，其中查询图像是没有位姿的RGB图像。

其次，使用NeRF渲染的粗糙位姿对应的渲染图像，使用关键点对应检测和匹配算法superpoint和superglue建立渲染图像和查询图像之间的关键点对应，关键点对应的坐标距离指示了粗糙位姿的误差。

利用回归网络估计的粗糙3D坐标过滤掉大量误差较大的关键点对应，首先根据粗糙3D坐标/>查询关键点对应的/>然后根据粗糙位姿/>和相机内参将/>投影到渲染图像平面得到图像坐标/>(投影图像关键点坐标)，计算坐标距离/>本发明经验地认为坐标距离d小于200的关键点对应误差较小，过滤掉坐标距离大于200的关键点对应。即是，根据查询图像对应的粗糙位姿过滤掉多个关键点对应中误差大的关键点对应。

最后，使用IBVS利用NeRF提供的场景先验知识(先验知识就是NeRF可以渲染粗糙位姿对应的图像和深度图)优化粗糙位姿，并使用RANSAC选择最佳优化位姿以及最佳关键点对应。(粗糙位姿和关键点对应优化)为了加速RANSAC迭代，本发明经验地限制关键点对应最大40对，如果关键点对应个数超过40，则均匀采样40对关键点对应，经验地设置RANSAC迭代最大步数为100次。在每次RANSAC迭代过程中，随机选取4个关键点对应初始化IBVS的雅可比矩阵来启动IBVS迭代，在选择的每对关键点对应中，查询图像对应的图像坐标为n_q＝(x_q,y_q)，渲染图像对应的图像坐标为n_r＝(x_r,y_r)(渲染图像关键点坐标)，查询NeRF渲染的深度图得到n_r对应的渲染深度/>它们用来初始化IBVS的雅可比矩阵L：

将4对关键点对应的雅可比矩阵按行拼接在一起，并计算其对应的广义逆矩阵L⁺，设置比例因子λ，则得到IBVS控制相机从粗糙位姿向目标位姿T^*方向运动时，关键点图像坐标的期望速度为-λ(n_q-n_r)，相机运动的期望速度为v_c：

v_c＝-λL⁺(n_q-n_r)

在单位迭代时间步中积分相机的期望速度得到相机的运动变化量为ΔT(v_c)，则得到更新的位姿

此外，在IBVS初始化过程中，将渲染图像中所有关键点的图像坐标n_r结合估计位姿相机内参、粗糙渲染深度/>反投影得到粗糙3D坐标，在之后的IBVS迭代中，使用迭代更新的位姿将选取的4个关键点的3D坐标投影，得到粗糙的图像坐标/>和粗糙深度值/>它们被用来更新IBVS的雅可比矩阵参数进行新的IBVS迭代，粗糙的替代了耗时的NeRF渲染以及关键点对应建立的过程，大幅加速了IBVS的迭代过程。当坐标距离/>小于1像素或迭代到最大次数，IBVS迭代停止并得到一个优化位姿，优化位姿被用来投影所有关键点的3D坐标到查询图像平面，经验地认为对应坐标距离小于3像素的关键点对应为内点，在整个RANSAC迭代过程中，选取最多内点对应的优化位姿为最佳优化位姿，其对应的4个关键点对应为最佳关键点对应。

由于IBVS迭代过程中使用粗糙的图像坐标和深度值使得优化的位姿具有积累误差，为了消除积累误差，此时使用最新的优化位姿结合NeRF渲染重新启动IBVS和RANSAC迭代，直到坐标距离小于1像素，如果重启动迭代次数超过4次，则停止位姿优化并认为位姿优化失败。在整个位姿优化过程中，第一轮IBVS和RANSAC迭代，使得相机从粗糙位姿向目标位姿方向运动大幅距离，后续几轮IBVS和RANSAC迭代仅在目标位姿附近小距离微调，因此动态地设置每轮IBVS的迭代步数来加速位姿优化，经验地设置第一轮IBVS的迭代步数为N₁＝100，第i轮IBVS和RANSAC迭代初始化时的关键点图像坐标为/>则设置第i轮IBVS迭代w(i)对应的步数为N(w(i))：

以上是本发明提供的视觉定位方法的介绍，基于该方法，拓展进行视觉导航方法。

在步骤3中，获取导航初始状态对应的初始状态图像和目标状态对应的目标状态图像。

得到合适的关键点对应先验，便可以启动IBVS导航仿真实验。每次IBVS导航迭代，使用当前位姿基于NeRF渲染的图像模拟相机得到的图像，使用关键点对应检测和匹配算法superpoint和superglue建立渲染图像和目标图像之间的关键点对应，使用当前位姿投影最佳关键点先验的3D坐标得到关键点图像坐标和深度，选择距离投影图像坐标5像素范围内最近的关键点对应，如果在导航仿真过程中因较差的渲染质量未获得合适的关键点对应，则使用投影图像坐标作为替代，最后结合投影深度更新雅可比矩阵来启动新的导航迭代。

为了检验本发明的视觉定位性能和视觉导航性能，选取7-Scenes作为视觉定位实验的测试数据集，选取12-Scenes数据集中的任意两张共视的图像作为导航仿真实验的初始状态和期望状态。本发明采用视觉定位常用的性能评估标准：中值位置误差和中值方向误差。本发明的测试环境是Ubuntu 20.04，搭载英特尔i7-11700系列的中央处理器，处理频率为2.50GHz，另外配有一块英伟达GTX 3090图像处理器，核心频率为1700MHz，显存容量为24GB。

本发明使用主流视觉定位方法5％～25％的训练集，未使用真值3D标签监督，在7-Scenes数据集中可实现定位性能(0.05m，1.55°)。同样未使用真值3D标签监督，最先进的基线视觉定位方法DFNet的定位性能为(0.12m，3.71°)。使用真值3D标签监督，最先进的视觉定位方法HACNet的定位性能为(0.03m，0.9°)。因此本发明使用少量的数据集超过了无真值3D标签监督的视觉定位方法，并与使用真值3D标签监督的方法定位性能相当.

同时，本发明可以自然的从视觉定位任务扩展到基于IBVS的视觉导航任务，减少了机器人相关应用的复杂度。传统的基于IBVS的导航一般需要自定义标记来获得合适的关键点对应，也需要深度传感器获得深度来更新IBVS的雅可比参数。本发明可以根据轨迹先验自动获得合适的关键点对应而不使用自定义标志，也可以投影关键点的3D坐标先验获得深度来更新IBVS的雅可比矩阵参数而不使用深度传感器，拓展了IBVS导航的应用范围。

综上，本发明首先使用相对于主流视觉定位方法较少的位姿图像训练NeRF，并利用NeRF提供的粗糙3D标签和位姿图像来训练坐标回归网络，之后利用坐标回归网络估计查询图像的粗糙位姿。本发明将粗糙位姿优化看作控制相机从估计的粗糙位姿运动到目标位姿的导航控制任务，具体地，本发明使用IBVS利用NeRF提供的场景先验知识导航相机从粗糙位姿运动到目标位姿来实现位姿优化。本发明仅使用少量带有位姿的图像训练便可以获得精确的定位性能。此外，得益于IBVS的特性，本发明可以自然的扩展到视觉导航任务，并且使用视觉定位模块处理导航的初始和期望状态的图像可以得到有效的导航先验，其可以增强基于IBVS的视觉导航任务。

实施例2：

基于上述本发明提供的一种基于神经辐射场的视觉伺服实现视觉定位导航方法，此处通过一个具体的实施例对本发明提出的方法进行详细的介绍。

首先是本发明提出的视觉定位方法，其次是本发明基于视觉定位方法提出的视觉导航方法(即是一种基于神经辐射场的视觉伺服实现视觉定位导航方法)。

本发明的视觉定位方法，具有以下步骤：

第一步，构建用于训练基于深度学习的视觉定位方法的数据集。方法是：

1.1采用视觉定位常用的室内评估数据集：7-Scenes。7-Scenes数据集(见文献Shotton J,Glocker B,Zach C,et al.Scene coordinate regression forests forcamera relocalization in RGB-D images[C]//Proceedings ofthe IEEE conferenceon computer vision andpattern recognition.2013:2930-2937.)包含由KinectV1相机记录的七个室内场景，数据包括RGB-D图像、位姿标签和真值3D模型，每个场景包含数千张图像作为训练数据。本发明仅使用每个场景中的数百张带有位姿的图像作为训练集，大约占原始训练集的5％～25％，基线算法和本发明使用的具体训练集数量配置如下表所示：

第二步，每个场景单独训练一个NeRF模型。本发明使用现成的Nerfstudio模型(见文献Tancik M,Weber E,Ng E,et al.Nerfstudio:Amodular framework for neuralradiance field development[J].arXiv preprint arXiv:2302.04264,2023.)，在训练过程中，开启Nerfstudio的位姿优化模块，设置远平面为6米，近平面为0米，迭代训练100000步，所有真值相机位姿都中心化偏移，尺度保持不变。

第三步，使用训练好的Nerf渲染出训练集对应的深度图，并将深度图结合相机内外参反投影到训练集对应的场景3D坐标，最后将场景3D坐标使用场景的立方体包围框归一化到0～1范围之内，从而得到训练坐标回归网络的3D标签。

第四步，使用先进的位姿估计方法Gdr-net(见文献T Wang G,Manhardt F,Tombari F,et al.Gdr-net:Geometry-guided direct regression network formonocular6d object pose estimation[C]//Proceedings ofthe IEEE/CVF Conferenceon Computer Vision and Pattern Recognition.2021:16611-16621.)的坐标回归组件，作为本发明的坐标回归网络，并使用带有位姿的图像和NeRF提供的3D标签训练坐标回归网络，学习率learning rate为0.001，批处理尺寸batchsize为24，训练迭代总数epoch_max为40。

第五步，使用坐标回归网络处理查询图像得到其对应的粗糙3D坐标然后建立场景3D坐标与2D像素之间的对应关系，最后使用PnP结合RANSAC估计查询图像的粗糙位姿

第六步，使用NeRF渲染粗糙位姿对应的渲染图像以及深度图使用对应检测和匹配算法superpoint和superglue建立渲染图像和查询图像之间的关键点对应，关键点对应的坐标距离指示了粗糙位姿的误差。

第七步，利用回归网络估计的粗糙3D坐标过滤掉大量误差较大的关键点对应，首先根据粗糙3D坐标/>查询关键点对应的/>然后根据粗估计位姿/>和相机内参将/>投影到渲染图像平面得到图像坐标/>计算坐标距离/>本发明经验地认为坐标距离d小于200的关键点对应误差较小，过滤掉坐标距离大于200的关键点对应。

第八步，使用IBVS利用NeRF提供的场景先验知识优化粗糙位姿，并使用RANSAC选择最佳优化位姿以及最佳关键点对应。为了加速RANSAC迭代，本发明经验地限制关键点对应最大40对，如果关键点对应个数超过40，则均匀采样40对关键点对应，经验地设置RANSAC迭代最大步数为100次。在每次RANSAC迭代过程中，随机选取4个关键点对应初始化IBVS的雅可比矩阵来启动IBVS迭代，在选择的每对关键点对应中，查询图像对应的图像坐标为n_q＝(x_q,y_q)，渲染图像对应的图像坐标为n_r＝(x_r,y_r)，查询NeRF渲染的深度图得到n_r对应的渲染深度/>它们用来初始化IBVS的雅可比矩阵：

将4对关键点对应的雅可比矩阵按行拼接在一起，并计算其对应的广义逆矩阵L⁺，设置比例因子λ，则得到IBVS控制相机从粗糙位姿向目标位姿T^*方向运动时，关键点图像坐标的期望速度为-λ(n_q-n_r)，相机运动的期望速度为：

v_c＝-λL⁺(n_q-n_r)

由于IBVS迭代过程中使用粗糙的图像坐标和深度值使得优化的位姿具有积累误差，为了消除积累误差，此时使用最新的优化位姿结合NeRF渲染重新启动IBVS和RANSAC迭代，直到坐标距离小于1像素，如果重启动迭代次数超过4次，则停止位姿优化并认为位姿优化失败。在整个位姿优化过程中，第一轮IBVS和RANSAC迭代，使得相机从粗糙位姿向目标位姿方向运动大幅距离，后续几轮IBVS和RANSAC迭代仅在目标位姿附近小距离微调，因此动态地设置每轮IBVS的迭代步数来加速位姿优化，经验地设置第一轮IBVS的迭代步数为N₁＝100，第i轮IBVS和RANSAC迭代初始化时的关键点图像坐标为/>则设置第i轮IBVS迭代对应的步数为：

本发明的视觉导航方法，具有以下步骤：

第一步，由于基于IBVS的导航需要关键点对应不仅准确和非共线，而且需要一直保持在相机视野范围内，所以基于IBVS的导航选择的初始状态和目标状态对应的图像需要具有一定的共视区域。

第二步，使用本发明的视觉定位模块估计导航初始状态的位姿。将初始状态的位姿看作粗糙位姿，目标状态的图像作为查询图像再次启动视觉定位模块，每次RANSAC迭代，根据关键点对应在图像平面上从初始状态到达期望状态的轨迹，过滤掉运动到相机视野范围外的关键点对应。本发明仅启动一轮IBVS和RANSAC迭代来得到最佳的关键点对应先验以及粗糙3D坐标先验。

第三步，得到合适的关键点对应先验，便可以启动IBVS导航仿真实验。每次IBVS导航迭代，使用当前位姿基于NeRF渲染的图像模拟相机得到的图像，使用关键点对应检测和匹配算法superpoint和superglue建立渲染图像和目标图像之间的关键点对应，使用当前位姿投影最佳关键点先验的3D坐标得到关键点图像坐标和深度，选择距离投影图像坐标5像素范围内最近的关键点对应，如果在导航仿真过程中因较差的渲染质量未获得合适的关键点对应，则使用投影图像坐标作为替代，最后结合投影深度更新雅可比矩阵来启动新的导航迭代。

在本实验环境下，采用本发明可以达到以下技术效果：

1.本发明使用主流视觉定位方法5％～25％的训练集，未使用真值3D标签监督，在7-Scenes数据集中可实现定位性能(0.05m，1.55°)。同样未使用真值3D标签监督，先进的DFNet的定位性能为(0.12m，3.71°)，基于注意力机制的MS-Transformer的定位性能为(0.18m,7.28°)。使用真值3D标签监督，最先进的视觉定位方法HACNet的定位性能为(0.03m，0.9°)。因此本发明使用少量的数据集超过了无真值3D标签监督的视觉定位方法，并与使用真值3D标签监督的方法定位性能相当。

本发明可以自然的从视觉定位任务扩展到基于IBVS的视觉导航任务，减少了机器人相关应用的复杂度。本发明的导航仿真实验结果如图4所示，相机可以从导航初始状态到达期望状态，且关键点先验一直保持在相机视野范围内。传统的基于IBVS的导航一般需要自定义标记来获得合适的关键点对应，也需要深度传感器获得深度来更新IBVS的雅可比参数。本发明可以根据轨迹先验自动获得合适的关键点对应而不使用自定义标志，也可以投影关键点的3D坐标先验获得深度而不使用深度传感器，拓展了IBVS导航的应用范围。

实施例3：

基于同一发明构思，本发明提供了一种基于神经辐射场的视觉伺服实现视觉定位导航系统，如图5所示，包括：

所述导航先验获取模块基于初始状态图像和目标状态图像，得到目标状态图像有效的关键点对应，包括：

所述导航先验获取模块基于初始状态图像和目标状态图像，通过关键点对应检测和匹配算法得到目标状态图像的关键点对应，包括：

所述导航先验获取模块基于初始状态图像，使用视觉定位方法得到导航的初始位姿，包括：

所述导航先验获取模块中导航先验获取模块将初始状态图像的关键点对应进行过滤，包括：

基于初始状态图像的3D坐标，得到关键点对应的3D坐标；

所述导航先验获取模块中神经辐射场模型的训练，包括：

所述导航先验获取模块中坐标回归网络的训练，包括：

实施例4：

基于同一种发明构思，本发明还提供了一种计算机设备，该计算机设备包括处理器以及存储器，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器用于执行所述计算机存储介质存储的程序指令。处理器可能是中央处理单元(CentralProcessing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital SignalProcessor、DSP)、专用集成电路(Application SpecificIntegrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable GateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其是终端的计算核心以及控制核心，其适于实现一条或一条以上指令，具体适于加载并执行计算机存储介质内一条或一条以上指令从而实现相应方法流程或相应功能，以实现上述实施例中一种基于神经辐射场的视觉伺服实现视觉定位导航方法的步骤。

实施例5：

基于同一种发明构思，本发明还提供了一种存储介质，具体为计算机可读存储介质(Memory)，所述计算机可读存储介质是计算机设备中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机可读存储介质既可以包括计算机设备中的内置存储介质，当然也可以包括计算机设备所支持的扩展存储介质。计算机可读存储介质提供存储空间，该存储空间存储了终端的操作系统。并且，在该存储空间中还存放了适于被处理器加载并执行的一条或一条以上的指令，这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是，此处的计算机可读存储介质可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。可由处理器加载并执行计算机可读存储介质中存放的一条或一条以上指令，以实现上述实施例中一种基于神经辐射场的视觉伺服实现视觉定位导航方法的步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上仅为本发明的实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均包含在发明待批的本发明的权利要求范围之内。

Claims

1.一种基于神经辐射场的视觉伺服实现视觉定位导航方法，其特征在于，包括：

基于所述导航先验，通过IBVS导航进行视觉导航。

2.如权利要求1所述的方法，其特征在于，所述基于初始状态图像和目标状态图像，得到目标状态图像有效的关键点对应，包括：

3.如权利要求2所述的方法，其特征在于，所述基于初始状态图像和目标状态图像，通过关键点对应检测和匹配算法得到目标状态图像的关键点对应，包括：

4.如权利要求3所述的方法，其特征在于，所述基于初始状态图像，使用视觉定位方法得到导航的初始位姿，包括：

5.如权利要求4所述的方法，其特征在于，所述将初始状态图像的关键点对应进行过滤，包括：

基于初始状态图像的3D坐标，得到关键点对应的3D坐标；

6.如权利要求4所述的方法，其特征在于，所述神经辐射场模型的训练，包括：

7.如权利要求6所述的方法，其特征在于，所述坐标回归网络的训练，包括：

8.一种基于神经辐射场的视觉伺服实现视觉定位导航系统，其特征在于，包括：

9.一种计算机设备，其特征在于，包括：一个或多个处理器；

所述处理器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，实现如权利要求1至7中任一项所述的一种基于神经辐射场的视觉伺服实现视觉定位导航方法。

10.一种计算机可读存储介质，其特征在于，其上存有计算机程序，所述计算机程序被执行时，实现如权利要求1至7中任一项所述的一种基于神经辐射场的视觉伺服实现视觉定位导航方法。