CN114419259B

CN114419259B - 一种基于物理模型成像仿真的视觉定位方法及系统

Info

Publication number: CN114419259B
Application number: CN202210321390.7A
Authority: CN
Inventors: 祁航; 彭晓东; 马晓珊; 李运; 樊铭瑞
Original assignee: National Space Science Center of CAS
Current assignee: National Space Science Center of CAS
Priority date: 2022-03-30
Filing date: 2022-03-30
Publication date: 2022-07-12
Anticipated expiration: 2042-03-30
Also published as: CN114419259A

Abstract

本发明涉及视觉定位导航、光线追踪、成像仿真技术领域，特别涉及一种基于物理模型成像仿真的视觉定位方法及系统。所述方法包括：步骤1）获取当前时刻未优化的位姿状态量估计值；步骤2）实时生成所述目标在当前时刻的仿真渲染图像；步骤3）获取当前时刻位姿状态量观测值；步骤4）利用所述当前时刻未优化的位姿状态量估计值和所述当前时刻位姿状态量观测值，计算并输出当前时刻位姿状态量的最优估计值。本发明避免了传统视觉里程计前端的漂移误差随运行距离累计问题，极大提升了不具备回环检测情况下的定位定姿精度，缓解了后端优化的不确定性，且有助于目标检测、语义构建等相关研究方向的发展。

Description

一种基于物理模型成像仿真的视觉定位方法及系统

技术领域

本发明涉及视觉定位导航、光线追踪、成像仿真技术领域，特别涉及一种基于物理模型成像仿真的视觉定位方法及系统。

背景技术

随着科技进步，机器人技术被广泛应用于人类生产生活中，例如：工业机器人、服务型机器人、智能交通与自动驾驶领域、无人机在非合作场景下的自主降落等典型应用场景。机器人若完成指定任务，其必须具备自主定位与导航能力，即对周围环境能够实时进行探测，精确计算自身位置和姿态。

视觉里程计(Visual Odometry, VO)作为视觉实时定位与建图(VisualSimultaneous Localization and Mapping，V-SLAM)算法的前端部分，通常分为直接法和特征点法两类，主要用于估计相机在相邻图像之间的运动信息，给后端提供较好的初始值。直接法一般为根据像素亮度信息计算光流，进而估计相机运动，在弱纹理条件具有优势；特征点法一般通过提取场景中目标特征并计算描述子，进而估计帧间运动信息，其由于对光照变换、动态物体不敏感等优势，成为视觉里程计的主流方法。与其他方式相比，基于视觉的定位定姿方案与人类感知环境方式最为接近，具有信息量丰富、设备简单、成本低廉、应用范围广泛等优势，在诸多位姿估计方案中脱颖而出。

虽然视觉定位技术在理论方法及工程应用方面均取得长足进步，但由于实际应用场景错综复杂，目前视觉定位技术仍然有一些关键问题亟待解决，主要表现为：视觉定位系统的前端是通过帧间匹配算法恢复出两帧图像之间的运动信息，进而增量式地估计出连续位姿信息，因此不可避免的具有累计漂移误差，目前主要通过后端部分的回环检测环节进行矫正。但由于自动驾驶、无人机降落、非合作目标接近等诸多典型场景一般不具备往复运动条件，因此回环检测算法难以有效运行，导致后端优化不确定性较大，无法有效的对累计误差进行矫正，制约了视觉定位技术的精度性能。因此，如何在视觉里程计前端阶段降低位姿估计的误差，成为了相关领域学者研究的热点问题。

目前，对于视觉定位算法前端误差的优化方案主要集中于多源数据融合方向。多源数据融合是使用多重传感器，并利用各传感器探测数据相结合，以优化前端误差。基于多源数据融合的视觉里程计目前主要包括：融合单目视觉与惯导数据的VINS系列和融合激光雷达点云数据的方案，例如：利用视觉惯性里程计的输出作为当前位姿的先验信息，并融合激光雷达数据进行优化；近年来也有研究者通过融合图像数据提升视觉里程计性能，例如将单目视觉方法中的离焦法和聚焦法结合起来，提高弱纹理条件下定位的稳定性与可靠性等。

基于多源数据融合的视觉里程计，虽然通过多源数据融合的方式在一定程度上校正了前端部分累计漂移误差，降低了位姿估计的误差，但是其结合多重传感器的方式，使视觉定位系统在引入其他组件的同时，增加了系统复杂性，带来了系统成本上升、体积增大和应用领域受限问题。

发明内容

本发明的目的在于，克服现有具有传统视觉里程计的视觉定位系统由于累计漂移误差导致前端部分位姿估计不准确的问题以及具有基于多源数据融合的视觉里程计的视觉定位系统成本高、系统复杂、体积大和应用领域受限的问题，从而提出一种基于物理模型成像仿真的视觉定位方法与系统。

为解决上述技术问题，本发明的技术方案所提供的基于物理模型成像仿真的视觉定位方法，包括以下步骤：

步骤1）通过图像校正预处理模块，对光学系统采集的目标的实际拍摄图像帧序列进行预处理；通过实拍图像特征模块，对预处理后的所述实际拍摄图像帧序列中的当前时刻实际拍摄图像帧和前一时刻实际拍摄图像帧进行特征提取和特征匹配操作；通过实拍图像帧间位姿估计模块对匹配成功的所述当前时刻实际拍摄图像帧和前一时刻实际拍摄图像帧进行帧间相机运动估计操作，以获取当前时刻未优化的位姿状态量估计值；

步骤2）通过基于物理模型的成像仿真引擎，基于光线追踪理论，对所述目标的三维模型进行成像仿真，以实时生成所述目标在当前时刻的仿真渲染图像；

步骤3）通过虚实图像特征模块，对所述目标在当前时刻的所述仿真渲染图像和所述当前时刻实际拍摄图像帧进行特征提取与特征匹配操作；通过虚实图像帧间位姿估计模块对匹配成功的所述目标在当前时刻的仿真渲染图像与所述当前时刻实际拍摄图像帧进行帧间相机运动估计操作，以获取当前时刻位姿状态量观测值；

步骤4）通过计算模块，利用所述当前时刻未优化的位姿状态量估计值和所述当前时刻位姿状态量观测值，计算并输出当前时刻位姿状态量的最优估计值。

作为上述方法的一种改进，所述步骤1）具体包括：

步骤1-1）通过所述图像校正预处理模块，对光学系统采集的目标的实际拍摄图像帧序列进行畸变矫正；

步骤1-2）通过所述实拍图像特征模块，按照时序提取预处理后的所述实际拍摄图像帧序列中的当前时刻实际拍摄图像帧和前一时刻实际拍摄图像帧；

步骤1-3）通过所述实拍图像特征模块，提取所述当前时刻实际拍摄图像帧和前一时刻实际拍摄图像帧的特征点，并基于预设的第一汉明距离范围，获取所述当前时刻实际拍摄图像帧和与前一时刻实际拍摄图像帧之间的匹配特征点对，当最大汉明距离与最小汉明距离区间内的匹配特征点对的数量大于第一预设值时，认为匹配成功；其中，所述第一预设值大于8；

步骤1-4）通过所述实拍图像帧间位姿估计模块，基于随机采样一致性算法，对所述当前时刻实际拍摄图像帧和前一时刻实际拍摄图像帧之间的匹配成功的匹配特征点对进行匹配筛选，以排除其中的外点；

步骤1-5）通过所述实拍图像帧间位姿估计模块，基于对极几何原理，对匹配筛选后的所述当前时刻实际拍摄图像帧和前一时刻实际拍摄图像帧进行帧间相机运动估计操作,以获得匹配筛选后的所述当前时刻实际拍摄图像帧和前一时刻实际拍摄图像帧之间的当前时刻未优化的位姿状态量估计值，其中，所述当前时刻未优化的位姿状态量估计值

为：

；

其中，

为估计独立高斯噪声，其服从参数为

的高斯分布，

为状态转移函数，

为前一时刻位姿状态量估计值；其中，

，

为目标在前一时刻的位置信息，

为目标在前一时刻的姿态信息；

所述当前时刻未优化的位姿状态量估计值

包括：目标在当前时刻未优化的估计位置信息

和目标在当前时刻的未优化的估计姿态信息

。

作为上述方法的一种改进，所述步骤2）具体包括：

步骤2-1）探测所述目标，形成目标的三维点云文件，并进行三角化面片处理，以得到目标的数字化三维模型；

步骤2-2）对所述目标的数字化三维模型的表面进行处理，通过三维建模软件，对所述目标的数字化三维模型的表面材质的物理属性进行编辑，使目标的数字化三维模型的表面具有真实物理信息；

步骤2-3）针对已经编辑好表面材质的物理属性的目标的数字化三维模型，运行基于物理模型成像仿真的渲染算法，以得到目标在当前时刻的仿真渲染图像。本步骤所述成像仿真算法，依据相机传感器光谱响应曲线和物体表面材质的光谱响应曲线等物理属性进行仿真，可获得与相机实际拍摄图像帧一致性较高的仿真图像。

作为上述方法的一种改进，所述步骤3）具体包括：

步骤3-1）通过所述虚实图像特征模块，提取所述目标在当前时刻的仿真渲染图像和所述当前时刻实际拍摄图像帧的特征点，并基于预设的第二汉明距离，获取所述仿真渲染图像与所述当前时刻实际拍摄图像帧之间的匹配特征点对，当最大汉明距离与最小汉明距离区间内的匹配特征点对的数量大于第二预设值时，认为匹配成功；其中，第二预设值大于8。

步骤3-2）通过所述虚实图像帧间位姿估计模块，基于随机采样一致性算法，对所述仿真渲染图像与所述当前时刻实际拍摄图像帧之间的匹配成功的匹配特征点对进行匹配筛选，以排除其中的外点；

步骤3-3）通过所述虚实图像帧间位姿估计模块，基于对极几何原理，对匹配筛选后的所述仿真渲染图像和所述当前时刻实际拍摄图像帧进行帧间相机运动估计操作，以获取匹配筛选后的所述仿真渲染图像和所述当前时刻实际拍摄图像帧之间的当前时刻位姿状态量观测值；其中，

所述当前时刻位姿状态量观测值

为：

；

其中，

为观测函数，

为当前时刻未优化的位姿状态量估计值，

为观测独立高斯噪声，其服从参数为

的高斯分布；

为前一时刻的噪声方差矩阵；

所述当前时刻位姿状态量观测值

包括：目标在当前时刻的观测位置信息

和目标在当前时刻的观测姿态信息

。

作为上述方法的一种改进，所述计算模块采用扩展卡尔曼滤波器。

作为上述方法的一种改进，所述步骤4）具体包括：

步骤4-1）获取当前时刻的误差的协方差矩阵估计值

：

；

其中，

为前一时刻位姿状态量估计值

的偏导数，

为前一时刻的误差的协方差矩阵，

为当前时刻的误差的协方差矩阵，

为前一时刻的噪声方差矩阵;

为矩阵转置运算符；

步骤4-2）获取当前时刻的滤波器增益矩阵

：

；

其中，

为观测函数

在当前时刻的偏导数，

为目标在当前时刻的未优化的估计姿态信息，

为矩阵转置运算符；

步骤4-3）获取当前时刻位姿状态量的最优估计值

：

；

其中，

为所述当前时刻未优化的位姿状态量估计值，

为当前时刻的滤波器增益矩阵，

为所述当前时刻位姿状态量观测值，

为观测函数。

步骤4-4）获取当前时刻的误差的协方差矩阵的最优估计值

：

；

其中，

为当前时刻的误差的协方差矩阵的最优估计值，

为当前时刻的误差的协方差矩阵估计值，

为单位矩阵，

为当前时刻的滤波器增益矩阵，

为观测函数

在当前时刻的偏导数。

作为上述方法的一种改进，所述方法还包括：步骤5）重复步骤1）-步骤4），直至采集到的目标的实际拍摄图像帧序列终止，并将若干所述当前时刻位姿状态量的最优估计值按时序组合为目标的运动轨迹。

为实现本发明的再一目的，本发明还提供一种基于物理模型成像仿真的视觉定位系统，用于执行上述基于物理模型成像仿真的视觉定位方法，所述系统包括：图像校正预处理模块、实拍图像特征模块、实拍图像帧间位姿估计模块、基于物理模型的成像仿真引擎、虚实图像特征模块、虚实图像帧间位姿估计模块和计算模块；其中，

所述图像校正预处理模块，用于对光学系统采集的目标的实际拍摄图像帧序列进行预处理；

所述实拍图像特征模块，用于对预处理后的所述实际拍摄图像帧序列中的当前时刻实际拍摄图像帧和前一时刻实际拍摄图像帧进行特征提取和特征匹配操作；

所述实拍图像帧间位姿估计模块，用于对匹配成功的所述当前时刻实际拍摄图像帧和前一时刻实际拍摄图像帧进行帧间相机运动估计操作，以获取当前时刻未优化的位姿状态量估计值；

所述基于物理模型的成像仿真引擎，基于光线追踪理论，用于对所述目标的三维模型进行成像仿真，以实时生成所述目标在当前时刻的仿真渲染图像；

所述虚实图像特征模块，用于对所述目标在当前时刻的所述仿真渲染图像和所述当前时刻实际拍摄图像帧进行特征提取与特征匹配操作；

所述虚实图像帧间位姿估计模块，用于对匹配成功的所述目标在当前时刻的仿真渲染图像与所述当前时刻实际拍摄图像帧进行帧间相机运动估计操作，以获取当前时刻位姿状态量观测值；

所述计算模块，利用所述当前时刻未优化的位姿状态量估计值和所述当前时刻位姿状态量观测值，计算并输出当前时刻位姿状态量的最优估计值。

作为上述系统的一种改进，所述基于物理模型的成像仿真引擎利用视觉SLAM算法、扫描方法或探测方法，探测所述目标，形成目标的三维点云文件，并进行三角化面片处理，以得到目标的数字化三维模型；用于对所述目标的数字化三维模型的表面进行处理，利用三维建模软件，对所述目标的数字化三维模型的表面材质的物理属性进行编辑，使目标的数字化三维模型的表面具有真实物理信息；用于针对已经编辑好表面材质的物理属性的目标的数字化三维模型，运行基于物理模型成像仿真的渲染算法，以得到目标在当前时刻的仿真渲染图像。本步骤所述成像仿真算法，依据相机传感器光谱响应曲线和物体表面材质的光谱响应曲线等物理属性进行仿真，可获得与相机实际拍摄图像帧一致性较高的仿真图像。

作为上述系统的一种改进，所述计算模块采用扩展卡尔曼滤波器。

本发明将基于物理特征的成像仿真技术应用于视觉定位研究领域，利用基于物理模型的成像仿真引擎，实时生成给定位姿条件下的目标特性模拟图像，即仿真渲染图像，并利用仿真渲染图像与当前时刻实际拍摄图像帧之间的位姿状态量观测值对位姿状态量估计值进行优化，获得了当前时刻位姿状态量的最优估计值，避免了传统视觉里程计前端的漂移误差累计问题，即解决了不具备回环检测条件的使用场景中视觉定位误差较大的问题，又减少了具备回环检测条件的使用场景中后端的不确定性，还有助于目标检测、语义构建等相关研究方向的发展。

附图说明

图1为本发明提供的基于物理模型成像仿真的视觉定位方法流程图；

图2为基于物理模型的成像仿真引擎的管线图；

图3为本发明实施例的光学系统定标流程图；

图4为本发明实施例的测试数据真实轨迹图；

图5为本发明实施例的实验对比流程图；

图6为对极几何约束示意图；

图7为对比实验绝对轨迹误差曲线图；

图8为对比实验绝对轨迹误差分布图；

图9为部分实验轨迹结果图。

具体实施方式

以下结合实施例进一步说明本发明所提供的技术方案。

近年来，随着光线追踪和成像仿真技术的发展，以及建模技术和设备算力的提升，移动端处理器的实时图像仿真已经实现。于是，我们提出了一种基于成像仿真技术进行优化的视觉里程计方案，对场景中目标进行实时仿真图像渲染，作为动态特性模板与实际图像帧进行匹配，设计扩展卡尔曼滤波器，将匹配结果作为观测值对位姿状态量估计值进行修正，进而得出位姿状态量的最优化估计值。

本专利所提出的方法充分利用视觉SLAM算法运行过程中所生成的目标三维点云，并融合物体表面物理光谱数据，实时生成目标特性模拟图像，作为仿真渲染图像，用于前端误差消除，为视觉定位导航算法的优化方案提供了一种全新的思路，也为目标检测等相关任务提供了更为广阔的应用前景与研究内容。

实施例1

如图1所示，本实施例提供了基于物理模型成像仿真的视觉定位方法，包括以下步骤：

①对光学系统采集的图像序列进行预处理、特征提取与匹配、帧间运动信息估计等操作，获取当前时刻未经过优化的位姿状态量估计值。②成像仿真引擎生成当前位姿条件下所观测到的仿真渲染图像，作为观测方程的输入信息。③对当前位姿条件下的仿真渲染图像与当前时刻的实际拍摄图像帧进行特征提取与特征匹配操作，当匹配成功时，进行仿真渲染图像与当前时刻的实际拍摄图像帧之间的运动信息恢复，获取当前时刻位姿状态量观测值；当匹配失败时，不输出位姿状态观测值。④将当前时刻未经过优化的位姿估计值和位姿状态观测值作为扩展卡尔曼滤波器输入，并输出当前时刻位姿状态量的最优估计。前时刻未经过优化的位姿状态量估计值由图像序列帧间匹配过程求解，当前时刻位姿状态量观测值由虚实图像匹配及运动恢复过程求解。

各步骤详细描述为：

步骤①：对光学相机等视觉传感器所获取到的图像序列进行畸变矫正，按照时序对每张图像进行ORB特征提取与BRIEF描述子的计算，畸变矫正后的当前时刻实际拍摄图像帧，即第i+1张图像；在畸变矫正后的前一时刻实际拍摄图像帧，即第i张图像

中提取到特征点

，M为在第i张图像

提取的特征点数量；在第i+1张图像

中提取到特征点

，N为在第i+1张图像提取的特征点数量；对各特征点的BRIEF描述子进行汉明（Hamming）距离计算，依据距离进行判断，将第i张图像

上的特征点和第i+1张图像

上与第i张图像

上的特征点的特征编码对应bit位上相同元素的个数最多的特征点配成一对。对汉明（Hamming）距离合理设置阈值范围，进而可以得到一系列匹配特征点对。使用随机采样一致性（Random Sample Consensus, RANSAC）算法进行匹配筛选，从一组包含离群的外点（outliers）的观测数据中，得到若干组匹配正确的、可用于帧间运动估计的匹配特征点对，也即“内点（inliers）”。在相邻两帧时序图片中，即第i张图像和第i+1张图像中，获取到正确的匹配特征点对之后，根据对极几何原理，通过帧间相机运动估计操作计算两帧图像之间的运动信息，当前时刻未优化的位姿状态量估计值，并用位姿状态量

的形式进行表示，其参数化为

，其中位置状态量，即目标在前一时刻的位置信息

为：

，

分表表示i时刻相机在三维坐标系x、y、z三个坐标轴的分量，其中，以四元数形式展示的旋转状态量，即目标在前一时刻的姿态信息

：

；

式中四元数的定义为

的形式，

表示其实部，

表示其虚部。

步骤②：依据光线追踪原理，构建基于表面物理模型的成像仿真渲染引擎，实时生成当前位姿状态情况下的目标表面特性图片，整个渲染管线主要如图2所示。采样器针对渲染图像生成采样光线序列。相机系统依据预设的光学系统参数，将光线采样序列转换为从胶片平面发出的相应光线。积分器计算沿着该光线到达胶片平面某像素点的辐射率(Radiance)数值。胶片接收采样序列和对应的辐射率数值，并将其按照贡献存储于图像文件中。主渲染流程指在完成场景加载及光源采样后，引入光线追踪算法，依据渲染方程进行计算，最终获取当前位姿状态情况下的仿真渲染图像。

仿真渲染方程计算时，考虑来自

方向上的入射光线辐射率

，由辐射率和辐照度的定义可知：

；

式中

表示来自

方向入射光线的辐射率(Radiance)，即从一个微小面积表面出发，射向某个微小方向

的光通量，也即为单位立体角上的辐射通量密度;其中,

表示了辐射通量，单位为

；

表示微分面积

在垂直于光线方向上的投影；

是指该点处上半球

方向的入射光线的贡献，

表示入射方向，其在球坐标系下通过天顶角

(Zenith Angle)和方位角

(Azimuthal Angle)进行描述，表示为

。

由此可知，物体表面上一点

反射到

方向的、来自于

方向的入射光线贡献的辐射率为：

；

式中

符号表示按照颜色的RGB分量进行相乘运算，

为来自

方向的入射光线，在球坐标系下的方位角。

因此，物体表面上反射到

方向的来自物体上半球的所有入射光线的辐射率为：

；

表示对上半球平面的所有方向的入射光线进行积分。

按照预设的分辨率和光线追踪深度级数，沿着反射和折射光线方向对场景中各点递归进行求交计算，如若相交则依据上述公式计算辐射率，便可以得到渲染生成的图像，即仿真渲染图像。

步骤③：对同一时刻的仿真渲染图像与光学相机等视觉传感器采集的实际拍摄图像帧分别进行ORB特征提取与BRIEF描述子的计算，运行步骤①过程中的畸变矫正、特征提取与匹配、外点筛除、帧间运动估计流程，得出当前帧仿真渲染图像与实际拍摄图像帧之间的运动信息，即当前时刻位姿状态量观测值，作为用于矫正的位姿观测变量

，参数化形式与位姿状态变量

保持一致。该观测变量

则表征了当前位姿状态估计量与位姿状态实际数值之前的漂移偏差，可后续构建滤波器用于矫正。

步骤④：基于扩展卡尔曼滤波器设计图像矫正算法流程，得到视觉里程计的最优状态估计值。

首先构建系统状态方程为

，观测方程为

，其中

为状态转移函数，由传统的基于特征法的视觉里程计通过帧间匹配及运动估计完成，形式化为变换矩阵

，表示第i时刻至第i+1时刻的变换矩阵，即前一时刻至当前时刻的变换矩阵；

为观测函数，由当前生成的仿真图像与当前时刻的实拍图像进行帧间匹配与运动恢复完成，形式化为变换矩阵

，表示第i时刻的仿真图像与实拍图像之间的变换矩阵；状态量

表示i时刻的位姿状态量，也即位姿状态估计值，参数化为

，其中

表示i时刻的位置信息，

表示i时刻的姿态信息；观测变量

表示位姿偏差的矫正值，也即i时刻的仿真图像与真实图像之间的位姿状态观测值，参数化为

，

表示i时刻仿真图像与实拍图像之间的位置偏差，

表示i时刻仿真图像与实拍图像之间的姿态偏差；

为i时刻的过程噪声，即估计独立高斯噪声

为i时刻的观测噪声，即观测独立高斯噪声，

和

为满足均值为0的独立高斯噪声，也即

，

。

根据步骤①和③所计算的当前时刻未优化的位姿状态量估计值

和当前时刻位姿状态量观测值

构建扩展卡尔曼滤波器。噪声项满足如式（1）所示的要求，即i时刻的过程噪声

服从参数为

的高斯分布，即i时刻的观测噪声

服从参数为

的高斯分布：

（1）

首先根据状态方程进行状态量的时序更新，如式(2)所示，即当前时刻（i+1时刻）的位姿状态估计值由当前i+1时刻的状态转移函数作用于前一时刻（i时刻）的位姿状态估计值所得到：

(2)

式中

为第i张图像

的位姿状态估计值，

为第i+1张图像

的位姿状态估计值，即当前时刻未优化的位姿状态量估计值。

其次，根据状态转移函数和系统噪声方差进行方差预测，如式(3)所示：

(3)

式中

为状态方程在此处的偏导数，

为i时刻误差的协方差矩阵，

为i+1时刻误差的协方差矩阵，

为i时刻的噪声方差矩阵，

为矩阵转置运算符。

而后进行滤波器增益计算，如式(4)所示：

(4)

式中

为观测方程

在i+1时刻的偏导数，

为矩阵转置运算符，

为i+1时刻的滤波增益矩阵，表征了矫正观测变量在滤波修正时所占据的比重。

最后对位姿观测变量进行更新，并更新误差协方差矩阵，得到当前时刻位姿状态量的最优估计值，如式(5)，(6)所示：

(5)

为i+1时刻位姿状态量的最优估计值，

为i+1时刻未优化的位姿状态量估计值，

为式（4）计算得出的i+1时刻的滤波增益矩阵，

表示i时刻的仿真图像与真实图像之间的位姿状态观测值，

为测量方程；

(6)

为i+1时刻的误差的协方差矩阵的最优估计值，

为i+1时刻由式（3）计算得出的误差的协方差矩阵的估计值，I代表单位矩阵，

为式（4）计算得出的i+1时刻的滤波增益矩阵，

为观测方程

在i+1时刻的偏导数。

至此，完成基于仿真图像的位姿优化流程。视觉里程计长距离运行的主要噪声影响因素，便由漂移现象这种累计误差，转为因匹配误差、成像质量等系统过程因素带来的非累积误差了。

实施例2

一种基于物理模型成像仿真的视觉定位系统，实施例1提供的基于物理模型成像仿真的视觉定位方法，所述系统包括：图像校正预处理模块、实拍图像特征模块、实拍图像帧间位姿估计模块、基于物理模型的成像仿真引擎、虚实图像特征模块、虚实图像帧间位姿估计模块和计算模块；其中，

所述基于物理模型的成像仿真引擎，用于探测所述目标，形成目标的三维点云文件，并进行三角化面片处理，以得到目标的数字化三维模型；用于对所述目标的数字化三维模型的表面进行处理，利用三维建模软件，对所述目标的数字化三维模型的表面材质的物理属性进行编辑，使目标的数字化三维模型的表面具有真实物理信息；用于针对已经编辑好表面材质的物理属性的目标的数字化三维模型，运行基于物理模型成像仿真的渲染算法，以得到目标在当前时刻的仿真渲染图像。

所述计算模块采用扩展卡尔曼滤波器。

为验证发明提供的基于物理模型成像仿真的视觉定位方法及系统的可行性，实验步骤如图5所示，在室外搭建了实验测试场地，模拟无人机向地面移动停机坪目标靠近的情景。场地中预先粘贴April Tag码信息，用于提供每帧图像的真实位姿信息。

实验步骤101，光学系统标定；

对相机进行准确的标定可以有效地进行成像模型的参数确定及图像畸变矫正，本文采用张氏标定法对相机传感器及镜头进行标定，具体的标定流程如图3所示。

实验步骤102，测试数据真实值获取；

完成成像系统标定后，对测试数据图像序列各帧对应位姿的真实值进行标定。首先录制视野中包含有AprilTag码的图像序列数据，之后调用AprilTags2_ros工具包，设置AprilTag码的初始化位姿，运行程序得到相机在设定好的坐标系下的真实位姿信息。将各点坐标进行绘图，可以得到如图4所示的测试数据轨迹。

实验步骤103，目标三维建模及三角化面片生成；

实验目标对象选择为地面移动停机坪，模拟无人机向地面移动停机坪降落场景进行探究。采用RGB-D相机运行ORB-SLAM2开源算法，获取地面移动停机坪的稠密三维点云，经过滤波和调整作为实验对象的几何结构信息。对地面移动停机坪稠密三维点云进行贴图及调整，作为实验对象的外观纹理信息。在3D Studio Max三维设计软件中，将纹理信息与几何模型进行配准调整，导出为三角面片形式，并设置材质参数信息。

实验步骤104，基于对极几何的运动估计；

如图6对极几何约束示意图所示，假设成像平面上两像素点

和

为匹配正确的特征点对，当使用小孔相机模型描述成像时，上述两像素点之间具有如式(7)所示的几何关系：

(7)

这里K为相机内参矩阵，R为旋转矩阵，t为平移矩阵，P点在三维空间中的坐标计为P，

和

为代数常量，使得对应的投影关系成立。

根据对极几何约束表达式定义，得到式(8)：

(8)

为矩阵转置运算符，将式(8)中间的部分计为本质矩阵(Essential Matrix,E)，如式(9)所示：

(9)

于是，求解两帧图像之间的运动，即可描述为在获取两帧图像中匹配的特征点对之后，通过八点法(Eight-point-algorithm)求得本质矩阵

，进而估计出旋转运动信息

和平移运动信息

。

由于本文实验环节采用的相机内参恒定不变，因此选用形式较为简洁的本质矩阵

进行帧间运动恢复。对本质矩阵

进行奇异值分解（SVD）,得到式(10)：

(10)

式(10)中

、

均为正交矩阵，

为奇异值矩阵。

根据本质矩阵

的内在属性，可知式(11)：

(11)

即对角线元素为

，

，0的对角矩阵。

对角矩阵分解有四种可能的组合，将任意同一特征点代入四种解，使用OpenCV三角化检测，求得其在两帧图像中的深度信息，即可发现只有一组解使得其具有数值为正的深度。因此便可以舍弃另外三组解，得到正确的

、

矩阵。

实验步骤105，基于光线追踪的目标特性图像生成；

按照本申请的技术方案中的步骤②，输入参数为相机参数及当前位姿状态量，生成目标在当前成像条件下的表面特性模拟图像。

实验步骤106，基于扩展卡尔曼滤波的位姿状态最优化估计；

按照本申请的技术方案中的步骤④，将实际拍摄图像帧序列帧间运动估计所得到的位姿状态估计量，以及实时目标特性仿真生成图像与对应帧实拍图像之间估计得到的位姿状态观测量，作为扩展卡尔曼滤波器的输入参数，可得到位姿状态的最优估计量。

构建原型系统并进行实验验证，将本专利所提出的方法部署至机载计算平台；在实际工程应用中，经常通过绝对轨迹误差(Absolute Pose Error, APE)来评价算法的估计轨迹与真实轨迹的差异，该指标最早是在TUM数据集benchmark中定义的，目前应用非常广泛。此时我们假设系统真实轨迹为

，估计的轨迹为

，其中

，那么绝对轨迹误差则表征了每个时刻位姿李代数的均方根误差(Root-Mean-Squared, RMSE)，其数学定义如式(12)所示：

(12)

将本文所提出方案与传统基于ORB特征的视觉里程计方案进行了对比实验，实验结果如图7所示，可明显看出传统算法绝对轨迹误差持续累积，本文所提出的算法绝对轨迹误差不会持续累积，具有显著的矫正效果。

将对比实验中的绝对轨迹误差各点位数值进行如图8所示统计分析，发现本文所提方案的绝对轨迹误差多集中分布于0.05米以下区域，而传统基于ORB特征的视觉里程计方法绝对轨迹误差多分布于0.05米、0.24米附近，绝对轨迹误差尺度明显高于本文所提方法。

对本文所提出的算法和传统的基于ORB特征的视觉里程计算法进行比较，在22m的测试数据中，绝对轨迹误差指标约提升56%，实验结果如表1所示。

表1 对比实验绝对轨迹误差测试结果

对本文所提出的算法进行多组实验，分别模拟无人机垂直降落和高空、低空盘旋等场景，部分轨迹结果如图9所示,绝对轨迹误差结果如表2所示。分析结果可知：绝对轨迹误差较为理想，且不会随运行距离的增加而累积，符合算法预期假设。

表2 部分实验绝对轨迹误差测试结果

通过充分利用视觉SLAM算法运行过程中生成的三维点云文件，经由基于光线追踪的物理成像仿真渲染引擎，生成目标特性模拟图像并融合位姿估计计算流程，构建基于扩展卡尔曼滤波的视觉里程计优化系统，得出位姿状态量的最优化估计，避免了视觉SLAM前端的漂移误差累计问题，即解决了不具备回环检测条件的使用场景中视觉定位误差较大的问题，又减少了具备回环检测条件的使用场景中后端的不确定性，还有助于目标检测、语义构建等相关研究方向的发展

从上述对本发明的具体描述可以看出，本申请的技术方案利用目标三维模型特性及基于物理的光线追踪成像渲染引擎，实时生成给定位姿条件下的目标特性模拟图像，并与当前位姿条件下的实际拍摄图像帧进行对比及运动恢复估计，得出漂移误差的观测值，避免了误差增量累计现象。并通过构建基于扩展卡尔曼滤波的视觉里程计系统，输出位姿状态的最有估计。实验测量表明，该视觉里程计系统有效解决了传统算法前端的漂移误差累积问题，较传统ORB-SLAM2算法的前端定位精度提升约56%。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于物理模型成像仿真的视觉定位方法，包括以下步骤：

步骤4）通过计算模块，利用所述当前时刻未优化的位姿状态量估计值和所述当前时刻位姿状态量观测值，计算并输出当前时刻位姿状态量的最优估计值；

所述步骤2）具体包括：

步骤2-3）针对已经编辑好表面材质的物理属性的目标的数字化三维模型，运行基于物理模型成像仿真的渲染算法，以得到目标在当前时刻的仿真渲染图像。

2.根据权利要求1所述的基于物理模型成像仿真的视觉定位方法，其特征在于，所述步骤1）具体包括：

为：

；

其中，

为估计独立高斯噪声，其服从参数为

的高斯分布，

为状态转移函数，

为前一时刻位姿状态量估计值；其中，

，

为目标在前一时刻的位置信息，

为目标在前一时刻的姿态信息；

所述当前时刻未优化的位姿状态量估计值

包括：目标在当前时刻未优化的估计位置信息

和目标在当前时刻的未优化的估计姿态信息

。

3.根据权利要求1所述的基于物理模型成像仿真的视觉定位方法，其特征在于，所述步骤3）具体包括：

步骤3-1）通过所述虚实图像特征模块，提取所述目标在当前时刻的仿真渲染图像和所述当前时刻实际拍摄图像帧的特征点，并基于预设的第二汉明距离，获取所述仿真渲染图像与所述当前时刻实际拍摄图像帧之间的匹配特征点对，当最大汉明距离与最小汉明距离区间内的匹配特征点对的数量大于第二预设值时，认为匹配成功；其中，第二预设值大于8；

所述当前时刻位姿状态量观测值

为：

；

其中，

为观测函数，

为当前时刻未优化的位姿状态量估计值，

为观测独立高斯噪声，其服从参数为

的高斯分布；

为前一时刻的噪声方差矩阵；

所述当前时刻位姿状态量观测值

包括：目标在当前时刻的观测位置信息

和目标在当前时刻的观测姿态信息

。

4.根据权利要求1所述的基于物理模型成像仿真的视觉定位方法，其特征在于，所述计算模块采用扩展卡尔曼滤波器。

5.根据权利要求1所述的基于物理模型成像仿真的视觉定位方法，其特征在于，所述步骤4）具体包括：

步骤4-1）获取当前时刻的误差的协方差矩阵估计值

：

；

其中，

为前一时刻位姿状态量估计值

的偏导数，

为前一时刻的误差的协方差矩阵，

为当前时刻的误差的协方差矩阵，

为前一时刻的噪声方差矩阵;

为矩阵转置运算符；

步骤4-2）获取当前时刻的滤波器增益矩阵

：

；

其中，

为观测函数

在当前时刻的偏导数，

为目标在当前时刻的未优化的估计姿态信息，

为矩阵转置运算符；

步骤4-3）获取当前时刻位姿状态量的最优估计值

：

；

其中，

为所述当前时刻未优化的位姿状态量估计值，

为当前时刻的滤波器增益矩阵，

为所述当前时刻位姿状态量观测值，

为观测函数；

步骤4-4）获取当前时刻的误差的协方差矩阵的最优估计值

：

；

其中，

为当前时刻的误差的协方差矩阵的最优估计值，

为当前时刻的误差的协方差矩阵估计值，

为单位矩阵，

为当前时刻的滤波器增益矩阵，

为观测函数

在当前时刻的偏导数。

6.根据权利要求1所述的基于物理模型成像仿真的视觉定位方法，其特征在于，所述方法还包括：步骤5）重复步骤1）-步骤4），直至采集到的目标的实际拍摄图像帧序列终止，并将若干所述当前时刻位姿状态量的最优估计值按时序组合为目标的运动轨迹。

7.一种基于物理模型成像仿真的视觉定位系统，用于执行权利要求1-6任一所述基于物理模型成像仿真的视觉定位方法，其特征在于，所述系统包括：图像校正预处理模块、实拍图像特征模块、实拍图像帧间位姿估计模块、基于物理模型的成像仿真引擎、虚实图像特征模块、虚实图像帧间位姿估计模块和计算模块；其中，

所述计算模块，利用所述当前时刻未优化的位姿状态量估计值和所述当前时刻位姿状态量观测值，计算并输出当前时刻位姿状态量的最优估计值；

所述基于物理模型的成像仿真引擎，基于光线追踪理论，用于对所述目标的三维模型进行成像仿真，以实时生成所述目标在当前时刻的仿真渲染图像，具体包括：

8.根据权利要求7所述的基于物理模型成像仿真的视觉定位系统，其特征在于，所述基于物理模型的成像仿真引擎，用于探测所述目标，形成目标的三维点云文件，并进行三角化面片处理，以得到目标的数字化三维模型；用于对所述目标的数字化三维模型的表面进行处理，利用三维建模软件，对所述目标的数字化三维模型的表面材质的物理属性进行编辑，使目标的数字化三维模型的表面具有真实物理信息；用于针对已经编辑好表面材质的物理属性的目标的数字化三维模型，运行基于物理模型成像仿真的渲染算法，以得到目标在当前时刻的仿真渲染图像。

9.根据权利要求7所述的基于物理模型成像仿真的视觉定位系统，其特征在于，所述计算模块采用扩展卡尔曼滤波器。