CN112419409A

CN112419409A - 一种基于实时视频的位姿估计方法

Info

Publication number: CN112419409A
Application number: CN202011295425.1A
Authority: CN
Inventors: 张中; 黄俊杰; 汪明明
Original assignee: Hefei Zhanda Intelligent Technology Co ltd
Current assignee: Hefei Zhanda Intelligent Technology Co ltd
Priority date: 2020-11-18
Filing date: 2020-11-18
Publication date: 2021-02-26

Abstract

本发明涉及视频处理技术领域，具体涉及一种基于实时视频的位姿估计方法，包括以下步骤S1利用摄像机获取实时视频数据，并建立摄像机模型；S2利用摄像机模型在三维空间点和二维图像点之间建立映射；S3对于相邻图像之间的位姿变换关系，采用对极几何的方式进行度量；S4利用PnP算法求解三维空间点到二维图像点对运动；S5持续计算新的图像帧对应的位姿变换，并保证尺度一致性；S6利用BA算法对位姿估计进行优化，最终得到最佳的位姿估计结果。本发明提升位姿非线性优化过程中对外点的抵抗能力，有效提升了位姿追踪算法的精度和鲁棒性，实现了视频序列中位姿参数的精确求解，同时本发明算法的精度高于传统算法、可靠性更强、具有很强的实时性。

Description

一种基于实时视频的位姿估计方法

技术领域

本发明涉及视频处理技术领域，具体涉及一种基于实时视频的位姿估计方法。

背景技术

人类能够感知的外界信息约有80％来源于视觉图像信息，视觉功能在人类感知理解中扮演着十分重要的角色。Gibson理论"认为，人类视觉包含两个主要功能:一是适应外界环境，二是控制自身运动；Marr理论P则认为人类视觉的主要功能是从图像恢复场景的可见三维表观。这两种理论尽管描述的侧重点有所不同，但是都认为人类视觉的目的是对外界环境的感知。人类能够通过视觉感知的外界环境的基本信息又可以分为:位置、形状、运动和颜色。其中，位置信息的获取便主要通过位姿估计技术。

同时运动体也开始借助视觉传感器逐步感知自己的运动，认识自身的位置，快速追踪运动轨迹，甚至进行实时的三维重建，虽然很困难，但已经有了长足的发展。

近些年，随着自主移动机器人、可穿戴设备计算、增强现实和自动汽车驾驶等技术的急速发展，计算机视觉在其中发挥着越来越大的作用。到目前为止，以大疆的无人机、Uber自动驾驶汽车、网易增强现实平台应用等为代表的新生智能体均集成了视觉传感器，并大量投入使用，以提供环境认知、位姿估算、定位导航等功能，其适用领域呈增长趋势，具有庞大的市场需求，是目前的研究热点领域。

发明内容

针对现有技术的不足，本发明公开了一种基于实时视频的位姿估计方法，用于解决现有的位姿估计适应性和鲁棒性很差，在空间环境恶劣的光照条件和非合作目标多变的运动状态下，很难确保从目标图像中提取出正确的特征信息并正确地求得目标的位姿是我问题。

本发明通过以下技术方案予以实现：

本发明公开一种基于实时视频的位姿估计方法，所述方法包括以下步骤：

S1利用摄像机获取实时视频数据，并建立摄像机模型；

S2利用摄像机模型在三维空间点和二维图像点之间建立映射；

S3对于相邻图像之间的位姿变换关系，采用对极几何的方式进行度量；

S4利用PnP算法求解三维空间点到二维图像点对运动；

S5持续计算新的图像帧对应的位姿变换，并保证尺度一致性；

S6利用BA算法对位姿估计进行优化，最终得到最佳的位姿估计结果。

更进一步的，所述摄像机模型存在四个坐标系间的转换关系，包括世界坐标系、相机坐标系、图像坐标系以及像素坐标系。兙俥

更进一步的，所述S1中，获取实时视频的数据，首先对图像进行预处理，利用畸变参数结合畸变投影模型求得原图像中像素坐标在校正以后的正确坐标，通过建立原图像像素坐标与校正后图像像素坐标的一一对应关系，得到校正后的图像，消除成像过程中产生的畸变和噪声。

更进一步的，所述方法对涉及的点特征进行搜索和匹配，具体包括以下步骤：

T1对视频序列进行适当处理，提取出连续的单一帧图像；

T2利用特定的目标检测方法检测图像序列中出现的非合作目标本体，作为前景目标；

T3若视频序列中的某一帧图像中出现前景目标，则对前景目标图像利用特征点提取算子提取特征点；

T4对此幅图像之后的任意两帧相邻图像，在前景图像中搜索上一帧图像中的特征点在当前帧图像之中的最优位置，进而求得此点在当前帧中的坐标参数；

T5对以上的过程进行迭代操作，进而实现对特征点的KLT追踪。

更进一步的，所述方法中，采用Zhang标定算法，用具有精确定位信息的平面点阵模板，通过摄像机在不同方位获得两幅以上的模板图像，利用平面模板上的特征点与其对应图像点之间的单应性矩阵来求得摄像机的内部参数，对摄像机进行标定。

更进一步的，所述方法中，在实际图像上采集特征点，然后用畸变模型反算出其在虚拟的无畸变图像中的坐标，再使用反算后的坐标参与算法求解，实现图像畸变校正。

更进一步的，所述方法中，对全图像进行畸变校正时，首先在虚拟的无畸变图像平面采样，求取采样点畸变后的坐标，然后使用求得的坐标在实际图像上采集灰度信息并填入无畸变图像上的对应位置，实现全图像进行畸变校正。

本发明的有益效果为：

本发明提升位姿非线性优化过程中对外点的抵抗能力，有效提升了位姿追踪算法的精度和鲁棒性，实现了视频序列中位姿参数的精确求解，同时本发明算法的精度高于传统算法、可靠性更强、具有很强的实时性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是一种基于实时视频的位姿估计方法原理步骤图；

图2是本发明实施例校正图像对比图；

图3是本发明实施例摄像机模型图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

本实施例公开如图1所示的一种基于实时视频的位姿估计方法，所述方法包括以下步骤：

S1利用摄像机获取实时视频数据，并建立摄像机模型；

S4利用PnP算法求解三维空间点到二维图像点对运动；

摄像机模型存在四个坐标系间的转换关系，包括世界坐标系、相机坐标系、图像坐标系以及像素坐标系。兙俥

获取实时视频的数据，首先对图像进行预处理，利用畸变参数结合畸变投影模型求得原图像中像素坐标在校正以后的正确坐标，通过建立原图像像素坐标与校正后图像像素坐标的一一对应关系，得到校正后的图像，消除成像过程中产生的畸变和噪声。

本实施例采用Zhang标定算法，用具有精确定位信息的平面点阵模板，通过摄像机在不同方位获得两幅以上的模板图像，利用平面模板上的特征点与其对应图像点之间的单应性矩阵来求得摄像机的内部参数，对摄像机进行标定。

在实际图像上采集特征点，然后用畸变模型反算出其在虚拟的无畸变图像中的坐标，再使用反算后的坐标参与算法求解，实现图像畸变校正。校正后的对比图如图2所示。

对全图像进行畸变校正时，首先在虚拟的无畸变图像平面采样，求取采样点畸变后的坐标，然后使用求得的坐标在实际图像上采集灰度信息并填入无畸变图像上的对应位置，实现全图像进行畸变校正。

实施例2

本实施例公开点特征进行搜索和匹配，具体包括以下步骤：

T1对视频序列进行适当处理，提取出连续的单一帧图像；

在以上的过程中，在前景图像中搜索上一帧图像中特征点在当前帧图像之中的最优位置的过程为基于光流法的目标追踪算法的核心，KLT追踪算法的搜索匹配算子在这方面表现优异，能够实现视频图像序列中特征点较为稳定的追踪，并且其计算速度能够满足实时求解的需求。

实施例3

本实施例公开摄像机的成像模型，可以表征目标物图像坐标到其三维坐标的映射关系，是对实际相机物理参数的模型化，在本文中，采用带畸变的针孔相机模型，如图3所示，以下对其作简要描述。

通过相机成像的几何模型可以定义相机的内、外参数。在随后的研究中，主要用到相机的内参数用于后续的非合作目标位姿测量和跟踪任务。内参数指的是相机的主点、焦距、畸变参数等。

本实施例中，由于高次径向畸变参数对相机成像畸变影响极小，因此忽略对相机畸变的影响。畸变参数属于相机内部参数，不随外部条件的改变而改变。

综上，本发明提升位姿非线性优化过程中对外点的抵抗能力，有效提升了位姿追踪算法的精度和鲁棒性，实现了视频序列中位姿参数的精确求解，同时本发明算法的精度高于传统算法、可靠性更强和具有很强的实时性。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于实时视频的位姿估计方法，其特征在于，所述方法包括以下步骤：

S1利用摄像机获取实时视频数据，并建立摄像机模型；

S4利用PnP算法求解三维空间点到二维图像点对运动；

2.根据权利要求1所述的基于实时视频的位姿估计方法，其特征在于，所述摄像机模型存在四个坐标系间的转换关系，包括世界坐标系、相机坐标系、图像坐标系以及像素坐标系。

3.根据权利要求1所述的基于实时视频的位姿估计方法，其特征在于，所述S1中，获取实时视频的数据，首先对图像进行预处理，利用畸变参数结合畸变投影模型求得原图像中像素坐标在校正以后的正确坐标，通过建立原图像像素坐标与校正后图像像素坐标的一一对应关系，得到校正后的图像，消除成像过程中产生的畸变和噪声。

4.根据权利要求1所述的基于实时视频的位姿估计方法，其特征在于，所述方法对涉及的点特征进行搜索和匹配，具体包括以下步骤：

T1对视频序列进行适当处理，提取出连续的单一帧图像；

5.根据权利要求1所述的基于实时视频的位姿估计方法，其特征在于，所述方法中，采用Zhang标定算法，用具有精确定位信息的平面点阵模板，通过摄像机在不同方位获得两幅以上的模板图像，利用平面模板上的特征点与其对应图像点之间的单应性矩阵来求得摄像机的内部参数，对摄像机进行标定。

6.根据权利要求1所述的基于实时视频的位姿估计方法，其特征在于，所述方法中，在实际图像上采集特征点，然后用畸变模型反算出其在虚拟的无畸变图像中的坐标，再使用反算后的坐标参与算法求解，实现图像畸变校正。

7.根据权利要求6所述的基于实时视频的位姿估计方法，其特征在于，所述方法中，对全图像进行畸变校正时，首先在虚拟的无畸变图像平面采样，求取采样点畸变后的坐标，然后使用求得的坐标在实际图像上采集灰度信息并填入无畸变图像上的对应位置，实现全图像进行畸变校正。