CN106780484A

CN106780484A - 基于卷积神经网络特征描述子的机器人帧间位姿估计方法

Info

Publication number: CN106780484A
Application number: CN201710018461.5A
Authority: CN
Inventors: 刘国良; 张威; 田国会; 赵洋
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2017-01-11
Filing date: 2017-01-11
Publication date: 2017-05-31

Abstract

本发明涉及一种基于卷积神经网络特征描述子的机器人帧间位姿估计方法，首先采用特征点提取算法提取当前帧图像中的特征点，然后裁剪以所述特征点位置为中心的局部区域图像，将该局部区域图像输入到具有中间层的卷积神经网络中，并提取卷积神经网络的中间层输出向量作为该特征点的特征描述子；对相邻两帧图像中的特征描述子进行特征点匹配，根据得到的特征匹配关系采用帧间运动估计算法估计相邻两帧图像之间机器人的位姿变化。

Description

基于卷积神经网络特征描述子的机器人帧间位姿估计方法

技术领域

本发明涉及一种基于卷积神经网络特征描述子的机器人帧间位姿估计方法。

背景技术

在机器人学与计算机视觉领域，视觉里程计是一个通过分析相关图像序列，来确定机器人位置和朝向的过程。在传统的测量领域，例如采用旋转编码器测量机器人轮子的转动，当机器人向前移动一段时间后，想要知道大致的移动距离，借助旋转编码器，可以测量出轮子旋转的圈数，如果知道了轮子的周长，便可以计算出机器人移动的距离。但通常会遇到精度问题，例如轮子的打滑就会导致产生机器人移动的距离与轮子的旋转圈数不一致的问题。当机器人在不光滑的表面运动时，误差是由多种因素混合产生的。由于误差随时间的累积，导致了里程计的读数随着时间的增加，而变得越来越不可靠。

视觉里程计是一种利用连续的图像序列来估计机器人移动距离的方法。视觉里程计增强了机器人在任何表面以任何方式移动时的导航精度。视觉里程计是机器人定位、地图构建以及路径规划等高层任务的基础。传统的视觉里程计主要通过匹配帧间视觉特征描述子，分析计算特征之间的空间几何关系，估计机器人帧间位姿。传统的特征描述子需要人工设计和计算，造成对图像信息表示具有一定的人为性和局限性，在应对图像的光照变化、遮挡、运动模糊等情形具有较大的局限性，影响了其估计精度。

发明内容

本发明为了解决上述问题，提出了一种基于卷积神经网络特征描述子的机器人帧间位姿估计方法，利用了卷积神经网络描述图像特征的鲁棒性，相较于传统特征描述方法拥有更好的特征点匹配效果。

为了实现上述目的，本发明采用如下方案：

基于卷积神经网络特征描述子的机器人帧间位姿估计方法，首先采用特征点提取算法提取当前帧图像中的特征点，其特征在于：裁剪以所述特征点位置为中心的局部区域图像，当所述特征点为多尺度特征时，根据特征点所在的图像尺度进行局部区域图像的裁剪。将该局部区域图像输入到具有中间层的卷积神经网络中，并提取卷积神经网络的中间层输出向量作为该特征点的特征描述子；对相邻两帧图像中的特征描述子进行特征点匹配，根据得到的特征匹配关系采用帧间运动估计算法估计相邻两帧图像之间机器人的位姿变化。

对特征点的提取，可根据应用场景选取恰当的特征点提取算法。包括SIFT特征采用DOG算法提取特征点、SURF特征采用Hessian Matrix算法提取特征点、ORB特征采用改进的FAST算法提取特征点等类似的特征点提取算法。

所述卷积神经网络（Convolutional Neural Network,CNN）是一种前馈神经网络，它的人工神经元可以响应一部分覆盖范围内的周围单元，对于大型图像处理有出色表现。它包括卷积层和池化层。在实际应用中，往往使用多层卷积，然后再使用全连接层进行训练，多层卷积的目的是一层卷积学到的特征往往是局部的，层数越高，学到的特征就越全局化。

卷积神经网络来自于深度学习，深度学习的概念源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示。深度学习的概念由Hinton等人于2006年提出。基于深度置信网络(DBN)提出非监督贪心逐层训练算法，为解决深层结构相关的优化难题带来希望，随后提出多层自动编码器深层结构。此外Lecun等人提出的卷积神经网络是第一个真正多层结构学习算法，它利用空间相对关系减少参数数目以提高训练性能。

本发明对相邻两帧图像中的特征描述子采用近似最近邻方法进行特征点匹配，根据得到的特征匹配关系采用帧间运动估计算法估计相邻两帧图像之间机器人的位姿变化。

帧间运动估计算法：由于运动图像邻近帧中的景物存在着一定的相关性。因此，可将运动图像分成若干块或宏块，并设法搜索出每个块或宏块在邻近帧图像中的位置，并得出两者之间的空间位置的相对偏移量，得到的相对偏移量就是通常所指的运动矢量，得到运动矢量的过程被称为运动估计，采用的算法即为帧间运动估计算法。

本发明的有益效果：本发明提出了一种基于卷积神经网络特征描述子的帧间估计技术，实现基于视觉图像的帧间估计。相对于传统特征描述方法，本发明采用基于深度学习的卷积神经网络中得到的特征描述子，可以从数据中寻找对局部图像的深层次特征描述，在面对遮挡旋转等复杂情形时拥有更精准的特征点匹配效果。

附图说明

图1为本发明简化的流程图。

具体实施方式：

下面结合附图与实施例对本发明作进一步说明。

实施例1：基于卷积神经网络特征描述子的机器人帧间位姿估计方法。

如图1所示：本发明首先提取相邻两帧图像中的特征点，裁剪以所述特征点位置为中心的局部区域图像，当所述特征点为多尺度特征时，根据特征点所在的图像尺度进行局部区域图像的裁剪。将该局部区域图像输入到具有中间层的卷积神经网络中，并提取卷积神经网络的中间层输出向量作为该特征点的特征描述子；对相邻两帧图像中的特征描述子进行特征点匹配，根据得到的特征匹配关系采用帧间运动估计算法估计相邻两帧图像之间机器人的位姿变化。

所述卷积神经网络包括卷积层和池化层。在实际应用中，往往使用多层卷积，然后再使用全连接层进行训练，多层卷积的目的是一层卷积学到的特征往往是局部的，层数越高，学到的特征就越全局化。

本发明的卷积神经网络可以利用预训练的AlexNet模型或Overfeat模型，也可以基于其他实测数据库对预训练网络再训练和参数调优，如Places等公共数据图像库。

本发明对相邻两帧图像中的特征描述子通过近似最近邻等方法进行相邻两帧间的特征点匹配，根据得到的特征匹配关系采用帧间运动估计算法估计相邻两帧图像之间机器人的位姿变化。

本发明采用的帧间运动估计算法主要包括：采用三点算法（特征点3D位置已知）、五点算法、八点算法或PnP()算法计算特征点匹配的基本矩阵并剔除误配点，然后采用最小二乘算法结合随机采样RANSAC算法获得所述相邻两帧图像之间机器人的位姿变化。

摄像机在3D场景中前后两个时刻之间的任何运动都可以分解为旋转和平移两个部分，运动参数的估计问题就是要估计出旋转矩阵R和平移向量T。算法主要分为三类，基于本质矩阵，基于光流法和其他方法。目前的研究都集中在基于本质矩阵的方法上。本质矩阵建立了前后图像中特征点集的映射关系。由于在相差一个倍数的意义上，求解本质矩阵最少只需要3个匹配点或5个匹配点或8个匹配点即可完成，这种基本的方法称之为三点算法、五点算法、八点算法。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.基于卷积神经网络特征描述子的机器人帧间位姿估计方法，首先采用特征点提取算法提取当前帧图像中的特征点，其特征在于：裁剪以所述特征点位置为中心的局部区域图像，将该局部区域图像输入到具有中间层的卷积神经网络中，并提取卷积神经网络的中间层输出向量作为该特征点的特征描述子；对相邻两帧图像中的特征描述子进行特征点匹配，根据得到的特征匹配关系采用帧间运动估计算法估计相邻两帧图像之间机器人的位姿变化。

2.根据权利要求1所述的方法，其特征在于：当所述特征点为多尺度特征时，根据特征点所在的图像尺度进行局部区域图像的裁剪。

3.根据权利要求1所述的方法，其特征在于：所述特征点包括SIFT特征、SURF特征或ORB特征中的一种。

4.根据权利要求3所述的方法，其特征在于：需提取SIFT特征时，采用DOG算法；需提取SURF特征时，采用Hessian Matrix算法；需提取ORB特征时，采用FAST算法。

5.根据权利要求1所述的方法，其特征在于：所述卷积神经网络采用预训练的AlexNet模型、Overfeat模型或基于实测数据库对预训练网络再训练和参数调优的数据库。

6.根据权利要求1所述的方法，其特征在于：对相邻两帧图像中的特征描述子采用近似最近邻方法进行特征点匹配，根据得到的特征匹配关系估计采用帧间运动估计算法相邻两帧图像之间机器人的位姿变化。

7.根据权利要求1所述的方法，其特征在于：所述帧间运动估计算法包括：采用三点算法计算特征点匹配的基本矩阵并剔除误配点，然后采用最小二乘算法结合随机采样RANSAC算法获得所述相邻两帧图像之间机器人的位姿变化。

8.根据权利要求7所述的方法，其特征在于：所述三点算法替换为五点算法、八点算法或PnP算法。