CN111860651B

CN111860651B - 一种基于单目视觉的移动机器人半稠密地图构建方法

Info

Publication number: CN111860651B
Application number: CN202010710365.9A
Authority: CN
Inventors: 倪建军; 杨也; 朱金秀; 史朋飞
Original assignee: Changzhou Campus of Hohai University
Current assignee: Changzhou Campus of Hohai University
Priority date: 2020-07-22
Filing date: 2020-07-22
Publication date: 2022-09-13
Anticipated expiration: 2040-07-22
Also published as: CN111860651A

Abstract

本发明属于视觉机器人构图技术领域，公开了一种基于单目视觉的移动机器人半稠密地图构建方法，本发明涉及ORB‑SLAM、卷积神经网络及半稠密地图构建，机器人根据单目相机构建稀疏点云地图，结合卷积神经网络构建带有语义标签的关键帧以及稀疏点云的地图，当机器人到达感兴趣区域时，开启半稠密地图构建。本发明利用卷积神经网络结合ORB‑SLAM构建带有语义信息的地图，利用归一化互相关进行立体视觉匹配达到较为稠密的匹配关系，高斯滤波对每次新的深度数据进行融合与传递；本发明在机器人构建半稠密地图以及自主导航等方面，具有重要理论和现实应用价值。

Description

一种基于单目视觉的移动机器人半稠密地图构建方法

技术领域

本发明涉及一种基于单目视觉的移动机器人半稠密地图构建方法，属于视觉机器人构图技术领域，是人工智能与机器人技术相结合的应用。

背景技术

视觉机器人构图的应用范围很广，可以在军事、航空航天、探测、灾害处理等方而做出突出的贡献，并且视觉机器人构图的研究是机器人研究领域的重要内容之一，其研究具有重要理论和现实应用价值，现有单目视觉机器人构图只能构建稀疏点云地图，并且缺乏一定的语义信息，本专利针对该问题进行改进。

发明内容

发明目的：为了克服现有技术中存在的不足，本发明提供一种基于单目视觉的移动机器人半稠密地图构建方法，包括以下步骤：

步骤(1)：移动机器人视为一个智能体，移动机器人携带单目摄像头；

步骤(2)：移动机器人利用单目相机采集其工作环境下的图像信息用于定位和构图等工作；

步骤(3)：任务开始时，首先利用机器人采集所工作的环境图像，采集的图像作为卷积神经网络算法的训练数据集，同时也是同时定位与构图算法的数据集；

步骤(4)：单目机器人采集完数据集后，为了提高卷积神经网络模型性能，进行数据增强工作，一方面可以增加训练数据，从而提升模型的泛化能力，另一方面可以在增加噪声数据，从而增强模型的鲁棒性。使用的卷积神经网络共有5层，在包含softmax的同时，具有卷积层、池化层和全连接层，分别为2层、2层和1层。网络的输入是经过降维处理32*32的图像，第一层卷积层的卷积核为5*5，卷积核移动步幅为1；第二层卷积层的卷积核为5*5，卷积核移动步幅为1；池化层采用2*2规模的窗口，池化步幅为2，并通过均值法实现降采样；网络的最终输出为分类的概率；

步骤(5)：单目机器人在运行ORB-SLAM构建的稀疏特征地图的基础上，结合分类信息构建基于关键帧语义标签的映射地图；

步骤(6)：单目机器人重定位到感兴趣区域时(包含语义信息区域)，进行半稠密重建。在半稠密重建算法中，加入像素点梯度筛选策略，减少地图重建的误差以及时间消耗。接着逆深度估计部分利用仿射变换约束提高归一化互相关(NCC)匹配质量。算法中增添图像金字塔加快逆深度的收敛，同时改进深度信息的传递策略。

所述步骤(5)中语义关键帧具体是指，语义关键帧的内容和格式如下：

K_frame＝{T_{_c_w},c_yml,f,n,P}

其中，T_{_c_w}表示相机的位姿信息；c_yml表示相机内部参数(固定值)，f代表当前关键帧中观测到的稀疏ORB特征，n为分类信息，P为分类的权重信息，K_frame即表示语义关键帧。

所述步骤(6)中像素点梯度筛选具体是指：

(3a)：半稠密地图构建是基于灰度值匹配方法，其对光照十分敏感，为了在匹配过程中体现出足够的区分度，筛选出梯度明显的像素点。所谓梯度，即函数的变化率(导数)，图像是一个二维函数f(x,y),其偏微分为如式所示：

因为图像是一个离散的二维函数，f(x,y),f(x+ε,y),f(x,y+ε)表示相邻的像素值，ε表示相邻的单位，其在x和y方向上的像素梯度

和

的ε取值并不能无限趋于0，上述公式精简为：

式中g(x)，g(y)分别是图像在点(x,y)处关于x方向上的梯度和关于y方向上的梯度，f(x,y),f(x+1,y),f(x,y+1)表示相邻一个像素单位的像素点；

M(x,y)＝|g_x|+|g_y|

式中M(x,y)表示复合导，g(x)，g(y)分别是图像在点(x,y)处关于x方向上的梯度和关于y方向上的梯度。

所述步骤(6)中逆深度估计步骤具体是指：

(4a)：逆深度估计步骤分为三步：立体视觉匹配，极线搜索以及三角化恢复深度信息；

(4b)：基于归一化互相关立体视觉匹配算法的计算方式如下：

为了进一步增强光照变化下的鲁棒性，通过在待匹配像素位置构建一个邻域匹配窗口，与目标像素位置构建同样大小的邻域匹配窗口的方式建立目标函数来对匹配窗口进行衡量相关性，本节这里构建相关窗口添加了仿射校正，否则匹配过程将消耗更多的计算资源，其主要思想是参考帧图片上一点附近都为一个平面且深度一样；其主要计算公式如下：

P_ref＝f_ref*depth

p_curr＝F(T*P_ref)

其中，P_ref表示为根据仿射变换计算到参考帧影像上的坐标；f_ref表示像空间坐标；depth为深度，T为坐标转换矩阵，F为相机坐标系到像素，p_curr为当前帧按深度投影的像素。NCC评分公式为：

其中，p(i,j)、p'(i,j)分别表示参考帧图像上p像素块与当前帧图像上p'像素块之间的差异性。S_core(p,p')表示NCC评分；其中ε为防止分母出现0这一情况的极小值；

(4c)：极线搜索方法为：

将参考帧的像素点从像素坐标转换为摄像机坐标系下的三维坐标，接着将对应的三维坐标以旋转矩阵为变换矩阵转换到当前帧的摄像机坐标系下，然后再投影到当前帧图像上获得当前帧的像素坐标。考虑到深度的方差，在两个极端情况下，即最大和最小深度，将参考帧中转换后的三维坐标投影两次，得到两个投影坐标，这两点坐标的连线即为要搜索的极线。在极线上搜索NCC最相似的块。

(4d)：三角化恢复逆深度信息公式为：

s₁q₁＝s₂Rq₂+t

s₁q₁^q₁＝s₂q₁^Rq₂+q₁^t＝0

其中q₁，q₂为归一化平面坐标，q₂由q₁经过一定程度的旋转和平移得到，s₁,s₂表示两帧图片上对应像素点的深度，R，t分别表示变换矩阵和平移，α，β分别表示基线与两帧对应像素点到空间中实际位置连线的夹角，δβ表示有一个像素误差造成的夹角误差，则它们必满足上式所示的旋转平移变换公式，接着通过转化，联立出一个线性方程组；

对于误差公式由下所示：

δp＝||p||-||p'||

q₁所在平面作为参考帧，q₂所在平面则被称作当前帧，l₂为q₁在当前帧中所对应的极线，相机到成像面的距离都默认为焦距f。假设在l₂进行极线搜索时，所找寻到的q'₂点与真实的q₂点之间具有一个像素的误差。其中p，t已知，α，β，δβ可以经过三角定理得到。δp正是深度的均方差，深度滤波器的目的便是要不断减小这个均方差；

每当新的数据传递过来，就需要利用新的观测数据更新原有的数据信息。这就是高斯融合，也是深度滤波器的原理，其主要公式为：

其中，μ，σ²为原深度值和原深度均方差，μ_new，σ_new ²为新深度值和新深度均方差，μ_fuse，σ_fuse ²为融合后深度值和深度均方差，

为获取的新的数据分布，P(d)＝N(μ,σ²)为原有的逆深度值分布。

所述步骤(6)中基于图像金字塔的逆深度传递是指：

(5a)：原图像经过高斯滤波，接着删除所有的偶数行和列，得到的图像的长和宽分别为原图像的一半。原图使用降采样后，上层的每一个像素对应着下层图像中彼此相邻的四个像素。若当前层为n，

表示当前层的第j行第j列像素灰度值，则下一层图像所对应的像素灰度值为：

(5b)：并行处理图像金字塔每一层的匹配、搜索与逆深度估计，接着进行逆深度信息在图像金字塔中的传递策略，其主要步骤如下：

①并行处理图像金字塔每一层，包括像素点筛选、立体视觉匹配和三角化估计逆深度与融合。

②对图像金字塔上层像素点进行遍历。

③与图像金字塔下层相对应的四个像素点进行比较。

④对应下层像素是否存在逆深度估计，若存在进行下一步；若不存在判断下层对应四个像素点是否遍历结束，若未结束，回到步骤3；判断上层图像是否遍历结束，若结束，进行下一步；若未结束，回到步骤2。

⑤上层像素的逆深度估计与下层像素逆深度估计相似，相似的定义为：两像素逆深度值的差值绝对值小于两逆深度分布中的标准差的均值。若相似，通过高斯融合进行逆深度更新；若不相似，判断下层对应四个像素是否遍历结束。

进一步的，所述构建方法采用的设备包括机器人、单目摄像机、存储设备以及PC端，其中单目摄像机、存储设备均安装在机器人上面，机器人通过摄像机采集实时图像传输到PC端；机器人通过PC端进行算法运行以及系统控制。

有益效果

本发明提供的一种基于单目视觉的移动机器人半稠密地图构建方法，能提高构图效率，并且能够实时地感知环境，构建半稠密地图，具有如下优点：

(1)本发明利用机器人携带的单目相机视觉感器来得到环境的信息，并估计机器人的位姿信息，进行单目机器人定位与构建地图，可以更加有效地为机器人定位与构建环境信息；

(2)本发明利用ORB-SLAM算法为半稠密构建地图提供机器人的位姿信息，此算法不仅减小了机器人的位姿累积误差，而且提高了机器人系统的鲁棒性，对跟踪方面不会出现易丢失等情况；

(3)本发明提出利用一个5层的卷积神经网络对机器人工作环境做一个简单的二分类问题，划分出机器人感兴趣区域和非感兴趣区域，同时结合ORB-SLAM构建带有语义信息的关键帧，即为感兴趣区域；

(4)本发明在机器人定位到感兴趣区域时，将进行半稠密建图算法，此算法利用增添仿射不变约束的归一化互相关匹配算法提高匹配精度，接着进行极线搜索与三角化恢复深度信息，最后利用图像金字塔图像化处理手段加速深度信息的传递与收敛。

附图说明

图1为本发明的硬件设备框图；

图2为本发明中单目机器人半稠密构图方法流程图；

图3为本发明中基于卷积神经网络算法的语义关键帧构建流程图；

图4为本发明中半稠密地图算法流程图。

具体实施方式

下面结合附图对本发明作更进一步的说明。

如图1所示，为实施本发明的硬件设备框图，包括机器人1、单目摄像机2、存储设备3以及PC端4，其中单目摄像机2、存储设备3均安装在机器人1上面，机器人1通过摄像机2采集实时图像传输到PC端4。机器人1通过PC端4进行算法运行以及系统控制。

如图2所示，为一种基于单目视觉的移动机器人半稠密地图构建方法，包括以下步骤：

K_frame＝{T_{_c_w},c_yml,f,n,P}

其中，T_{_c_w}表示相机的位姿信息；c_yml表示相机内部参数(固定值)，f代表当前关键帧中观测到的稀疏ORB特征，n为分类信息，P为分类的权重信息。

因为图像是一个离散的二维函数，其在x和y方向上的像素梯度的ε取值并不能无限趋于0，而图像是按照像素来离散的，ε所取的最小值是1像素。上述公式精简为：

式中分别是图像在点(x,y)处关于x方向上的梯度和关于y方向上的梯度。两个方向的梯度可以用如下的方式复合在一起表示为：

M(x,y)＝|g_x|+|g_y|

所述步骤(6)中逆深度估计步骤具体是指：

(4b)：基于归一化互相关立体视觉匹配算法的计算方式如下：

P_ref＝f_ref*depth

p_curr＝F(T*P_ref)

其中，p(i,j)、p'(i,j)分别表示参考帧图像上p像素块与当前帧图像上p'像素块之间的差异性。其中ε为防止分母出现0这一情况的极小值；

(4c)：极线搜索方法为：

(4d)：三角化恢复逆深度信息公式为：

s₁q₁＝s₂Rq₂+t

s₁q₁^q₁＝s₂q₁^Rq₂+q₁^t＝0

其中q₁，q₂为归一化平面坐标，q₂由q₁经过一定程度的旋转和平移得到，则它们必满足上式所示的旋转平移变换公式，接着通过转化，联立出一个线性方程组；

对于误差公式由下所示：

δp＝||p||-||p'||

其中，

为获取的新的数据分布，P(d)＝N(μ,σ²)为原有的逆深度值分布，μ_new实际上就是每次新三角化出来的深度值，而对于

就是上面提到的δp；

所述步骤(6)中基于图像金字塔的逆深度传递是指：

②对图像金字塔上层像素点进行遍历。

③与图像金字塔下层相对应的四个像素点进行比较。

如图3所示，为基于卷积神经网络的语义关键帧构建流程图，具体包括：

(6a)数据采集与处理；

(6b)神经网络训练模型训练；

(6c)根据场景分类构建语义关键帧；

(6d)结合ORB-SLAM构建语义稀疏地图。

所述步骤(5)中利用卷积神经网络构建语义关键帧是指：

K_frame＝{T_{_c_w},c_yml,f,n,P}

如图4所示，为所述步骤(6)中半稠密地图构建流程图，具体包括：

(7a)从数据集读取数据，并以图像金字塔方式处理；

(7b)第一张图作为参考帧，循环读取剩余图片；

(7c)并行执行每一层图像；

(7d)像素梯度筛选；

(7e)NCC匹配后进行极线搜索接着三角化恢复深度信息；

(7f)遍历当前层像素与下层对应四个像素比较。

本发明在机器人定位与构建半稠密地图以及自主导航等方面，具有重要理论和现实应用价值。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于单目视觉的移动机器人半稠密地图构建方法，其特征在于，包括如下步骤：

移动机器人利用单目相机采集其工作环境下的图像信息；

利用机器人采集的环境图像作为卷积神经网络算法的训练数据集，及定位与构图算法的数据集；

单目机器人完成数据采集后，进行卷积神经网络场景分类，在运行ORB-SLAM构建的稀疏特征地图的基础上，结合分类信息构建语义关键帧的映射地图；

单目机器人重定位到感兴趣区域，进行半稠密地图重建；在半稠密重建算法中，加入像素点梯度筛选策略；

逆深度估计步骤分为三步：立体视觉匹配，极线搜索以及三角化恢复深度信息；

基于归一化互相关立体视觉匹配算法的计算方式如下：

P_ref＝f_ref*depth

p_curr＝F(T*P_ref)

其中，P_ref表示为根据仿射变换计算到参考帧影像上的坐标；f_ref表示像空间坐标；depth为深度，T为坐标转换矩阵，F为相机坐标系到像素，p_curr为当前帧按深度投影的像素；NCC评分公式为：

其中，p(i,j)、p'(i,j)分别表示参考帧图像上p像素块与当前帧图像上p'像素块之间的差异性，S_core(p,p')表示NCC评分；其中ε为防止分母出现0这一情况的极小值；

极线搜索方法为：

将参考帧的像素点从像素坐标转换为摄像机坐标系下的三维坐标，接着将对应的三维坐标以旋转矩阵为变换矩阵转换到当前帧的摄像机坐标系下，然后再投影到当前帧图像上获得当前帧的像素坐标；考虑到深度的方差，在两个极端情况下，即最大和最小深度，将参考帧中转换后的三维坐标投影两次，得到两个投影坐标，这两点坐标的连线即为要搜索的极线；在极线上搜索NCC最相似的块；

三角化恢复逆深度信息公式为：

s₁q₁＝s₂Rq₂+t

s₁q₁^q₁＝s₂q₁^Rq₂+q₁^t＝0

对于误差公式由下所示：

δp＝||p||-||p'||

q₁所在平面作为参考帧，q₂所在平面则被称作当前帧，l₂为q₁在当前帧中所对应的极线，相机到成像面的距离都默认为焦距f；假设在l₂进行极线搜索时，所找寻到的q'₂点与真实的q₂点之间具有一个像素的误差；其中p，t已知，α，β，δβ可以经过三角定理得到；δp正是深度的均方差，深度滤波器的目的便是要不断减小这个均方差；

每当新的数据传递过来，就需要利用新的观测数据更新原有的数据信息；这就是高斯融合，也是深度滤波器的原理，其主要公式为：

为获取的新的数据分布，P(d)＝N(μ,σ²)为原有的逆深度值分布；

基于图像金字塔的逆深度传递是指：

原图像经过高斯滤波，接着删除所有的偶数行和列，得到的图像的长和宽分别为原图像的一半；原图使用降采样后，上层的每一个像素对应着下层图像中彼此相邻的四个像素；若当前层为n，

并行处理图像金字塔每一层的匹配、搜索与逆深度估计，接着进行逆深度信息在图像金字塔中的传递策略，其主要步骤如下：

①并行处理图像金字塔每一层，包括像素点筛选、立体视觉匹配和三角化估计逆深度与融合；

②对图像金字塔上层像素点进行遍历；

③与图像金字塔下层相对应的四个像素点进行比较；

④对应下层像素是否存在逆深度估计，若存在进行下一步；若不存在判断下层对应四个像素点是否遍历结束，若未结束，回到步骤3；判断上层图像是否遍历结束，若结束，进行下一步；若未结束，回到步骤2；

⑤上层像素的逆深度估计与下层像素逆深度估计相似，相似的定义为：两像素逆深度值的差值绝对值小于两逆深度分布中的标准差的均值；若相似，通过高斯融合进行逆深度更新；若不相似，判断下层对应四个像素是否遍历结束。

2.根据权利要求1所述的基于单目视觉的移动机器人半稠密地图构建方法，其特征在于，在半稠密重建算法中，加入像素点梯度筛选策略，减少地图重建的误差以及时间消耗；接着逆深度估计部分利用仿射变换约束提高归一化互相关匹配质量；算法中增添图像金字塔加快逆深度的收敛，同时改进深度信息的传递策略。

3.根据权利要求1所述的基于单目视觉的移动机器人半稠密地图构建方法，其特征在于，卷积神经网络共有5层，在包含softmax的同时，具有卷积层、池化层和全连接层，分别为2层、2层和1层；网络的输入是经过降维处理32*32的图像，第一层卷积层的卷积核为5*5，卷积核移动步幅为1；第二层卷积层的卷积核为5*5，卷积核移动步幅为1；池化层采用2*2规模的窗口，池化步幅为2，并通过均值法实现降采样；网络的最终输出为分类的概率。

4.根据权利要求1所述的基于单目视觉的移动机器人半稠密地图构建方法，其特征在于，语义关键帧具体是指：

K_frame＝{T_{_c_w},c_yml,f,n,P}

其中，T_{_c_w}表示相机的位姿信息；c_yml表示相机内部参数，f表示当前关键帧中观测到的稀疏ORB特征，n为分类信息，P为分类的权重信息，K_frame表示语义关键帧。

5.根据权利要求1所述的基于单目视觉的移动机器人半稠密地图构建方法，其特征在于，所述像素点梯度筛选具体是指：

半稠密地图构建是基于灰度值匹配方法，其对光照十分敏感，为了在匹配过程中体现出足够的区分度，筛选出梯度明显的像素点；所谓梯度，即函数的变化率，图像是一个二维函数f(x,y),其偏微分为如式所示：

和

的ε取值并不能无限趋于0，而图像是按照像素来离散的，ε所取的最小值是1像素；上述公式精简为：

式中g_x、g_y分别是图像在点(x,y)处关于x方向上的梯度和关于y方向上的梯度，f(x,y),f(x+1,y),f(x,y+1)表示相邻一个像素单位的像素点；两个方向的梯度可以用如下的方式复合在一起表示为：

M(x,y)＝|g_x|+|g_y|

式中M(x,y)表示复合导，g_x、g_y分别是图像在点(x,y)处关于x方向上的梯度和关于y方向上的梯度。

6.根据权利要求1所述的基于单目视觉的移动机器人半稠密地图构建方法，其特征在于，所述构建方法采用的设备包括机器人、单目摄像机、存储设备以及PC端，其中单目摄像机、存储设备均安装在机器人上面，机器人通过摄像机采集实时图像传输到PC端；机器人通过PC端进行算法运行以及系统控制。