CN115100237A

CN115100237A - 一种巡检机器人视觉里程计方法

Info

Publication number: CN115100237A
Application number: CN202210482290.2A
Authority: CN
Inventors: 彭道刚; 戚尔江; 王丹豪; 欧阳海林; 潘俊臻; 葛明
Original assignee: Shanghai University of Electric Power
Current assignee: Shanghai University of Electric Power
Priority date: 2022-05-05
Filing date: 2022-05-05
Publication date: 2022-09-23

Abstract

本发明涉及一种巡检机器人视觉里程计方法，包括获取机器人相机内部参数；在机器人运行过程中通过可见光相机截取图像；选取截取图像中的相邻两帧记为源帧和目标帧；将源帧输入至无监督深度估计网络得到预测深度；无监督深度估计网络进行密集模块的轻量化改进；利用光流网络对源帧和目标帧预测前向光流和后向光流，根据前后光流一致性原则筛选得到优质匹配特征点对；通过三角测量获得计算深度；将预测深度和计算深度根据尺度对齐方法进行帧间尺度对齐，获得尺度一致机器人定位轨迹。与现有技术相比，本发明实现机器人在巡检过程中的高效定位，避免因定位精度不足导致的巡检结果失效，节约巡检资源，在电厂巡检任务中具有较高的实际使用价值。

Description

一种巡检机器人视觉里程计方法

技术领域

本发明涉及机器人视觉领域，尤其是涉及一种巡检机器人视觉里程计方法。

背景技术

电力行业中，智能巡检机器人在越来越多的电力场景中辅助或替代人工完成常规的巡检任务，但现有的机器人巡检定位技术大多依靠固定轨道或者标识，无法在复杂环境中进行移动巡检。通常，机器人携带视觉传感器进行检测，那么利用视觉里程计进行定位不仅节省成本，也能提高机器人移动的自主性和有效性。现有的方法中，有采用将视觉里程计看作归类问题，使用CNN处理输入图像，实现视觉里程计；还有将循环神经网络和CNN结合，增加图像序列的时序建模，端到端地实现位姿估计。但是，上述监督学习方式的真值数据集获取成本较高，且监督训练数据集数量有限，泛化性较低。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种巡检机器人视觉里程计方法，利用无监督学习方式实现单目视觉里程计，而且具有良好的精度和可靠性。

本发明的目的可以通过以下技术方案来实现：

一种巡检机器人视觉里程计方法，包括以下步骤：

S1、对机器人安装的可见光相机进行标定，获取相机内部参数；

S2、在机器人运行过程中通过可见光相机获取的视频按设定时间截取图像；

S3、选取截取图像中的相邻两帧，前一帧图像标记为源帧I_s，后一帧图像标记为目标帧I_t；

S4、将源帧I_s输入至无监督深度估计网络，得到预测深度D_s；所述无监督深度估计网络中加入基于DenseNet理论的密集模块，并且进行密集模块的轻量化改进，在密集模块中通过跳跃连接将每一处理单元的输出特征级联至最后密集模块最后；

S5、利用光流网络对源帧I_s和目标帧I_t预测前向光流和后向光流，根据前后光流一致性原则筛选得到优质匹配特征点对；所述光流网络采用LiteFlowNet网络模型；

S6、根据优质匹配特征点对通过三角测量获得计算深度D′_s；

S7、将预测深度D_s和计算深度D′_s根据尺度对齐方法进行帧间尺度对齐，获得尺度一致机器人定位轨迹。

进一步地，步骤S1中，可见光相机采用棋盘格标定法进行内参标定。

进一步地，所述无监督深度估计网络采用了编码器-解码器形式，所述编码器包括一个步长为2的7×7卷积层、一个步长为2的3×3池化层，四个密集模块，以及每个密集模块对应的过度层，每个过度层包括一个1×1卷积层和一个3×3卷积层。

进一步地，无监督深度估计网络中，密集模块包括四个处理单元，每个处理单元包括依次设置的批量化归一层、ReLU激活函数层、1×1卷积层和3×3卷积层，每个处理单元通过跳跃连接将该处理单元输出的特征级联至密集模块的最后。

进一步地，所述无监督深度估计网络中引入了网络特征度量损失函数，利用网络特征度量损失函数的反向传播训练网络，所述网络特征度量损失函数包括合成损失、深度损失和收敛损失。

进一步地，所述合成损失L_f的表达式为：

式中：φ(p)为图像的特征表示，s下标表示源帧，t下标表示合成帧。

进一步地，所述深度损失L_d的表达式为：

式中：φ(p)为图像的特征表示，

表示一阶微分算子，p表示图像像素，e表示指数底数，I(p)位图像的像素表示。

进一步地，所述收敛损失L_c的表达式为：

式中：φ(p)为图像的特征表示，

表示二阶微分算子，p表示图像像素。

进一步地，步骤S5中，采用N-best选取策略筛选优质匹配特征点对。

进一步地，步骤S7中，设定尺度对齐因子S_t进行帧间匹配尺度对齐，其表达式为：

式中：N表示特征点数量，

表示第t帧第i处像素的预测深度，

表示第t帧第i处像素的计算深度，M表示图像帧的数量。

与现有技术相比，本发明具有以下有益效果：

1、本发明的视觉里程计基于无监督深度估计网络与多视几何算法，并且在无监督深度估计网络中应用了轻量化的密集模块，可以更好地预测图像深度，具有准确率高、泛化性强以及网络模型参数量少的优点，针对大场景下图像深度估计具有更好的鲁棒性，适用于电厂复杂环境下的巡检机器人定位。

2、本发明针对单目视觉里程计固有的尺度漂移问题，设计了尺度对齐原则。该原则可以有效地从第一帧图像开始对齐图像流帧间尺度，从而维持机器人巡检轨迹的尺度一致性，避免因尺度问题导致机器人无法准确定位。

3、本发明特征度量损失应用于无监督深度估计网络的训练中，针对网络模型对场景细节纹理不足、光照不稳定等区域的图像深度学习能力具有极大的提高；本发明针对单度损失无法创建有效监督信号训练网络的缺陷进行改进，提高了网络训练的质量，并将网络融入视觉里程计方法中，提高了方法的准确性。

附图说明

图1为本发明的整体框架图。

图2是本发明构建的深度估计网络模型示意图。

图3为本发明改进的密集模块的结构示意图。

图4a是本发明针对的单目视觉里程计固有的尺度丢失问题。

图4b是本发明解决尺度问题后单目视觉里程计定位轨迹。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

如图1所示，本实施例提供了一种巡检机器人视觉里程计方法，对智能巡检机器人利用单目可见光相机获取的图像序列进行实时地定位，具体包括以下步骤：

步骤一：对机器人安装的可见光相机进行标定，利用棋盘格标定法，获取相机内参。

步骤二：机器人运行过程中通过可见光相机获取的视频按固定时间截取图像，并将截取的图像存入服务器中，无监督深度估计网络模型部署在服务器端；

步骤三：在服务器内选取截取图像中的相邻两帧将大小调整至大小调整为640×480，并将前一帧图像标记为源帧I_s，后一帧图像标记为目标帧I_t。源帧输入至无监督深度估计网络，获取预测深度D_s。

步骤四：利用光流网络对源帧I_s和目标帧I_t预测前向光流和后向光流，根据前后光流一致性原则筛选得到优质匹配特征点对；光流网络采用LiteFlowNet网络模型。

步骤五：根据优质匹配特征点对通过三角测量获得计算深度D′_s。

步骤六：将预测深度D_s和计算深度D′_s根据尺度对齐方法进行帧间尺度对齐，获得尺度一致机器人定位轨迹。

步骤七：将尺度一致定位轨迹发送至机器人本体，使得机器人获取自身定位信息。

本实施例中无监督深度估计网络采用DenseNet，并且对其进行密集模块的轻量化改进，在密集模块中通过跳跃连接将每一个处理单元的输出特征级联至密集模块的最后，具体如下：

如图2所示，无监督深度估计网络的基本结构采用了编码器-解码器形式。编码器由一个步长为2的7×7卷积层、一个步长为2的3×3池化层，以及四个密集模块及其各自相邻的三个过渡层(Tansition Layer)组成。过渡层包含了一个1×1卷积层和一个3×3卷积层，目的是为了保证级联至后层的特征图尺寸一致。解码器依次包含一个1×1的卷积层、一个2×2的双线性上采样层和四个上采样模块。在上采样模块中，包含了两组3×3卷积层和一个2×2双线性上采样层。在编码器与解码器之间添加了跳跃连接，保证特征传递的流通。

如图3所示，本实施例中对每个密集模块(Dense Block)进行了轻量化的改进，结合实际场景需求，简化密集模块连接方式，减小网络计算资源消耗的同时，确保网络对场景细节编码能力。密集模块包括四个处理单元，每个处理单元包括依次设置的批量化归一层(BN)、ReLU激活函数层、1×1卷积层和3×3卷积层。在每个密集模块中，不再需要将当前处理单元的输出特征级联至往后的每一个处理单元，只需通过跳跃连接将该处理单元输出的特征级联至最后，即只有最后一个处理单元采取了DenseNet相同的操作。

x₀～x₃表示每一个处理单元的特征；密集模块的参数k，即增长率，表示每一处理单元级联至最后的特征图的数量；D₀～D₃为非线性变换函数，定义如下：

x_l＝D_l-1(x₀，x₁，...，x_l-1)，l＝1，2，3

式中，l表示每个处理单元的序号。

因此，在密集模块中，每一个处理单元的输出经过非线性优化函数D_l作用后都产生k个特征图，因此，一个密集模块的输出就有k₀+(l-1)k个特征图作为下一模块的输入，其中k₀是模块输入层l₀的特征通道数。在视觉里程计场景下，轻量化的密集模块已足够保留场景的特征信息，能够降低特征冗余，减小模型参数，相较于传统的模型，保证了网络的灵活性和特征的持续性。

本实施例在无监督深度估计网络的训练过程中，提出了网络特征度量损失函数，利用其反向传播训练网络，提高网络对场景细节的学习能力和深度恢复能力。网络特征度量损失函数由合成损失、深度损失和收敛损失组成，具体展开图下：

(1)合成损失

根据视图合成理论，设p_s为源帧中某一像素的齐次坐标，

为合成帧中对应像素的齐次坐标，那么根据相机位姿和深度值可得：

式中：K表示相机的内参矩阵；D_s表述源帧中网络输出的像素深度；

表示源帧至目标帧的位姿矩阵。

由上式，通过源帧的特征图可得合成特征图

因此，特征图合成损失函数的表达式为：

式中：φ(p)表示图像的特征表示，s下标表示源帧，t下标表示合成帧。

(2)深度损失

为了保证网络在场景的弱纹理区域依然能学习到梯度变化较大的特征，引入了深度损失函数：

式中：

(3)收敛损失

为了平滑特征梯度，引入对二阶梯度的惩罚项，即收敛损失：

式中：

表示二阶微分算子。

综上，特征度量损失L_fm的表达式如下：

L_fm＝λ_fL_f+λ_dL_d+λ_cL_c

式中：λ_f为合成损失权重；λ_d为深度损失权重；λ_c为收敛损失权重。对应于不同的损失，根据在实际应用中不同的需求设立不同的权重。

网络训练中，深度估计网络训练采用Adam优化器。1阶矩估计指数衰减率设置为β₁＝0.9；2阶矩估计指数衰减率设置为β₂＝0.999；学习率设置为α＝1e-4(e表示指数，表示将前面的数字乘10的负4次幂)；批规模(Batch size)设置为4；密集模块增长率k设置为12。合成损失权重λ_f设置为1；深度损失权重λ_d设置为1e-3；收敛损失权重λ_c设置为1e-3；光度损失权重λ_ph设置为5；深度一致性损失权重λ_dc设置为1。

综上，本实施例的无监督深度估计网络从①网络训练损失函数；②更深的网络层数；③更少的网络训练参数三个方面进行改进，提高深度估计网络算法的准确度。

改进密集模块是在DenseNet基础上，通过改进层与层之间特征传递的方式，使浅层特征以最大程度保留，对图像细节有更好的估计效果，同时使用过渡模块、上采样模块和跳跃连接结构提升了网络特征传递能力。

深度估计网络在基本结构上采用了编码器-解码器形式，通过复用浅层特征，提升网络对场景细节信息的编码能力，使得深度估计网络获取更精细的图像特征表达。在编码器部分，结合了改进密集模块结构，在网络训练参数与特征复用之间达到了最优平衡。

本实施例中，步骤四的具体展开如下：

首先，采用前后光流一致性准则，筛选优质的光流匹配。一致性越高，匹配精度越高。对于相邻图像对(I_s，I_t)，设前向光流为

后向光流为

光流一致性计算为：

式中：p_f为前后向光流中像素对应关系；ω为光流中像素执行变换操作的参数；p为图像中像素点。

然后，根据上述计算式，通过常规的N-Best选取策略，筛选出表现最好的N对2D-2D匹配点

i和j表示像素上标索引。

本实施例中，步骤六的具体展开如下：

首先，利用非线性优化的方式求解PnP，计算相机初始位姿在李群SE(3)上的表示T′，主要计算公式如下：

考虑某个经光流前后一致性筛选出的空间点，它的齐次坐标为p_i＝(X_i，Y_i，Z_i)^T。它在源帧中的归一化平面齐次投影点坐标为u_i＝(u_i，v_i)^T。由单目相机的理论模型可知，二者的关系如式：

s_iu_i＝KTp_i

式中，s_i为该3D点的深度，K为单目相机内参矩阵。

由于相机观测和实际计算存在一定误差，将该3D点由初始位姿变换T′重投影，重投影处的像素位置与目标帧I_t中的观测位置存在误差，即重投影误差。基于此构建非线性优化问题，如下式

式中，n表示投影点数量，T^＊表示位姿变换矩阵，u表示第i个空间点在像素平面的投影，s_i表示第i个空间点的深度，i表示第i个空间点，p_i表示第i个空间点的齐次坐标。

使用李代数构建无约束优化，通过BA(Bundle Adjustment)进行求解，获得初始位姿T′。

然后，利用尺度对齐原则将计算深度与网络预测深度进行对齐，固定全局定位轨迹尺度，获得尺度一致机器人定位轨迹，展开如下：

第0帧图像在第i处的预测深度为

通过三角测量获得的对应的计算深度为

那么，令

作为初始尺度对齐因子。其中，N表示特征点数量。随后，对每一帧执行相同的操作，即

其中，N表示特征点数量，

表示第t帧第i处像素的预测深度，

表示第t帧第i处像素的计算深度，M表示图像帧的数量。

若相邻图像序列I_s和I_t间的尺度对齐因子保持一致，即认为s_s≈s_t，那么随着帧间匹配尺度对齐的约束传递，位姿的全局尺度得到固定。最终输出全局一致的轨迹T＝[R，t]。

尺度未对齐的轨迹与尺度对齐的轨迹对比如图4a和图4b所示。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种巡检机器人视觉里程计方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种巡检机器人视觉里程计方法，其特征在于，步骤S1中，可见光相机采用棋盘格标定法进行内参标定。

3.根据权利要求1所述的一种巡检机器人视觉里程计方法，其特征在于，所述无监督深度估计网络采用了编码器-解码器形式，所述编码器包括一个步长为2的7×7卷积层、一个步长为2的3×3池化层，四个密集模块，以及每个密集模块对应的过度层，每个过度层包括一个1×1卷积层和一个3×3卷积层。

4.根据权利要求1所述的一种巡检机器人视觉里程计方法，其特征在于，无监督深度估计网络中，密集模块包括四个处理单元，每个处理单元包括依次设置的批量化归一层、ReLU激活函数层、1×1卷积层和3×3卷积层，每个处理单元通过跳跃连接将该处理单元输出的特征级联至密集模块的最后。

5.根据权利要求1所述的一种巡检机器人视觉里程计方法，其特征在于，所述无监督深度估计网络中引入了网络特征度量损失函数，利用网络特征度量损失函数的反向传播训练网络，所述网络特征度量损失函数包括合成损失、深度损失和收敛损失。

6.根据权利要求5所述的一种巡检机器人视觉里程计方法，其特征在于，所述合成损失L_f的表达式为：

7.根据权利要求5所述的一种巡检机器人视觉里程计方法，其特征在于，所述深度损失L_d的表达式为：

式中：φ(p)为图像的特征表示，

8.根据权利要求5所述的一种巡检机器人视觉里程计方法，其特征在于，所述收敛损失L_c的表达式为：

式中：φ(p)为图像的特征表示，

表示二阶微分算子，p表示图像像素。

9.根据权利要求1所述的一种巡检机器人视觉里程计方法，其特征在于，步骤S5中，采用N-best选取策略筛选优质匹配特征点对。

10.根据权利要求1所述的一种巡检机器人视觉里程计方法，其特征在于，步骤S7中，设定尺度对齐因子S_t进行帧间匹配尺度对齐，其表达式为：

式中：N表示特征点数量，

表示第t帧第i处像素的预测深度，

表示第t帧第i处像素的计算深度，M表示图像帧的数量。