CN115359248A

CN115359248A - 基于元学习的机器人导航避障方法与系统

Info

Publication number: CN115359248A
Application number: CN202211081342.1A
Authority: CN
Inventors: 杨纪冲; 沈胜庆; 薛冰; 薛垂帅
Original assignee: Shandong Juxiang Machinery Co ltd
Current assignee: Shandong Juxiang Machinery Co ltd
Priority date: 2022-09-06
Filing date: 2022-09-06
Publication date: 2022-11-18

Abstract

本发明涉及导航避障技术领域，本发明公开了基于元学习的机器人导航避障方法与系统；所述方法包括：获取机器人当前视野范围内的图像；将获取的图像输入到训练后的导航避障模型中，输出识别出的障碍物区域和障碍物类型；获取机器人当前的基本信息；基于路径规划算法，对机器人当前的基本信息、障碍物区域和障碍物类型进行处理，得到机器人的避障路径；训练后的导航避障模型，工作原理包括：对获取的图像进行特征提取，得到特征图；根据特征图，生成多个边界框；基于边界框，确定障碍物的位置；对每个边界框的尺寸进行修正，确定障碍物的区域；将不同尺寸边界框区域内的特征转化为固定尺寸的特征图；对固定尺寸的特征图，识别障碍物的类型。

Description

基于元学习的机器人导航避障方法与系统

技术领域

本发明涉及导航避障技术领域，特别是涉及基于元学习的机器人导航避障方法与系统。

背景技术

本部分的陈述仅仅是提到了与本发明相关的背景技术，并不必然构成现有技术。

智能机器人相关技术发展迅猛，能够代替人类从事高危性和高重复性工作的机器人是研究人员研究的热点，机器人可以移动是必不可少的功能，而机器人导航系统的核心技术为定位系统、路径规划系统和传感器系统。其中路径规划系统内存在问题是在移动机器人过程中存在障碍物，导致无法调整自身姿态或有效的规划路径。尤其是当机器人处于狭窄地区和无法穿越的障碍地区，难以保证其在运行过程的可行性、安全性、合理性。

随着图像处理技术的不断发展，基于机器视觉的图像识别取得了较大的突破。基于深度学习图像识别技术必然会取代人工设计特征提取算法，提高效率，节省资源。然而运用深度学习领域算法解决机器人导航路障识别会遇到一个挑战，即路障种类繁多，样式各不相同，比如可穿越的障碍和不可穿越的障碍，有危险的障碍和安全的障碍等。

发明内容

为了解决现有技术的不足，本发明提供了基于元学习的机器人导航避障方法与系统；本发明能够实现机器人的动态避障。

第一方面，本发明提供了基于元学习的机器人导航避障方法；

基于元学习的机器人导航避障方法，包括：

获取机器人当前视野范围内的图像；

将获取的图像输入到训练后的导航避障模型中，输出识别出的障碍物区域和障碍物类型；

获取机器人当前的基本信息；基于路径规划算法，对机器人当前的基本信息、障碍物区域和障碍物类型进行处理，得到机器人的避障路径；所述基本信息，包括：机器人当前的位置坐标、目标点坐标、自身姿态和速度信息；

其中，所述训练后的导航避障模型，其工作原理包括：对获取的图像进行特征提取，得到特征图；根据特征图，生成多个边界框；基于边界框，确定障碍物的位置；对每个边界框的尺寸进行修正，确定障碍物的区域；将不同尺寸边界框区域内的特征转化为固定尺寸的特征图；对固定尺寸的特征图，识别障碍物的类型。

第二方面，本发明提供了基于元学习的机器人导航避障系统；

基于元学习的机器人导航避障系统，包括：

获取模块，其被配置为：获取机器人当前视野范围内的图像；

识别模块，其被配置为：将获取的图像输入到训练后的导航避障模型中，输出识别出的障碍物区域和障碍物类型；

路径规划模块，其被配置为：获取机器人当前的基本信息；基于路径规划算法，对机器人当前的基本信息、障碍物区域和障碍物类型进行处理，得到机器人的避障路径；所述基本信息，包括：机器人当前的位置坐标、目标点坐标、自身姿态和速度信息；

与现有技术相比，本发明的有益效果是：

本发明基于元学习的机器人导航避障方法，对比之前的方法，本发明基于度量的元学习，通过对小样本数据构建不同类型的任务数据集，一方面可以解决深度学习对海量数据集的依赖问题，从而实现少量样本即可训练的深度学习算法；另一方面，由于路障的类型多样，识别不同类型的路障会影响模型的准确度和速度，所以为了算法适应不同类型的路障和未知类型的路障，本发明通过引入元学习，构建任务级别的数据集，强化模型的泛化性能，让模型学习不同类型之间的相关性，从而让算法能应对各种类型的路障识别问题。最终与TEB算法融合，得到一个安全且高效的动态避障系统。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明提供的一种基于元学习的路障识别的网络学习流程示意图；

图2为本发明实施例一的网络结构概要图；

图3为本发明实施例一的网络结构详细图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

本实施例所有数据的获取都在符合法律法规和用户同意的基础上，对数据的合法应用。

时间弹性带（Timeed-Elastic-Band，TEB）是属于机器人导航领域的一种计算无碰撞绕开障碍物的轨迹路线方法。通过传感器实时的信息来确定障碍区域，通过最小曲率的思想设计路线。

实施例一

本实施例提供了基于元学习的机器人导航避障方法；

如图1所示，基于元学习的机器人导航避障方法，包括：

S101：获取机器人当前视野范围内的图像；

S102：将获取的图像输入到训练后的导航避障模型中，输出识别出的障碍物区域和障碍物类型；

S103：获取机器人当前的基本信息；基于路径规划算法，对机器人当前的基本信息、障碍物区域和障碍物类型进行处理，得到机器人的避障路径；所述基本信息，包括：机器人当前的位置坐标、目标点坐标、自身姿态和速度信息；

进一步地，如图2所示，所述训练后的导航避障模型，其网络结构包括：

依次连接的特征向量提取模块、目标位置检测模块、目标特征提取模块和目标识别模块。

进一步地，如图3所示，所述特征向量提取模块，包括：依次连接的第一卷积层、第二卷积层、第一最大池化层、第三卷积层、第四卷积层和第二最大池化层；其中，第二最大池化层与第四卷积层的连接端为第二最大池化层的输入端；第二最大池化层与第四卷积层的非连接端为第二最大池化层的输出端。

进一步地，所述特征向量提取模块，其工作原理为：

对获取的图像进行特征提取，得到特征图。

在模型训练阶段，将不同任务的待识别图像输入特征向量提取模块中，提取图像的共同特征。

在实际使用阶段，只需要输入一张待测试的图像，就可以得到特征图。

将不同类的样本映射到同一特征空间内，度量不同类型样本的距离，进一步学习不同类障碍物样本之间的相同的特征图。不同类型之间也存在共同的特点，比如人模型的障碍和动物模型障碍，虽然类型不同，但是都属于生命体，网络提取到高维特征，才能对新的未见过的类型进行识别。

进一步地，所述目标位置检测模块，包括：候选区域网络（RPN：Region ProposalNetworks）；

所述候选区域网络的输入端与第二最大池化层的输出端连接；

所述候选区域网络块的输出端与第五卷积层的输入端连接；

第五卷积层的输出端与第六卷积层的输入端连接；

第六卷积层的输出端与第七卷积层的输入端连接。

进一步地，所述目标位置检测模块，其工作原理为：

根据特征图，生成多个边界框；基于边界框，确定障碍物的位置；对每个边界框的尺寸进行修正，确定障碍物的区域。

首先，根据得到的特征图生成多个固定尺寸的边界框。设定锚框（anchors）的尺度大小和长宽比，让锚框在特征图上按照设定步长进行滑动，得到对应的边界框。边界框数量设为K。

然后，将得到的一组边界框的对应特征输入到3×3卷积核的卷积层，得到处理后的特征。

将处理后的特征依次输入到两个1×1卷积核的卷积层中，其中一个卷积层的通道数为2K，对应为每个边界框的两个预测值，然后利用归一化指数函数进行分类，表示边界框是否包含目标的概率，最后通过二元交叉熵损失函数（Binary Cross Entropy）约束分类卷积层。另一个卷积层的通道数为4K，对应为每个边界框的四个方向的偏移量，通过光滑的L1损失（Smooth L1 Loss）约束回归卷积层。

二元交叉熵损失函数Binary Cross Entropy Loss：

其中，

表示第

个边界框预测包含目标的概率值，

表示第

个边界框包含目标的真实概率值，

表示批次大小。

L1损失函数Smooth L1 Loss：

其中，

表示第

个边界框预测的四个偏移量，

表示第

个边界框实际的偏移量，

表示偏移量的大小，

表示边界框的数量。

最后利用预测的四个偏移量对边界框进行修正。

进一步地，所述候选区域网络，用于根据特征图，生成多个边界框。

进一步地，所述第六卷积层，用于基于边界框，确定障碍物的位置。

进一步地，所述第七卷积层，用于对每个边界框的尺寸进行修正，确定障碍物的区域。

将提取到的特征输入到候选区域网络中，生成多个包含目标的候选区域，并且产生分类损失和回归损失，用于约束候选区域网络。

进一步地，所述目标特征提取模块，是第三最大池化层；

所述第三最大池化层的输入端与第七卷积层的输出端连接。

通过目标区域池化将特征图进一步提取感兴趣区域的固定尺寸特征；

进一步地，所述目标特征提取模块，其工作原理为：

将不同尺寸边界框区域内的特征转化为固定尺寸的特征图。

为了应对不同尺寸的边界框对应的特征图，引入了最大池化层，利用最大池化层将感兴趣的边界框区域内的特征转化为尺度固定的特征图，便于之后进行的目标识别。

进一步地，所述目标识别模块，包括：循环神经网络；

所述循环神经网络的输入端与第三最大池化层的输出端连接；

所述循环神经网络的输出端用于输出识别结果。

进一步地，所述目标识别模块，其工作原理为：

对固定尺寸的特征图，识别障碍物的类型。

将得到的特征输入循环神经网络中得到识别的结果和回归的结果，产生的分类损失和回归损失，用于约束循环神经网络。

获取固定尺寸的特征图后，分别输入两个不同的全连接层中，其中一个全连接层有

个神经元，其中，

是识别障碍物类别的总数。此全连接层后加入归一化指数函数计算识别的障碍物的概率值，通过交叉熵损失（Cross Entropy Loss）约束分类网络模块；另一个全连接层有

个神经元，用于进一步回归边界框的四个方向的偏移量，通过光滑的L1损失Smooth L1 Loss约束回归网络模块。

交叉熵损失Cross Entropy Loss：

；

其中，

表示识别障碍物类别，

表示识别为

类的概率值。

Smooth L1 Loss：

其中，

表示边界框内容识别为

类的回归偏移量，

表示边界框真实的偏移量，

表示偏移量大小，

表示识别内容为背景，不参与损失计算。

进一步地，所述训练后的导航避障模型，其训练过程包括：

构建训练集和测试集；所述训练集和测试集，均为已知障碍物区域和障碍物类型的图像；

将训练集输入到导航避障模型中，对模型进行训练，当总损失函数值不再下降时，或者迭代次数超过设定次数时，停止训练，得到初步的导航避障模型；

采用测试集对初步的导航避障模型进行测试，当测试的准确度超过设定阈值时，停止测试，当前导航避障模型即为最终训练后的导航避障模型；如果测试的准确度低于设定阈值，则更换训练集，再次进行训练。

进一步地，所述总损失函数，等于第一分类损失函数、第一回归损失函数、第二分类损失函数和第二回归损失函数的加权求和结果。

其中，第一分类损失函数和第一回归损失函数为第六卷积层和第七卷积层的损失函数；

其中，第二分类损失函数和第二回归损失函数为循环神经网络的损失函数。

将Binary Cross Entropy Loss、Cross Entropy Loss和两个Smooth L1 Loss加权和作为总损失函数Loss，计算总损失函数，利用反向传播算法更新网络参数，对网络进行训练直到训练轮次达到设定值或Loss呈现平稳趋势。保存其最小损失值时的网络模型。

进一步地，所述总损失函数，表达式为：

其中，

和

是超参数，用于平衡各个损失函数。

进一步地，所述构建训练集和测试集；将每一类障碍物的识别看成一个任务，将不同类型的障碍物图像构建不同的任务。障碍物类别不同，任务不同，比如识别活体障碍物任务，识别无生命障碍物任务，识别静止障碍物任务，每个任务具体只在自己的领域内构建数据集，进行识别。

进一步地，所述构建训练集和测试集；具体包括：

先将所有类型的路障图像按照类别分组，每个类别作为一个独立的识别任务。所有任务组建为一个完整的数据集，然后将数据集划分为训练集、验证集和测试集。验证集和测试集的图像类型相同。

在训练过程中，每轮从训练集中随机选择C类任务，每类任务选择K个样本，组成样本集：

。

从这C类任务剩余的样本中选取一批样本，组成待识别图像集

。验证集和测试集构建同理。

训练集用于训练模型，验证集用于测试训练时验证模型的性能，测试集用于测试训练结束后模型的性能。

进一步地，所述路径规划算法，采用时间弹性带（Timeed-Elastic-Band，TEB）算法来实现。

本发明通过对多种类型的障碍图像数据建模，实现对已知类型和未知类型的障碍图像更好地识别。该过程可以看作是一个元学习的实例，因为学习的目标是如何更好地解决任务（即对未知样本有更强的泛化性能），这比仅仅在固定数据情形下学习一个模型要难的多。为了减少对庞大训练数据的要求，增强算法的广泛性和实用性，本发明融入了小样本学习的思想，仅仅使用少量的样本训练就可以达到满足要求的性能。然后将识别的路障区域输入TEB算法，计算绕开障碍物的最优路径，保证机器人运行的安全性和可靠性。具体来说，本发明采用度量的方式，将不同类型的路障图像构建不同的任务，然后对不同的任务图像映射到同一特征空间上生成特征图，然后利用候选区域网络（Region ProposalNetwork）对特征图进行目标定位，进而采用目标区域池化(RoI pooling)提取目标的特征，最后利用循环神经网络(R-CNN)对目标进行分类识别。同时将识别的目标区域和目标区域的类型输入TEB算法，进行动态避障的路线规划。基于元学习的思想，其中每一类的路障识别都看成是一个任务。同时为了降低对海量数据的训练要求，本发明采用小样本学习的思想，只对每个任务中少量的样本进行训练，并将训练结果应用到新的路障识别任务上，提升模型的实用性。

将机器人摄像头获得图像输入识别网络，识别路障区域

和类型

后，利用传感器和定位系统获得当前机器人的位置坐标，目标点坐标，自身姿态，速度等信息

输入TEB算法，得到最优的避障路径

。

。

实施例二

本实施例提供了基于元学习的机器人导航避障系统；

基于元学习的机器人导航避障系统，包括：

此处需要说明的是，上述获取模块、识别模块和路径规划模块对应于实施例一中的步骤S101至S103，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例一所公开的内容。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于元学习的机器人导航避障方法，其特征是，包括：

获取机器人当前视野范围内的图像；

2.如权利要求1所述的基于元学习的机器人导航避障方法，其特征是，所述训练后的导航避障模型，其网络结构包括：

3.如权利要求2所述的基于元学习的机器人导航避障方法，其特征是，所述特征向量提取模块，包括：依次连接的第一卷积层、第二卷积层、第一最大池化层、第三卷积层、第四卷积层和第二最大池化层；其中，第二最大池化层与第四卷积层的连接端为第二最大池化层的输入端；第二最大池化层与第四卷积层的非连接端为第二最大池化层的输出端。

4.如权利要求2所述的基于元学习的机器人导航避障方法，其特征是，所述目标位置检测模块，包括：候选区域网络；

所述候选区域网络块的输出端与第五卷积层的输入端连接；

第五卷积层的输出端与第六卷积层的输入端连接；

第六卷积层的输出端与第七卷积层的输入端连接。

5.如权利要求2所述的基于元学习的机器人导航避障方法，其特征是，所述目标位置检测模块，其工作原理为：

首先，根据得到的特征图生成多个固定尺寸的边界框；设定锚框的尺度大小和长宽比，让锚框在特征图上按照设定步长进行滑动，得到对应的边界框；

然后，将得到的一组边界框的对应特征输入到3×3卷积核的卷积层，得到处理后的特征；

将处理后的特征依次输入到两个1×1卷积核的卷积层中，其中一个卷积层的通道数为2K，对应为每个边界框的两个预测值，然后利用归一化指数函数进行分类，表示边界框是否包含目标的概率，最后通过二元交叉熵损失函数约束分类卷积层；另一个卷积层的通道数为4K，对应为每个边界框的四个方向的偏移量，通过光滑的L1损失约束回归卷积层。

6.如权利要求2所述的基于元学习的机器人导航避障方法，其特征是，所述目标特征提取模块，是第三最大池化层；所述第三最大池化层的输入端与第七卷积层的输出端连接。

7.如权利要求2所述的基于元学习的机器人导航避障方法，其特征是，所述目标识别模块，包括：循环神经网络；所述循环神经网络的输入端与第三最大池化层的输出端连接；所述循环神经网络的输出端用于输出识别结果。

8.如权利要求2所述的基于元学习的机器人导航避障方法，其特征是，所述目标识别模块，其工作原理为：

将得到的特征输入循环神经网络中得到识别的结果和回归的结果，产生的分类损失和回归损失，用于约束循环神经网络；

个神经元，其中

是识别障碍物类别的总数；此全连接层后加入归一化指数函数计算识别的障碍物的概率值，通过交叉熵损失约束分类网络模块；另一个全连接层有

9.如权利要求4所述的基于元学习的机器人导航避障方法，其特征是，所述训练后的导航避障模型，其训练过程包括：

采用测试集对初步的导航避障模型进行测试，当测试的准确度超过设定阈值时，停止测试，当前导航避障模型即为最终训练后的导航避障模型；如果测试的准确度低于设定阈值，则更换训练集，再次进行训练；

所述总损失函数，等于第一分类损失函数、第一回归损失函数、第二分类损失函数和第二回归损失函数的加权求和结果；其中，第一分类损失函数和第一回归损失函数为第六卷积层和第七卷积层的损失函数；其中，第二分类损失函数和第二回归损失函数为循环神经网络的损失函数。

10.基于元学习的机器人导航避障系统，其特征是，包括：