CN112767373A

CN112767373A - 一种基于单目相机的机器人室内复杂场景避障方法

Info

Publication number: CN112767373A
Application number: CN202110106801.6A
Authority: CN
Inventors: 杨鑫; 丁建川; 尹宝才; 杜振军; 朴海音; 孙阳
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2021-01-27
Filing date: 2021-01-27
Publication date: 2021-05-07
Anticipated expiration: 2041-01-27
Also published as: CN112767373B; WO2022160430A1

Abstract

本发明公开了一种基于单目相机的机器人室内复杂场景避障方法，属于机器人导航与避障领域。本发明所述单目避障导航网络由环境感知阶段和控制决策阶段组成，具体包括深度预测模块、语义掩膜模块、深度切片模块、特征提取指导模块、强化学习模块和数据增强。该网络以单目RGB图像作为输入，获取语义深度图之后进行动态最小池化操作获取“伪激光”数据，以此作为强化学习的状态输入，生成最终的机器人决策动作。本发明解决了机器人室内环境避障任务中，难以充分感知复杂障碍物，从而导致避障失败的困难，帮助机器人利用环境的语义信息，去除冗余像素的干扰，从而进行高效的强化学习训练与决策，在不同场景上具有有效性和适用性。

Description

一种基于单目相机的机器人室内复杂场景避障方法

技术领域

本发明属于机器人领域中的导航与避障(NavigationandObstacle Avoidance)领域，具体实现结果为机器人自主导航与避障，特别涉及一种对复杂障碍物充分有效感知的方法。

背景技术

机器人避障任务是在较为复杂的场景中，机器人可以自主地导航到目标点同时不与障碍物发生任何碰撞，具有重大的实际应用价值。随着人工智能技术的快速发展，机器人避障相关任务，例如扫地机器人、无人驾驶、智能仓库、智能物流等，都获得了显著的性能提升。

但是室内的避障场景中经常会存在一些复杂的障碍物，例如桌椅等非凸不规则物体、黑色金属物体、衣物等平放在地面上的障碍物，这些物体会对传统的一维激光雷达避障策略造成严重的影响，但却没有相关的研究来处理这类物体。这类复杂障碍物的存在会导致激光雷达系统无法充分感知环境，进而使导航避障系统失效。具体来说，对于不规则物体，例如桌子，一维激光雷达仅能感知到桌子腿，会使机器人错误地认为桌子腿之间的空隙可以通过，但是当机器人较高时，则会与桌面发生碰撞；对于黑色金属物体，会严重干扰激光雷达，吸收到发射出的激光，使其完全失效；对于地面上的复杂障碍，传统的方法无法感知到较低的地面障碍，甚至像泳池这类嵌入到地面中，但又无法通行的障碍。因此充分高效地感知复杂障碍物是机器人避障领域中一项亟待解决的任务。

现有的机器人避障导航方法大多数都采用深度强化学习作为学习方式，因其无需人工采集标注数据集可以自主学习而广受欢迎。强化学习是一个“试错”的过程，该过程往往在虚拟环境下进行学习，再迁移到真实场景中。为了缩小虚拟到现实的差距，通常采用数据形式简单，容易学习的激光雷达数据。但激光雷达数据对于复杂障碍物的认知不够完全，无法执行高效的避障策略。

一些新的工作摒弃了激光雷达传感器，采用RGB-D相机捕获的深度图与彩色图作为输入，直接映射到动作，进行强化学习端到端训练。图像对于激光数据来说，具有丰富的语义信息，但同时具有大量对避障没有帮助的冗余信息，从而导致强化学习算法难收敛、难训练，更会造成虚拟与现实差距大，策略难以迁移。并且深度相机在具有太阳光照的室内环境下，出现大量噪声，几乎失效。而传统采用深度图到点云的映射来去除地面干扰信息的方法，对于衣物、泳池等地面上较低的障碍物也无法感知。所以基于RGB-D端到端学习的方法也存在较多问题，无法充分感知复杂的室内环境，更无法安全的导航与避障。

因此本发明基于对现有避障导航技术的调查与分析，通过结合激光雷达与RGB相机的优势，同时摒弃掉二者的劣势，构建了“伪激光”数据，从而实现复杂场景中自主导航与避障任务。方法的输入是机器人平台搭载的单目RGB相机拍摄的图像，输出是机器人要采取的动作，包括线速度与角速度。该方法能够有效地感知出室内场景不同类型的复杂障碍物，从而能够帮助强化学习模块进行高效的学习与决策。

发明内容

本发明的目的是针对复杂场景单目RGB图像，通过映射“伪激光”数据实现高效地机器人避障方法。该方法包括环境感知阶段与控制决策阶段，其中环境感知阶段包括深度预测模块、语义分割模块和深度切片模块；控制决策阶段包括特征提取指导模块和强化学习模块。本发明所述方法适用于多种形状和大小的复杂障碍物。

本发明的技术方案为：

一种基于单目相机的机器人室内复杂场景避障方法，该方法包括以下步骤：

步骤1、加载机器人仿真模型与搭建训练测试仿真环境

为了解决复杂场景避障问题，采用TurtleBot-ROS机器人的URDF模型作为实验机器人；运用ROS-Stage中的Block、Crossing和Passing作为训练环境，部署24个相同的TurtleBot-ROS机器人用于分布式控制决策模块训练；以ROS-Gazebo中的cafe环境作为测试场景的背景，并手动加入Gazebo中的复杂障碍物，用于测试整个视觉系统的有效性；

步骤2、获取语义深度图

从TurtleBot-ROS机器人搭载的单目相机获取RGB图像，将其输入到Fastdepth深度预测网络中获得当前视野下的深度图；选取深度图下半部分作为中间结果；该结果中的地面像素信息会干扰避障，导致避障失败，因此将RGB图像输入到CCNet语义分割模型中获取二分类的语义分割掩膜，其中0表示地面像素，1表示背景，将语义分割掩膜与深度图进行逐像素相乘获取到语义深度图，该语义深度图中每个像素的值为当前视角的深度距离，同时去除有干扰的地面深度数值；

步骤3、深度切片与数据增强模块

对语义深度图中的深度值像素进行动态最小池化操作，池化窗口大小为(240，1)，步长为1，每次池化操作选取窗口中的最小值作为输出对象，图像每列均进行池化操作，得到的结果为“伪激光”数据；

通过引入数据增强方式，在训练时对虚拟环境的观测数据加以噪声干扰；为了从训练激光测量中识别出噪声边界，假设如果矢量中两个相邻值的差大于阈值0.5时，则会存在交界边界；并通过窗口大小为(1,8)的线性内插法替换两个相邻端点周围的值；同时，对于所有的激光观测数据，自适应地添加方差为0.08的高斯白噪声；

步骤4、控制决策阶段

获取到“伪激光”数据后，将连续三个时刻的“伪激光”置于三个通道内，构成的张量作为深度强化学习模块的输入，使实验机器人有效感知动态障碍物在短暂时间上的光流效果，从而对动态障碍物做出正确的决策；

深度强化学习模块采用PPO算法，网络结构由3层卷积层与3层全连接层构成；为了使实验机器人平稳地安全到达目标位置，状态的输入包括三个部分：观测数据、目标点距离和速度；其中观测数据为步骤3得到的“伪激光”数据，目标点距离和速度由机器人机载里程计获取；提出一种特征提取指导层，由3层卷积分别提取三种模态的数据特征并融合，再经过sigmoid激活获取特征掩膜与“伪激光”观测数据点乘，得到的结果送入深度强化学习模块；从多模态数据中提取有助于避障策略的信息，然后将其与“伪激光”观测数据合并，从而使后续特征提取过程更具针对性并加快网络的收敛；

将深度强化学习模块的第二个全连接层修改为LSTM层，增加深度强化学习模块的时序相关性，使实验机器人根据整个路径中所有的观测来决策动作；

步骤5、形成单目避障导航网络并输出决策结果

将步骤2、3、4拼接，从单目的RGB相机获取输入图像，处理后得到深度图与语义分割掩膜，点乘后进行裁剪，经过动态最小池化操作获取“伪激光”观测数据，将连续三帧的“伪激光”观测数据与目标点距离和速度大小一并输入到深度强化学习模块中，经过特征提取指导层对“伪激光”观测数据中每一维度施加不同的关注度，通过多层卷积、池化和全连接之后，利用LSTM层为整个路径增加时序相关性，最后输出机器人当前时刻的决策动作，从而达到自主避障与导航的效果。

本发明的有益效果：

(1)避障测试结果与效率

本发明解决了机器人室内环境避障任务中，难以充分感知复杂障碍物(非凸不规则障碍、黑色金属、复杂地面障碍)，从而导致避障失败的困难，帮助机器人利用环境的语义信息，去除冗余像素的干扰，从而进行高效的强化学习训练与决策。本发明提出了一种从单张RGB图像直接到机器人避障导航动作的强化学习映射方法，该方法依赖于“伪激光”数据，通过将语义信息编码至激光数据中，来进行高效的决策，并通过对比实验证明了该方法的准确性。对比实验中该方法在所有两个常用指标平均成功率和平均用时上均获得了最佳的性能，并且在复杂场景中具有很大的优势。

(2)适用性更广泛

本发明适用于在不同复杂室内场景下的避障与导航任务(a)包含非凸不规则障碍物的场景；(b)包含黑色金属光滑材质障碍物的场景；(c)包含地面杂乱衣物、玻璃、泳池等障碍的场景。证明了该方法在不同场景上的有效性和适用性。

附图说明

图1为本发明的网络结构。

图2为本发明实施例实验的可视化结果。

具体实施方式

下面结合附图和技术方案，进一步说明本发明的具体实施方式。

该方法采用PPO作为深度强化学习的框架，状态包括“伪激光”数据、距目标点的距离和上一时刻速度大小组成；动作由轮式机器人的线速度与角速度组成；奖励函数包含每一时刻距离目标的状态(越近则为正奖励，反之亦然)，如果发生碰撞则为-15，如果到达目标点则为15，鼓励机器人每一步采取的动作幅度不要太大，即不能超过上一时刻角速度的1.7倍。

强化学习算法在Pytorch中实现。随机梯度下降被用于强化学习网络，其动量值为0.9，权重衰减为1e-4，学习率设置为5e-5，衰减因子为0.99，KL散度参数为15e-4，最大步长为150。本发明实施例,1500000个训练路径后终止学习过程，在配备i7-7700 CPU和NVIDIAGTX 1080Ti GPU的计算机上训练该策略大约需要40个小时。为了验证该网络的有效性，将其与传统方法ORCA与最新的学习方法多机器人分布式避障策略进行比较以验证发明的有效性。并对网络中的提出的所有模块进行消融实验，证明每一部分的有效性。

图1是单目避障导航网络的网络结构。该网络由环境感知阶段和控制决策阶段组成，具体包括深度预测模块、语义掩膜模块、深度切片模块、特征提取指导模块、强化学习模块和数据增强。该网络以单目RGB图像作为输入，获取语义深度图之后进行动态最小池化操作获取“伪激光”数据，以此作为强化学习的状态输入，生成最终的机器人决策动作。

图2是单目视觉避障导航框架的流程可视化结果，其中(A)列为椅子障碍场景；(B)列为桌子障碍场景；(C)列为衣服障碍场景；(D)列为玻璃障碍场景。机器人平台搭载的单目相机捕获到RGB图像，预测出语义深度图，再切片生成“伪激光”数据，由最后两行的“伪激光”数据与激光雷达数据的对比可以看出，“伪激光”可以捕获更加完整的环境信息，从而进行高效的强化学习训练以及更好的环境交互。

步骤1、加载机器人仿真模型与搭建训练测试仿真环境

为了解决复杂场景避障问题，采用TurtleBot-ROS机器人的URDF模型作为实验机器人；运用ROS-Stage中的Block、Crossing和Passing作为训练环境，部署24个相同的TurtleBot-ROS机器人用于分布式控制决策模块训练；以ROS-Gazebo中的cafe环境作为测试场景的背景，并手动加入Gazebo中的复杂障碍物(桌、椅、衣柜、移动的行人等)，用于测试整个视觉系统的有效性；

步骤2获取语义深度图

步骤3深度切片与数据增强模块

对语义深度图中的深度值像素进行动态最小池化操作，池化窗口大小为(240，1)，步长为1，每次池化操作选取窗口中的最小值作为输出对象，共池化640次，得到大小为(1，640)的数据，该数据为“伪激光”数据。“伪激光”既保留了激光雷达数据简洁、易学习、易迁移的优势，同时又保留了视觉图像中的语义信息，由于该数据是通过最小池化操作从二维空间图像获取的，所以能够充分感知环境中的复杂障碍物，将语义编码到了每一维度的激光中，为接下来进行高效的强化学习，执行安全的避障策略做支撑。

在虚拟环境中获取的传感器数据往往是完美的，而在真实环境中时，如果一个对象的某些部分遮挡了另一个对象，则观测值通常会在对象的边界附近出现观测误差。较大的噪声会降低算法的准确度，甚至失效。因此引入数据增强方式，在训练时对虚拟环境的观测数据加以噪声干扰。为了从训练激光测量中识别出噪声边界，假设如果矢量中两个相邻值的差大于阈值0.5时，则会存在交界边界。并通过窗口大小为(1,8)的线性内插法替换两个相邻端点周围的值。同时，对于所有的激光观测数据，自适应地添加方差为0.08的高斯白噪声。该数据增强方法使其即便是在虚拟环境下训练，也可以直接迁移并适应充满噪声的真实场景中。

步骤4控制决策阶段

获取到“伪激光”数据后，将连续三个时刻的“伪激光”置于三个通道内，构成大小为(3，640)的张量作为深度强化学习模块的输入，这样可以使机器人有效感知动态障碍物在短暂时间上的光流效果，从而对动态障碍物做出正确的决策。

深度强化学习模块采用PPO算法，网络结构由3层卷积层与3层全连接层构成。为了使机器人能够平稳地安全到达目标位置，状态的输入包括三个部分：观测数据，目标点距离和速度。其中观测数据为步骤3得到的“伪激光”数据，目标点距离和速度由机器人机载里程计获取。目前，有两种常用的方法：直接融合和间接融合。但是，由于信息来自不同的模式，因此通道中的直接融合不利于学习避障策略。另一方面，盲目间接提取导致忽略观察数据中的有用信息并捕获无用信息。为此提出了一种特征提取指导层，由3层卷积分别提取三种模态的数据特征并融合，再经过sigmoid激活获取特征掩膜与“伪激光”观测数据点乘，得到的结果送入深度强化学习模块。它结合了先前方法的优点。从多模态数据中提取有助于避障策略的信息，然后将其与观察数据合并，从而使后续特征提取过程更具针对性并加快网络的收敛。

由于采用单目RGB相机作为传感器，机器人视角只有较小的前向60°，因此将强化学习网络结构的第二个全连接层修改为LSTM层，增加强化学习模块的时序相关性，使机器人可以根据整个路径中所有的观测来决策动作。

步骤5形成单目避障导航网络并输出决策结果

将步骤2、3、4拼接，从单目的RGB相机获取输入图像，处理后得到深度图与语义掩膜，点乘后进行裁剪，经过动态最小池化操作获取“伪激光”数据，将连续三帧的“伪激光”与目标点距离和速度大小一并输入到强化学习网络中，经过特征提取指导层对“伪激光”数据中每一维度施加不同的关注度，通过多层卷积、池化和全连接之后，利用LSTM为整个路径增加时序相关性，最后输出机器人当前时刻的决策动作，从而达到自主避障与导航的效果。

Claims

1.一种基于单目相机的机器人室内复杂场景避障方法，其特征在于，该方法包括以下步骤：

步骤1、加载机器人仿真模型与搭建训练测试仿真环境

步骤2、获取语义深度图

步骤3、深度切片与数据增强模块

步骤4、控制决策阶段

步骤5、形成单目避障导航网络并输出决策结果