CN117234216A

CN117234216A - 一种机器人深度强化学习运动规划方法及计算机可读介质

Info

Publication number: CN117234216A
Application number: CN202311490146.4A
Authority: CN
Inventors: 庄园; 邵宇鑫; 槐建柱; 韩玉龙
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2023-11-10
Filing date: 2023-11-10
Publication date: 2023-12-15
Anticipated expiration: 2043-11-10
Also published as: CN117234216B

Abstract

本发明提出了一种机器人深度强化学习运动规划方法及计算机可读介质。本发明移动机器人通过OctoMap方法构建当前时刻的3D体素局部占用地图以及占用信息；结合Tentabot导航框架进行计算，得到当前时刻每对线速度、角速度组合对应的机器人坐标系下先验轨迹的占用信息和可导航性信息；构建当前时刻的观测数据、动作空间、无效动作屏蔽约束函数；加权计算当前时刻的综合奖励；将当前时刻的观测数据、综合奖励输入Maskable PPO算法，结合当前时刻的无效动作屏蔽约束条件，结合Maskable PPO算法进行优化求解得到当前时刻的线速度、角速度，并输入至移动机器人进行运行。本发明实现机器人顺利躲避动态和静态障碍物，在轻微的传感器噪声和定位噪声干扰的场景中运行，算法具有鲁棒性。

Description

一种机器人深度强化学习运动规划方法及计算机可读介质

技术领域

本发明属于移动机器人运动规划领域，尤其涉及一种机器人深度强化学习运动规划方法及计算机可读介质。

背景技术

近年来，移动机器人产业蓬勃发展，信息感知与导航技术作为机器人核心技术，是移动机器人安全顺利完成各项任务的基础，已经成为产学研联合攻关的主要目标之一。伴随着机器人应用场景的多样化和复杂化，机器人的工作环境也由结构化的特定场景延伸到动态的、时变的、与人共存的日常生活场景。这对移动机器人导航技术的泛化性、自主性和动态避障能力提出了更高的要求。由于传统的针对固定环境的导航技术难以适用于非结构化、非确定性的动态环境，因此，近年来学界的研究工作主要是围绕在此类未知环境或部分可知环境下的自主导航与动态避障技术。

深度强化学习（Deep Reinforcement Learning，DRL）相关领域的突破性进展为解决未知的复杂动态场景下的路径规划与避障问题提供了新的方案，其不需要提前针对环境建模，可以直接端到端进行运动规划的特性能够很好的解决传统算法带来的弊端。然而，基于DRL的机器人导航方法具有奖励稀疏、缺乏原理可解释性等问题，模型收敛依赖于大量的环境交互训练，难以实现稳定、鲁棒的模型效果。因此，基于深度强化学习技术进行移动机器人的运动规划仍然是一项具有挑战性的工作。

发明内容

针对现有技术方法的不足，本发明提出了一种机器人深度强化学习运动规划方法及计算机可读介质。

本发明方法所采用的技术方案是一种机器人深度强化学习运动规划方法，其特征在于：

移动机器人通过OctoMap方法构建当前时刻的3D体素局部占用地图、3D体素局部占用地图中每个体素的占用信息；结合Tentabot导航框架进行计算，得到当前时刻每对线速度、角速度组合对应的机器人坐标系下先验轨迹的占用信息和可导航性信息；

构建当前时刻的观测数据、当前时刻的动作空间、当前时刻的无效动作屏蔽约束函数；

加权计算当前时刻的综合奖励；

将当前时刻的观测数据输入至Maskable PPO算法，将当前时刻的综合奖励反馈至Maskable PPO算法，根据当前时刻的无效动作屏蔽约束条件，Maskable PPO算法当前时刻的动作空间中优化求解得到最优的线速度、角速度组合，作为当前时刻的线速度、角速度，并输入至移动机器人进行运行。

本发明具体包括以下步骤：

步骤1：输入多对线速度、角速度组合，根据每对线速度、角速度组合设定移动机器人的线速度、角速度，移动机器人根据设定的线速度、角速度前进一定时间，基于运动学模型计算得到机器人坐标系下多个采样点位置，构建每对线速度、角速度组合对应的机器人坐标系下的先验轨迹；

步骤2：设置移动机器人在自主导航模式下进行运动，并设置目标点位置，通过移动机器人的深度相机采集当前时刻的深度图像，通过2D激光雷达采集当前时刻的环境点云数据，将当前时刻的深度图像、当前时刻的环境点云数据在机器人坐标系下通过OctoMap方法构建当前时刻的3D体素局部占用地图、并得到当前时刻的3D体素局部占用地图中每个体素的占用信息；将每对线速度、角速度组合对应的机器人坐标系下先验轨迹的采样点投影在当前时刻的3D体素局部占用地图中，以每个采样点一定距离半径内的体素作为当前时刻的邻近体素，得到当前时刻每对线速度、角速度组合对应的机器人坐标系下先验轨迹中每个采样点的多个邻近体素的位置与占用信息；将当前时刻每对线速度、角速度组合对应的机器人坐标系下先验轨迹中所有采样点的多个邻近体素的占用信息输入给Tentabot导航框架进行计算，得到当前时刻每对线速度、角速度组合对应的机器人坐标系下先验轨迹的占用信息和可导航性信息；

步骤3：将当前时刻每对线速度、角速度组合对应的机器人坐标系下先验轨迹的占用信息、目标点位置、当前时刻移动机器人距离目标点位置的距离、当前时刻移动机器人的偏航角、上一时刻的线速度、角速度组合作为当前时刻的观测数据，将输入的多对线速度、角速度组合作为当前时刻的动作空间，利用当前时刻每对线速度、角速度组合对应的机器人坐标系下先验轨迹的可导航性信息构建当前时刻的无效动作屏蔽约束函数；

步骤4：依次计算当前时刻的目标抵达奖励、当前时刻的任务失败惩罚、当前时刻的步进惩罚、当前时刻的目标接近奖励、当前时刻的安全保持惩罚、当前时刻的速度变化惩罚，进一步加权计算当前时刻的综合奖励；

步骤5：将当前时刻的观测数据输入至Maskable PPO算法，将当前时刻的综合奖励反馈至Maskable PPO算法，根据当前时刻的无效动作屏蔽约束条件，Maskable PPO算法当前时刻的动作空间中优化求解得到最优的线速度、角速度组合，作为当前时刻的线速度、角速度，并输入至移动机器人进行运行。

作为优选，步骤3所述当前时刻的无效动作屏蔽约束函数，具体定义如下：

无效动作屏蔽函数是指在机器人行进过程中，以当前时刻每对线速度、角速度组合对应的机器人坐标系下先验轨迹的可导航性信息作为条件，约束动作空间选取的函数；

若在当前时刻，存在可导航与暂时可导航的先验轨迹，则将不可导航轨迹视为无效动作：

其中，为当前时刻动作组合；/>为轨迹可导航性，false表示错误，true表示真实，将先验轨迹分为可导航、不可导航与暂时可导航三类；对于所有先验轨迹均不可导航时，则将所有动作设置为有效，促使机器人学习自救动作：

。

作为优选，步骤4所述计算当前时刻的目标抵达奖励，具体定义如下：

目标抵达奖励设定为，表示若机器人与目标点的距离小于阈值/>则进行奖励，并且结束当前回合；

步骤4所述计算当前时刻的任务失败惩罚，具体定义如下：

任务失败惩罚设定为，表示若机器人在当前回合达到最大时间步数或碰撞到障碍物，则进行惩罚，并且结束当前回合；

步骤4所述计算当前时刻的步进惩罚，具体定义如下：

步进惩罚是一个常量，旨在惩罚未抵达目标点的机器人，每多走一步则惩罚增加：

其中，为当前时刻的步进惩罚，/>为步进惩罚参数；/>为每回合最大时间步数；

步骤4所述计算当前时刻的目标接近奖励，具体定义如下：

目标接近奖励的大小随目标距离差值的大小而变化，且相同距离差值的接近奖励大于远离惩罚；

其中，为当前时刻的目标接近奖励；/>为目标接近奖励参数；、/>分别为当前时刻和上一时刻目标距离；

步骤4所述计算当前时刻的安全保持惩罚，具体定义如下：

安全保持惩罚是指机器人未与障碍物保持安全距离的惩罚，若机器人与障碍物的检测距离处于安全距离阈值和碰撞阈值，则对机器人进行惩罚，计算公式如下：

其中，为当前时刻的安全保持惩罚；/>为安全保持惩罚参数；为当前时刻的机器人与障碍物的检测距离；/>为安全距离保持阈值；/>为碰撞阈值；

步骤4所述计算当前时刻的速度变化惩罚，具体定义如下：

速度变化惩罚是针对机器人速度剧变的惩罚，通过计算当前时刻和上一时刻的线速度和角速度差值的绝对值之和，若小于速度变化阈值，则对机器人奖励，否则进行惩罚，该惩罚值的大小随速度变化的程度而变化，计算公式如下：

其中，为当前时刻的速度变化惩罚；/>为速度变化惩罚参数；分别为当前时刻和上一时刻的线速度；/>分别为当前时刻和上一时刻的角速度；/>为速度最小变化阈值。

步骤4所述计算当前时刻的综合奖励，具体定义如下：

训练过程中，奖励函数旨在规范机器人每一步的行为，使其学习如何高效、快速、安全地完成导航任务，公式如下：

其中，为目标抵达奖励；/>为任务失败惩罚；/>为当前时刻的步长奖励，包括当前时刻的步进惩罚/>、当前时刻的目标接近奖励/>、当前时刻的安全保持惩罚/>和当前时刻的速度变化惩罚/>。

本发明还提供了一种计算机可读介质，所述计算机可读介质存储电子设备执行的计算机程序，当所述计算机程序在电子设备上运行时，使得所述电子设备执行所述机器人深度强化学习运动规划方法的步骤。

本发明优点在于，本发明显式地利用先验轨迹的占用信息和可导航性信息对机器人的环境观测与动作选择过程进行改进，并完善奖励函数设计，有效提高了移动机器人导航的安全性和鲁棒性。

附图说明

图1：本发明实施例的流程图。

图2：本发明实施例的特征提取网络示意图。

图3：本发明实施例的训练场景示意图。

图4：本发明实施例的测试场景示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

具体实施时，本发明技术方案提出的方法可由本领域技术人员采用计算机软件技术实现自动运行流程，实现方法的系统装置例如存储本发明技术方案相应计算机程序的计算机可读存储介质以及包括运行相应计算机程序的计算机设备，也应当在本发明的保护范围内。

下面结合图1-4介绍本发明实施例的技术方案为一种机器人深度强化学习运动规划方法及计算机可读介质。

附图1为本发明实施例的方法流程图，本发明第一实施例具体阐述如下：

步骤3所述当前时刻的无效动作屏蔽约束函数，具体定义如下：

。

步骤4所述计算当前时刻的目标抵达奖励，具体定义如下：

步骤4所述计算当前时刻的任务失败惩罚，具体定义如下：

步骤4所述计算当前时刻的步进惩罚，具体定义如下：

步骤4所述计算当前时刻的目标接近奖励，具体定义如下：

步骤4所述计算当前时刻的安全保持惩罚，具体定义如下：

步骤4所述计算当前时刻的速度变化惩罚，具体定义如下：

步骤4所述计算当前时刻的综合奖励，具体定义如下：

本发明第二实施例具体如下：

步骤1：建立基于控制空间采样的先验轨迹。首先，根据差速机器人的可行速度区间，采样不同的线速度和角速度组合；其次，将机器人以固定的速度组合前进一定时间，并依据运动学模型计算里程计信息，得到机器人坐标系R下该速度组合对应的先验轨迹；最后，对每条先验轨迹均匀采样固定数量的采样点，每条轨迹的采样点集合定义如下：

步骤2：计算先验轨迹占用信息和可导航性信息。首先，将深度相机和2D激光雷达实时采集到的点云数据通过OctoMap方法构建基于机器人坐标系的3D体素局部占用地图，该地图分辨率为0.1m，更新频率为10Hz，随机器人移动而实时更新。其次，将轨迹采样点一定距离半径内的体素视为邻近体素，已知邻近体素的占用信息和权重信息，根据Tentabot导航框架计算每条先验轨迹在地图中的占用信息和可导航性信息，从而描述轨迹的碰撞概率。其中，邻近体素的权重信息通过与先验轨迹采样点的距离远近来设置。

步骤2所述的每条先验轨迹的占用信息和可导航性信息可以通过Tentabot导航框架中的计算方法得到。

步骤3：构建结合先验轨迹的Maskable PPO模型。采用Maskable PPO算法进行模型训练，利用先验轨迹的占用信息、目标点位置信息、机器人先前动作信息作为观测数据，先验轨迹对应的速度组合作为动作空间，搭配每条先验轨迹的可导航性信息构建无效动作屏蔽约束函数。

Maskable PPO算法的观测空间是对机器人所处环境的描述，包括外部环境特征和机器人自身状态。

本发明将轨迹占用信息、目标点位置信息/>和机器人先前动作信息/>组合为观测数据，机器人根据每一时刻的观测数据决定将要选取的动作。其中目标点位置信息是指目标点相对于机器人的距离信息和偏航角信息/>，机器人先前动作表示机器人上一时刻执行的动作，也即线速度和角速度组合。

Maskable PPO算法的动作空间表示为，其中/>代表机器人的线速度，/>代表角速度。由于需要计算每条先验轨迹的占用值，因此使用离散的动作空间进行训练，/>得到/>个线速度和/>个角速度。将采样得到的线速度和角速度进行组合，可以得到/>个速度组合，每一个速度组合对应一条先验轨迹。

如附图2所示，用于特征提取的深度神经网络由卷积神经网络和全连接神经网络组成，输入数据包括维度为的轨迹占用信息，维度为/>的目标位置信息，维度为的机器人先前动作信息，其中/>代表先验轨迹总数，/>代表堆叠的观测数据帧数。首先利用三层卷积神经网络提取轨迹占用信息的特征，然后将轨迹占用特征与目标位置信息、先前动作信息组合为一维向量，输入给两层全连接神经网络，最终输出用于MaskablePPO模型训练的特征。

无效动作屏蔽函数是指以轨迹可导航性信息作为约束条件，在机器人行进过程中，避免选取不可导航轨迹对应的动作的函数。可导航性信息将先验轨迹分为可导航、不可导航与暂时可导航三类，其中可导航轨迹标记为1，暂时可导航轨迹标记为-1，不可导航轨迹标记为0。若在某一时间步，存在可导航与暂时可导航的先验轨迹，则只将不可导航轨迹视为无效动作，“屏蔽”对应的速度组合：

对于所有先验轨迹均不可导航时，则将所有动作设置为有效，促使机器人学习自救动作：

步骤4：针对机器人导航模型的训练特点，依次构建抵达奖励、任务失败惩罚、步进惩罚、目标接近奖励、安全保持惩罚和速度变化惩罚六项指标，进一步构建兼顾主线奖励和辅助奖励的奖励函数。

步骤4所述兼顾主线奖励和辅助奖励的奖励函数是对智能体动作选取的评价，可以监督智能体朝着完成目标任务的方向学习。针对机器人导航的奖励函数主要关注于抵达目标点的成功率与效率，以及动静态障碍物的躲避能力。如以下公式所示，奖励函数中主线奖励是指目标抵达奖励和任务失败惩罚/>，辅助奖励是指步长奖励/>。

其中，目标抵达奖励表示若机器人与目标点的距离小于阈值/>则进行奖励，并且结束当前回合；任务失败惩罚/>表示若机器人在当前回合达到最大时间步或碰撞到障碍物，则进行惩罚，并且结束当前回合；步长奖励/>是对机器人每一时间步动作的评估，包括步进惩罚/>、目标接近奖励/>、安全保持惩罚/>和速度变化惩罚四个方面，旨在规范机器人每一步的行为，使其学习如何高效、快速、安全地完成导航任务。

如以下公式所示，步进惩罚是一个常量，旨在惩罚未抵达目标点的机器人，每多走一步则惩罚增加：

目标接近奖励旨在引导机器人积极向目标点移动，如以下公式所示，通过计算当前时刻和上一时刻的目标距离之差，若差值大于0，则机器人更接近目标点，需要进行奖励，若差值小于0，则机器人远离目标点，需要进行惩罚，若差值等于0，为避免机器人绕目标点运动而不接近，则对其进行轻微惩罚。目标接近奖励的大小随目标距离差值的大小而变化，且相同距离差值的接近奖励大于远离惩罚。

安全保持惩罚是指机器人未与障碍物保持安全距离的惩罚，若机器人与障碍物的检测距离处于安全距离阈值/>和碰撞阈值/>，则对机器人进行惩罚，计算公式如下：

步骤5：利用ROS机器人操作系统中的Gazebo三维仿真工具搭建仿真机器人和仿真环境，基于前述结合先验轨迹的Maskable PPO模型和奖励函数进行环境交互和模型训练，得到适用于动态场景的机器人导航模型。为了使算法能够同时适应静态与动态环境，本发明利用Gazebo共设计了5个不同的训练场景，其中包括2个静态场景和3个动态场景，动态障碍物呈现为的白色长方体形状，最大移动速度为1m/s，在场景中按照指定路线运动且不主动避让机器人。如附图3所示，图3中的(a)和图3中的(b)为静态场景，后者包含的障碍物数量更多且形状、分布更为复杂。图3中的(c)、图3中的(d)和图3中的(e)为动态场景，图3中的(c)和图3中的(d)只包含动态障碍物，数量分别为2个和13个，图3中的(e)中动静态障碍物并存，动态障碍物共有6个，环境最为复杂。其中图3中的(a)和图3中的(c)的地图尺寸为/>，图3中的(b)、图3中的(d)和图3中的(e)的地图尺寸为。

为了检验训练得到的导航策略，本发明在3个具有不同于训练环境的障碍物和环境特征的场景中进行测试，仿真环境如图4所示。其中绿色的点为机器人的起始点，红色的点为目标点位置。图4中的(a)所示的测试环境与训练环境相似，为长方形场景，共有3个动态障碍物；图4中的(b)为拐角形环境，具有2个动态障碍物，图4中的(c)为折线形环境，包含3个动态障碍物，二者均与训练环境有所区别。

如表1所示，本发明在3个测试环境中对比了ROS Navigation功能包中定义的传统DWA算法、基于深度强化学习的Tentabot算法与本发明算法的导航能力。结果表明本发明算法倾向于执行具有最大可导航性的动作，保证导航安全性，具有优于其他两种算法的导航成功率，并具有一定的时间效率性和路程效率性。

表1：导航结果对比表

本发明的具体实施例还提供了一种计算机可读介质。

所述计算机可读介质为服务器工作站；

所述服务器工作站存储电子设备执行的计算机程序，当所述计算机程序在电子设备上运行时，使得所述电子设备执行本发明实施例的机器人深度强化学习运动规划方法的步骤。

应当理解的是，本说明书未详细阐述的部分均属于现有技术。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种机器人深度强化学习运动规划方法，其特征在于：

加权计算当前时刻的综合奖励；

2.根据权利要求1所述的机器人深度强化学习运动规划方法，其特征在于，包括以下步骤：

3.根据权利要求2所述的机器人深度强化学习运动规划方法，其特征在于：

。

4.根据权利要求3所述的机器人深度强化学习运动规划方法，其特征在于：

步骤4所述计算当前时刻的目标抵达奖励，具体定义如下：

步骤4所述计算当前时刻的任务失败惩罚，具体定义如下：

步骤4所述计算当前时刻的步进惩罚，具体定义如下：

步骤4所述计算当前时刻的目标接近奖励，具体定义如下：

其中，为当前时刻的目标接近奖励；/>为目标接近奖励参数；/>、分别为当前时刻和上一时刻目标距离；

步骤4所述计算当前时刻的安全保持惩罚，具体定义如下：

其中，为当前时刻的安全保持惩罚；/>为安全保持惩罚参数；/>为当前时刻的机器人与障碍物的检测距离；/>为安全距离保持阈值；/>为碰撞阈值；

步骤4所述计算当前时刻的速度变化惩罚，具体定义如下：

其中，为当前时刻的速度变化惩罚；/>为速度变化惩罚参数；/>分别为当前时刻和上一时刻的线速度；/>分别为当前时刻和上一时刻的角速度；为速度最小变化阈值。

5.根据权利要求4所述的机器人深度强化学习运动规划方法，其特征在于：

步骤4所述计算当前时刻的综合奖励，具体定义如下：

其中，为目标抵达奖励；/>为任务失败惩罚；/>为当前时刻的步长奖励，包括当前时刻的步进惩罚/>、当前时刻的目标接近奖励/>、当前时刻的安全保持惩罚和当前时刻的速度变化惩罚/>。