CN114740868A

CN114740868A - 一种基于深度强化学习的移动机器人路径规划方法

Info

Publication number: CN114740868A
Application number: CN202210512746.5A
Authority: CN
Inventors: 王秋辰; 张惕远; 丁超; 林祺; 宋子洋
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2022-05-12
Filing date: 2022-05-12
Publication date: 2022-07-12

Abstract

本发明提出一种基于深度强化学习的移动机器人路径规划方法，包括以下步骤：基于全卷积残余网络获取深度图像；感知前方区域是否存在障碍物；使用深度强化学习算法规划避开障碍物的路径；驱动机器人行进直到避开障碍物；基于FastSLAM绘制二维的局部环境地图；重复上述步骤直到抵达最终目的地。本方法解决了传统SLAM技术缺乏在复杂的未知环境中无法自主规划路径的问题，同时提出了一种高效构建环境地图的解决方案，且提高了避障行为的准确性、高效性。

Description

一种基于深度强化学习的移动机器人路径规划方法

技术领域

本发明涉及移动机器人导航技术领域，特别是一种基于深度强化学习的移动机器人路径规划方法。

背景技术

移动机器人在一个未知的复杂环境中实时地进行路径规划和自主地导航是一项非常重要的研究课题。这项任务需要面对三个主要的问题：定位、建图和路径规划。在过去的几十年里，人们对实时定位和SLAM进行了充分的研究，对路径规划问题提出了几种解决方案。现在，移动机器人可以在离线状态下从起点移动到终点，或者可以在不同的场景下自主地采取适当的策略。

然而，与SLAM相结合的路径规划仍存在技术难点。机器人可以自主地遵循预先编程的路径，或者依靠传统的SLAM方法由用户手动控制。在移动机器人的运动过程中，机器人的运动路径是提前设计好的，从其自身的传感器获得的实时数据仅仅被用于定位，这并不代表机器人能够实时地自主地规划路线。

另一方面，路径规划的主要目标是避开障碍物。在一个未知的环境中障碍物既有动态的，也有静态的。动态障碍物运动状态是变化的，这意味着在复杂环境中，移动机器人要同时兼顾定位、建图和路径规划的任务。这便要求机器人需要在没有任何外部监督的情况下应对真实环境。

因此，需要一种具有实时性、高效性，同时保证准确性、通用性的路径规划方法。

发明内容

为解决上述背景技术中提出的问题，本发明的目的在于提供一种基于深度强化学习的移动机器人路径规划方法，以保证移动机器人避障的实时性，具备构建环境地图的实时性。

为实现上述目的，本发明采用的技术方案如下：

本发明提供了一种基于深度强化学习的移动机器人路径规划方法，包括以下步骤：

S101：基于全卷积残余网络(FCRN)获取深度图像，对障碍物进行识别，同时，在本步骤中获取机器人当前位置、环境信息；

S102：判断前方区域是否存在障碍物，若判定为是，则执行S105，若判定为否，则执行S103；

S103：如果前方不存在障碍物，那么向前驶达局部目标点，并基于FastSLAM算法确定当前位置；

S105：如果前方存在障碍物，则基于深度强化学习进行路径规划；

S106：依据规划输出执行避障策略，并基于FastSLAM算法确定当前位置。

S107：判断是否到达路径规划后的预期位置，若已到达预期位置，则执行步骤S104，若未到达预期位置，则执行步骤S106；

S104：判定是否到达目的地，若未到达目的地，则回到步骤S101，若到达目的地，则结束。

本发明的进一步改进在于，路径规划基于深度强化学习来实现：

基于强化学习使用以下式1更新Q表；

Q(s，a；θ)≈Q′(s，a) (1)

s：机器人的状态；

a：机器人的行为；

θ：常数；

进一步的，本发明使用深度神经网络D3QN模型规划避免障碍的路径，在对复杂特征的提取中，高维和连续的情况下具有更高的性能。

进一步的，Q函数定义如下式2所示：

Q^π(s，a)＝V^π(s)+A^π(s，a) (2)

式中：

V^π(s)：状态值函数；

A^π(s，a)：优势函数，显示当前行动和平均绩效之间的差异，如果当前行动优于平均绩效，则该值为正，反之，该值为负。

按照优势函数的定义，优势函数的期望为0，因此，我们对优势函数添加限制，如下式3所示：

本发明中改进之处在于，通过对Q函数进行分解，得到状态值估计和与状态无关的运动优势函数，在不改变强化学习算法的情况下概括了动作之间的学习；

本发明中改进之处在于，通过从每个优势函数值中减去平均值，保证期望值为0的约束，进而增加了采集输出的稳定性；

本发明的进一步改进在于，在基于深度强化学习的路径规划中，本发明将机器人的行为定义为由十种基本操作组成；

在复杂环境中，机器人的运动形式包括线速度和角速度；

本发明的进一步改进在于，移动机器人的动作状态通过设定的线速度和角速度产生十种不同的行为，这十种行为不仅帮助机器人有效地完成路径规划任务，而且还提高了深度强化学习算法的运行效率；

其中：

可选的，线速度被设定为υ或

角速度被设定为

本发明的进一步改进在于，采用以下策略使机器人逐渐接近目标：

基于深度强化学习，当机器人遇到障碍物时，它将受到惩罚。当机器人到达目标时，它就会得到奖励。机器人在接近目标的同时，在学习过程中消除障碍，最终完成路径规划任务。

本发明的进一步改进在于，奖励函数是由外部环境和机器人这个主观对象定义的。奖励函数的定义对学习速度和质量起着至关重要的作用。

本发明的进一步改进在于，用离散形式控制线速度和角速度的方法实现机器人的动作，对深度强化学习的奖励函数的定义如下式4所示：

r＝v*cos(ω)*dt (4)

式中：

r：机器人运动的线速度；

ω：机器人运动的角速度；

dt：每次训练的循环时间；

进一步的，奖励函数在应用中的具体策略为：

一个总的事件中的奖励由其中每个小步骤的奖励累加得到；

如果检测到碰撞就会立即终止事件，并且会给予适当的的额外惩罚；

如果没有检测到碰撞，事件就会一直进行，直到所有步骤完成；

事件结束时不会有惩罚。

与现有技术相比，本发明有如下优点：

本发明是基于深度强化学习的移动机器人路径规划方法，解决了传统SLAM无法自主导航的问题，在不改变强化学习算法的情况下推广到了机器人的运动层面，提高了路径规划的实时性、环境适应性。本发明针对移动机器人的特点，对深度强化学习进行了改进，即定义了新的奖励函数，同时通过FastSLAM实时构建出二维环境地图，以达到最优路径。

本发明中，将机器人的线速度和角速度以及训练时间综合考虑，定义得到奖励函数，奖励函数的优劣对于本发明中的深度强化学习的速度和质量具有至关重要的作用，本发明设计适合于移动机器人路径规划的奖励函数，提高了训练的速度和准确性。

附图说明

本发明的附图说明如下：

图1为本实施例提供的基于深度强化学习的移动机器人路径规划方法的总体流程图；

图2为本实施例提供的RGB图像预处理流程图；

图3为本实施例提供的基于深度学习进行路径规划的原理框图；

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供了一种基于深度强化学习的移动机器人路径规划方法，能够在复杂环境中实时、高效地对机器人的路径进行规划，并准确构建环境地图。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1是本发明实施例提供的一种基于深度强化学习的移动机器人路径规划方法，包括以下步骤：

本实施例中，机器人可以在有障碍物的环境中平稳移动。

本实施例中，机器人通过在前方安装的RGB摄像头完成对图像的采集；

本实施例中，机器人通过顶部的激光传感器完成观察功能。输入激光距离的范围是最小和最大距离(mm)，角度范围是通过获得最小和最大角度(半径)的输入来设置的。

本实施例中，如图2所示，对于复杂场景中的障碍物，我们执行以下步骤获取深度图像：

S201：使用传感器输入的RGB图像；

S202：使用全卷积残余网络处理图像；

S203：获取网络输出的RGB-D图像，即深度图像。

可选的，机器人配备了深度相机来完成图像的采集工作。根据图像的预测和对比，深层神经网络预测的图像可以识别障碍物并很好地预测动态障碍物下一步的行动，这避障效率的提高和路径规划的实时性方面发挥着关键作用。

具体的，本实施例中，特别对于应对复杂环境，分别基于简单场景训练集训练不同的次数(150，800，2000，3000，5000)，基于复杂场景测试集进行测试。

本发明实施例中，路径规划使用D3QN模型，该模型在对于推断可行进空间和障碍物的情形中表现优秀。如图3所示，使用如图所示的步骤进行路径规划：

S301：读取经处理后的深度图像；

S302：进行数据预处理；

S303、S304：对数据使用深度强化学习进行计算预测，其中状态值函数和优势函数由上式定义；

S305：得到规划后的结果。

在本发明实施例中，Dueling Network的结构由状态值估计和与状态无关的优势函数组成，有根据机器人的特点针对性地设计函数，在不改变强化学习算法的情况下，将算法泛化。

本发明实施例中，路径规划基于深度强化学习来实现：

基于强化学习使用以下式1更新Q表；

Q(s，a；θ)≈Q′(s，a) (1)

s：机器人的状态；

a：机器人的行为；

θ：常数；

本发明实施例使用深度神经网络D3QN模型规划避免障碍的路径，在对复杂特征的提取中，高维和连续的情况下具有更高的性能。

本发明实施例中，Q函数定义如下式2所示：

Q^π(s，a)＝V^π(s)+A^π(s，a) (2)

式中：

V^π(s)：状态值函数；

本发明实施例中，通过对Q函数进行分解，得到状态值估计和与状态无关的运动优势函数，在不改变强化学习算法的情况下概括了动作之间的学习；

本发明实施例中，在基于深度强化学习的路径规划中，本发明将机器人的行为定义为由十种基本操作组成；

在复杂环境中，机器人的运动形式包括线速度和角速度；

本发明实施例中，移动机器人的动作状态通过设定的线速度和角速度产生十种不同的行为，这十种行为不仅帮助机器人有效地完成路径规划任务，而且还提高了深度强化学习算法的运行效率；

本发明实施例中，线速度被设定为0.4或0.2m/s，角速度被设定为

本发明实施例采用以下策略使机器人逐渐接近目标：

S5：检测当前位置是否为最终目的地，若当前位置不是最终目的地则继续确定机器人局部目标点，重复前述所有步骤，直到机器人达到最终目的地。

本发明实施例中，奖励函数是由外部环境和机器人这个主观对象定义的。奖励函数的定义对学习速度和质量起着至关重要的作用。

本发明实施例中，用离散形式控制线速度和角速度的方法实现机器人的动作，对深度强化学习的奖励函数的定义如下式4所示为：

r＝υ*cos(ω)*dt (4)

式中：

r：机器人运动的线速度；

ω：机器人运动的角速度；

dt：每次训练循环时间的秒数；

可选的，每次训练循环时间的秒数的值为0.2s；

本发明实施例中，奖励函数在应用中的具体策略为：

一个总的事件中的奖励由其中每个小步骤的奖励累加得到；

如果检测到碰撞就会立即终止事件，并且会给予适当负值的额外惩罚，可选的，这个值被设定为-10；

事件结束时不会有惩罚。

需要说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于深度强化学习的移动机器人路径规划方法，其特征在于，包括以下步骤：

获取机器人当前位置、环境信息；

基于全卷积残余网络获取深度图像，对障碍物进行识别；

如果判定前方不存在障碍物，那么向前驶达局部目标地，并基于FastSLAM算法确定当前位置；

如果判定前方存在障碍物，则基于深度强化学习进行路径规划，依据规划输出执行避障策略，并基于FastSLAM算法确定当前位置。重复执行该步骤，直到障碍物成功避过；

检测当前位置是否为最终目的地，若当前位置不是最终目的地则继续确定机器人局部目标点，重复前述所有步骤，直到机器人达到最终目的地。

2.根据权利要求1所述的基于深度强化学习的移动机器人路径规划方法，其特征在于，

初始化最初机器人位置为坐标原点；

其后每一次的环境地图更新都建立在该时间点以前的基础之上。

3.根据权利要求1所述的基于深度强化学习的移动机器人路径规划方法，其特征在于，

实时检测障碍物；

所述检测障碍物包括动态障碍物和静态障碍物。

4.根据权利要求3所述的基于深度强化学习的移动机器人路径规划方法，其特征在于，

检测动态障碍物包括对动态障碍物轨迹的预测；

检测障碍物区域包括静态障碍物所处区域，动态障碍物所处区域和动态障碍物轨迹的预测区域；

检测障碍区域旁的可通行区域。

5.根据权利要求4所述的基于深度强化学习的移动机器人路径规划方法，其特征在于，

在路径规划策略中，将机器人的行为被定义为由2种线速度和5种角速度组合为的十组动作。

6.根据权利要求4所述的基于深度强化学习的移动机器人路径规划方法，其特征在于，

用离散形式控制线速度和角速度的方法实现机器人的动作；

对深度强化学习的奖励函数的定义如下式2所示：

r＝v*cos(w)*dt

式中：

r:机器人运动的线速度；

ω:机器人运动的角速度；

dt:每次训练的循环时间。

7.根据权利要求6所述的基于深度强化学习的移动机器人路径规划方法，其特征在于，

奖励函数在应用中的策略包括：

一个总的事件中的奖励由其中每个小步骤的奖励累加得到；

如果检测到碰撞就会立即终止事件，并且会给予适当的额外惩罚；

事件结束时不会有惩罚。