CN112629542B

CN112629542B - 基于ddpg和lstm的无地图机器人路径导航方法及系统

Info

Publication number: CN112629542B
Application number: CN202011633712.9A
Authority: CN
Inventors: 吕蕾; 周青林; 庞辰; 吕晨
Original assignee: Shandong Normal University
Current assignee: Shandong Normal University
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2022-08-30
Anticipated expiration: 2040-12-31
Also published as: CN112629542A

Abstract

本公开提出了基于DDPG和LSTM的无地图机器人路径导航方法及系统，包括如下步骤：获取机器人的当前的状态信息及目标位置信息；将状态信息及目标相对位置输入至训练好的DDPG‑LSTM模型中输出最优可执行动作数据，使得机器人完成无碰撞的路径导航；将深度确定性策略梯度算法和长短期记忆网络融合应用于机器人路径导航，基于DDPG的神经网络结构进行改进，提出了将卷积神经网络(CNN)及LSTM相结合的网络结构作为DDPG网络结构的一部分，使得该网络结构能够根据输入直接输出动作，使得机器人可以直接接受具体指令实现移动，实现端到端的学习，完成机器人的无地图路径导航。

Description

基于DDPG和LSTM的无地图机器人路径导航方法及系统

技术领域

本公开涉及路径规划相关技术领域，具体的说，是涉及基于DDPG和LSTM的无地图机器人路径导航方法及系统。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，并不必然构成在先技术。

近年来，机器人技术有了突飞猛进的发展，平面移动机器人是其中一种应用广泛的机器人分支。移动机器人已广泛用于工业、农业、安全检测和日常生活中。路径规划作为移动机器人的一项必不可少的技术，一直是研究人员关注的焦点。它旨在找到从起点到目标点的最佳无碰撞路径。

受益于人工智能和计算机视觉的发展，智能机器人技术已取得了巨大的进步。但是，使机器人能够自动在现实世界中导航仍然是一项艰巨的任务。传统的导航方法包括定位、地图构建和路径规划。迄今为止，大多数方法都依赖于以人为基础的雷达或摄像机信息设计的度量或拓扑图。但是像雷达这样的测距传感器通常只能捕获有限的信息，而且价格昂贵。

为了简化路径规划的步骤，并使机器人能够智能地感知和做出决策，越来越多的研究人员尝试将机器学习(ML)方法应用于路径规划问题。强化学习(RL)作为ML的主要分支，擅长决策制定，并且在机器人控制方面表现出色。但是，基于RL的方法通常在具有固定目标的固定环境模型中实现。训练RL代理需要大量的试验，这对于实际应用是不切实际的。如果在模拟环境中进行训练，则无法将代理直接应用于新环境，即使在类似情况下也需要对其进行微调。对新目标和环境的泛化能力仍然是RL方法的挑战。

深度学习(DL)具有较强的感知能力，但是缺乏一定的决策能力；而强化学习具有决策能力，对感知问题却束手无策。深度强化学习(DRL)将两者结合，优势互补，为复杂系统的感知决策问题提供了解决思路。但是目前存在的DRL方法对于拥有连续运动空间的任务无法输出平滑的动作，因为普通神经网络的输出相对于机器人移动的连续动作是独立的，两个指令之间的跳跃可能比较大，就会产生机器人移动不平稳的问题。

发明内容

本公开为了解决上述问题，提出了基于DDPG和LSTM的无地图机器人路径导航方法及系统，深度确定性策略梯度算法(DDPG)和长短期记忆网络(LSTM)融合应用于机器人路径导航，基于DDPG的神经网络结构进行改进，提出了将卷积神经网络(CNN)及LSTM相结合的网络结构作为DDPG网络结构的一部分，使得该网络结构能够根据输入直接输出动作，使得机器人可以直接接受具体指令实现移动，实现端到端的学习，完成机器人的无地图路径导航。

为了实现上述目的，本公开采用如下技术方案：

本公开的第一方面提供基于DDPG和LSTM的无地图机器人路径导航方法，包括如下步骤：

获取机器人的当前的状态信息及目标位置信息；

将状态信息及目标相对位置输入至训练好的DDPG-LSTM模型中输出最优可执行动作数据，使得机器人完成无碰撞的路径导航；

所述DDPG-LSTM模型基于DDPG网络，将DDPG网络的Actor网络设置为卷积神经网络与LSTM级联的结构，使得模型输出机器人最优可执行动作数据。

本公开的第二方面提供基于DDPG和LSTM的无地图机器人路径导航系统，包括：机器人状态检测装置和机器人，所述机器人上述的基于DDPG和LSTM的无地图机器人路径导航方法。

本公开的第三方面提供基于DDPG和LSTM的无地图机器人路径导航系统，包括：

数据获取模块：被配置为用于获取机器人的当前的状态信息及目标位置信息；

导航模块：被配置为用于将状态信息及目标相对位置输入至训练好的DDPG-LSTM模型中输出最优可执行动作数据，使得机器人完成无碰撞的路径导航；

本公开的第四方面提供一种电子设备，其特征是，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成上述方法所述的步骤。

本公开的第五方面提供一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成上述方法所述的步骤。

与现有技术相比，本公开的有益效果为：

(1)本公开将DDPG算法应用于机器人路径导航，在仅依靠机器人自身传感器和目标相对位置的情况下，即可实现机器人的无碰撞路径导航，无需参照先验障碍物地图或人为操作，模型的泛化能力显著提高。

(2)本公开在DDPG原始网络结构的基础上，将CNN和LSTM与之结合，提出一种新的网络结构，提高特征提取能力的同时使其具备长期预测能力，可以更平缓的输出角速度和线速度，更加符合实际需求应用。

本公开附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本公开的实践了解到。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的限定。

图1是本公开实施例1的方法流程图；

图2是本公开实施例1的DDPG算法网络框架图；

图3是本公开的DDPG算法网络中的Actor网络架构图。

具体实施方式：

下面结合附图与实施例对本公开作进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本公开提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。需要说明的是，在不冲突的情况下，本公开中的各个实施例及实施例中的特征可以相互组合。下面将结合附图对实施例进行详细描述。

实施例1

在一个或多个实施方式中公开的技术方案中，如图1所示，基于DDPG和LSTM的无地图机器人路径导航方法，包括如下步骤:

步骤1、获取机器人的当前的状态信息及目标位置信息；

步骤2、将状态信息及目标相对位置输入至训练好的DDPG-LSTM模型中输出最优可执行动作数据，使得机器人完成无碰撞的路径导航；

其中，所述机器人的可执行动作数据可以包括：机器人动作的角速度和线速度。

本实施例中将深度增强算法应用至机器人的导航，同时将DDPG网络的网络进行了改进，将CNN和LSTM级联后的网络与DDPG网络结合，提出一种新的网络结构，提高特征提取能力的同时使其具备长期预测能力，可以更平缓的输出角速度和线速度，更加符合机器人的动作要求，符合实际需求应用。

步骤1中，可以利用机器人的激光测距传感器采集当前的状态信息，所述当前状态信息包括环境信息，环境信息包括机器人传感器从多个固定角度扫描的距离信息。

本实施例中，如图2-3所示，DDPG-LSTM模型具体如下：

DDPG算法具有四个网络，其中包括两个Actor网络和两个Critic网络，可选的，其中两个Actor网络的结构完全相同，两个Critic网络的结构也完全相同。

DDPG算法网络的输入端分别连接两个Actor网络和两个Critic网络，其中一个Actor网络和一个Critic网络构成主网络(main net)，另外的一个Actor网络和一个Critic网络构成目标网络(Target Net)。

改进前DDPG的Actor网络和Critic网络都是普通的神经网络，本实施例对Actor网络进行了改进，Critic网络并未改动，具体的，Actor网络训练采用SGA的更新方式，Critic网络训练采用SGD方法。

主网络(main net)以及目标网络(Target Net)中，Actor网络的执行SGA算法，Critic网络执行SGD算法更新主网络的参数。

改进后的Actor网络结构，可以如图3所示，包括CNN模型和LSTM模型，CNN模型输出层连接LSTM模型的输入端。

可实现的，CNN模型包括依次连接的输入层、隐藏层以及输出层；所述输入层用于接收机器人的当前状态信息及目标位置数据；隐藏层卷积神经网络层和全连接网络层，卷积神经网络层用于处理激光测距传感器检测的当前状态信息，提取环境特征信息，全连接网络层用于根据接收的环境特征信息以及目标位置信息，通过输出层输出角速度和线速度。

具体的，本实施例中的CNN模型设置了5个卷积神经网络层和1个全连接网络层。

LSTM模型包括多个神经网络单元，其中一个神经网络单元用于接收CNN模型的当前输出速度及LSTM模型之前输出的多个最终速度，按照时间序列采用长短期记忆算法输出最终速度作为机器人执行的角速度和线速度。

可设置的，本实施例的LSTM模型，该模块可以设置有8个神经网络单元，其输入包括CNN模型的输出X7以及前7个回合的速度(X0-X6)，按照顺序依次输入LSTM模型，根据长短期记忆算法输出最终速度。图中H是隐藏层，通过隐藏层实现8个神经网络单元的循环传递，Y是本单元的输出。

训练DDPG-LSTM模型的步骤，可以具体为：

步骤A1：初始化机器人的导航环境、起始坐标设置以及目标点；

步骤A2：获取机器人的当前状态信息，将当前状态信息和目标位置信息作为输入到DDPG-LSTM模型中，模型输出线速度和角速度，机器人执行动作，到达下一个状态，得到动作的奖励值，完成一个回合的操作；

可选的，可以利用机器人的激光测距传感器收集环境信息，将传感器数据和目标位置信息作为输入。机器人角速度和线速度共同作用于机器人，机器人会向某一具体角度以某一具体速度运动，达到另一个位置，这个位置的状态信息又是全新的，故为下一个状态

步骤A3：将本回合的数据包括当前状态信息、机器人执行的动作、动作奖励值、下一状态存储到经验回放池(Replay memory D)中，作为训练数据；

步骤A4：当经验回放池(Replay memory D)的数据达到设定的数量要求，采用经验回放机制对DDPG-LSTM模型进行训练；

训练完成的DDPG-LSTM模型可以仅根据传感器的信息和目标位置信息输出当前状态下的最优可执行动作数据，指导机器人完成无碰撞的路径导航。

其中，步骤A1中，使用GAZEBO环境仿真平台和机器人操作系统(ROS)，建立仿真环境，同时设置障碍物；

可选的，可以将机器人起始坐标设置为(0,0),目标点可以采用随机生成的方法，随机生成一个目标点；

本实施例将DDPG算法应用于机器人路径导航，在仅依靠机器人自身传感器和目标相对位置的情况下，即可实现机器人的无碰撞路径导航，无需参照先验障碍物地图或人为操作，模型的泛化能力显著提高。

实施例2

基于实施例1的方法，本实施例提供基于DDPG和LSTM的无地图机器人路径导航系统，包括：机器人状态检测装置和机器人，所述机器人执行实施例1的路径导航方法。

进一步的，所述机器人状态检测装置设置在机器人上，所述机器人状态检测装置包括激光测距传感器。

实施例3

基于实施例1的方法，本实施例提供基于DDPG和LSTM的无地图机器人路径导航系统，包括：

其中，所述机器人的可执行动作数据可以为：机器人动作的角速度和线速度。

进一步地，还包括训练DDPG-LSTM模型的模块，包括：

初始化模块：用于初始化机器人的导航环境、起始坐标设置以及目标点；

导航数据生成模块：利用机器人的激光测距传感器收集环境信息，将传感器数据和目标位置信息作为输入，输入到DDPG-LSTM模型中，模型输出线速度和角速度，使得机器人按照输出执行动作，到达下一个状态，得到动作的奖励值，完成一个回合的操作；

数据收集模块：用于将本回合的数据即当前状态信息、机器人执行的动作、动作奖励值、下一状态存储到经验回放池(Replay memory D)中，作为训练数据；

训练执行模块：用于当经验回放池(Replay memory D)的数据达到数量要求，采用经验回放机制对DDPG-LSTM模型进行训练；

其中，初始化模块中，使用GAZEBO环境仿真平台和机器人操作系统(ROS)，建立仿真环境，同时设置障碍物；

实施例4

本实施例提供一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成实施例1的方法所述的步骤。

实施例5

本实施例提供一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例1的方法所述的步骤。

以上所述仅为本公开的优选实施例而已，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

上述虽然结合附图对本公开的具体实施方式进行了描述，但并非对本公开保护范围的限制，所属领域技术人员应该明白，在本公开的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。

Claims

1.基于DDPG和LSTM的无地图机器人路径导航方法，其特征是，包括如下步骤：

获取机器人传感器从多个固定角度扫描的距离信息及目标位置信息；

将机器人传感器从多个固定角度扫描的距离信息及目标相对位置输入至训练好的DDPG-LSTM模型中输出最优可执行的角速度和线速度动作数据，使得机器人完成无碰撞的路径导航；

所述DDPG-LSTM模型基于DDPG网络，将DDPG网络的Actor网络设置为卷积神经网络与LSTM级联的结构，使得模型输出机器人最优可执行的角速度和线速度动作数据。

2.如权利要求1所述的基于DDPG和LSTM的无地图机器人路径导航方法，其特征是：DDPG-LSTM模型基于DDPG网络，将DDPG网络的Actor网络设置为卷积神经网络与LSTM级联的结构，具体为：DDPG算法网络包括Actor网络和Critic网络，其中Actor网络包括CNN模型和LSTM模型，CNN模型输出层连接LSTM模型的输入端。

3.如权利要求2所述的基于DDPG和LSTM的无地图机器人路径导航方法，其特征是：CNN模型包括依次连接的输入层、隐藏层以及输出层，所述输入层用于接收机器人传感器从多个固定角度扫描的距离数据及目标位置数据；隐藏层卷积神经网络层和全连接网络层，卷积神经网络层用于处理激光测距传感器检测的距离信息，全连接网络层用于根据接收的距离信息以及目标位置信息，通过输出层输出角速度和线速度。

4.如权利要求2所述的基于DDPG和LSTM的无地图机器人路径导航方法，其特征是：LSTM模型包括多个神经网络单元，其中一个神经网络单元用于接收CNN模型的当前输出速度及LSTM模型之前输出的多个最终速度，按照时间序列采用长短期记忆算法输出最终速度作为机器人执行的角速度和线速度。

5.如权利要求1所述的基于DDPG和LSTM的无地图机器人路径导航方法，其特征是：训练DDPG-LSTM模型的方法，包括如下步骤：

初始化机器人的导航环境、起始坐标设置以及目标点；

获取机器人传感器从多个固定角度扫描的距离信息，将距离信息和目标位置信息作为输入，输入到DDPG-LSTM模型中，模型输出线速度和角速度，以使机器人根据该线速度和角速度执行动作，到达下一个状态，得到动作的奖励值，完成一个回合的操作；

将本回合的数据存储到经验回放池中，作为训练数据；

当经验回放池的数据达到设定的数量要求，采用经验回放机制对DDPG-LSTM模型进行训练。

6.基于DDPG和LSTM的无地图机器人路径导航系统，其特征是：包括：机器人状态检测装置和机器人，所述机器人执行权利要求1-5任一项所述的基于DDPG和LSTM的无地图机器人路径导航方法。

7.基于DDPG和LSTM的无地图机器人路径导航系统，包括：

数据获取模块：被配置为用于获取机器人传感器从多个固定角度扫描的距离信息及目标位置信息；

导航模块：被配置为用于将机器人传感器从多个固定角度扫描的距离信息及目标相对位置输入至训练好的DDPG-LSTM模型中输出最优可执行的角速度和线速度动作数据，使得机器人完成无碰撞的路径导航；

8.一种电子设备，其特征是，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成权利要求1-5任一项方法所述的步骤。

9.一种计算机可读存储介质，其特征是，用于存储计算机指令，所述计算机指令被处理器执行时，完成权利要求1-5任一项方法所述的步骤。