CN114396949B

CN114396949B - 一种基于ddpg的移动机器人无先验地图导航决策方法

Info

Publication number: CN114396949B
Application number: CN202210055583.2A
Authority: CN
Inventors: 张毅; 宋泽; 刘想德
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2022-01-18
Filing date: 2022-01-18
Publication date: 2023-11-10
Anticipated expiration: 2042-01-18
Also published as: CN114396949A

Abstract

本发明涉及一种基于DDPG的移动机器人无先验地图导航决策方法，属于计算机领域。该方法为：S1：初始化Actor网络、Critic网络的参数、设置经验缓冲池大小以及随机取样的大小；S2：构建导航决策模型的训练的仿真环境；S3：提取机器人搭载的激光雷达(－90°,+90°)范围的9个均匀间隔的扇形区域的测距信息；S4：导航决策模型驱动机器人向目标点靠近，开始对导航决策模型进行训练；S5，重复S4步骤，直到机器人所获得的奖励值和导航成功率保持较高值且保持稳定；S6：导航决策模型训练结束后，设置新的仿真环境对机器人的导航性能和稳定系进行测试验证。本发明具有更快的训练速度、较好的导航性能和泛化性。

Description

一种基于DDPG的移动机器人无先验地图导航决策方法

技术领域

本发明属于计算机领域，涉及一种基于DDPG的移动机器人无先验地图导航决策方法。

背景技术

为了让移动机器人在人类活动场景中得到应用，需要使其具备在未知的复杂场景中的导航能力。传统的SLAM方案通过激光雷达等传感器获取机器人周围的环境信息，并构建出导航的全局地图，再根据定位和路径规划算法，实现在所构建的地图内的导航。这样的方案存在以下问题：构建和更新全局地图需要耗费大量的时间，且当机器人遇到动态障碍物或超出全局地图范围的情况时，很难及时更新地图，从而导致无法完成导航任务。基于深度强化学习算法的导航模型可以通过驱动机器人与周围环境不断交互，以获得最大奖励为目标不断优化机器人的动作选择，从而规划得到最优导航策略，完成在未知环境中的自主运动规划。由于其不依赖完备的环境先验知识，能够自主学习优化运动规划策略。因此，基于深度强化学习的导航模型能够在没有先验地图的情况下完成导航任务，从而使机器人不受全局地图的约束。然而，当前主流的基于深度强化学习的导航模型存在奖励函数设计不合理从而导致算法难以收敛以及在复杂环境中导航适应性能差等问题。

深度强化学习算法，如DQN、DDPG、PPO等算法的发展促使学者利用深度强化学习算法解决机器人在未知环境中的导航问题，Guo等人结合船舶在实际航行中的环境模型，提出了一种基于优化的DQN算法的沿海船舶路径规划模型，然而，该模型规划出的路径存在较多的路径角，且输出的动作为离散动作，在动态环境中容易与障碍物发生碰撞。Tai等人在机器人无地图导航中使用异步DDPG算法，通过输入10维稀疏激光测量信息和目标的相对位置，使智能体学习连续的控制动作，在仿真环境中训练，并在真实环境中测试了机器人的导航性能。但由于该模型中的奖励函数较为“稀疏”，导致导航模型训练速度较慢，且当机器人处于障碍物较多的环境时，机器人导航鲁棒性较差。Zhelo等人通过增加好奇心驱动策略改进了A3C算法，训练后的机器人在未知的环境中具有更好的泛化能力，但没有在复杂环境进行导航测试。针对机器人在复杂场景的导航问题，Toan等人提出了将卷积神经网络与PPO结合的方法，并利用Boltzmann选择策略平衡机器人的探索与开发，提高了机器人在复杂场景的探索能力，但其输出的动作为离散动作，在复杂场景中灵活性较低。

本发明旨在解决现有技术问题为：在复杂场景中导航鲁棒性差、在复杂场景中机器人动作灵活性低、奖励函数设置不合理导致算法难以收敛以及在复杂场景中导航适应性能差等问题。

发明内容

有鉴于此，本发明的目的在于提供一种基于DDPG的移动机器人无先验地图导航决策方法，拟解决基于深度强化学习的移动机器人在复杂场景中导航鲁棒性差、动作灵活性低、奖励函数设置不合理导致算法难以收敛以及在复杂场景中导航适应性能差等问题。相比于当前的导航模型，本发明所提出的导航模型训练速度更快、在复杂场景中导航适应性能和泛化能力较好其动作灵活性较高。

为达到上述目的，本发明提供如下技术方案：

一种基于DDPG的移动机器人无先验地图导航决策方法，该方法包括以下步骤：

S1：初始化Actor网络、Critic网络的参数、设置经验缓冲池大小以及随机取样的大小；

S2：构建导航决策模型的训练的仿真环境；

S3：提取机器人搭载的激光雷达(－90°,+90°)范围的9个均匀间隔的扇形区域的测距信息；

S4：导航决策模型驱动机器人向目标点靠近，开始对导航决策模型进行训练；

S5，重复S4步骤，直到机器人所获得的奖励值和导航成功率保持较高值且保持稳定；

S6：导航决策模型训练结束后，设置新的仿真环境对机器人的导航性能和稳定系进行测试验证。

可选的，所述S2具体为：

S21：利用gazebo、V-REP等仿真平台创建需要训练的机器人模型和封闭或者开放的机器人导航环境，并在所创建的环境中设置一定数量的障碍物；

S22：初始化机器人导航初始点，导航目标点在训练过程中随机生成。

可选的，所述S4具体为：

S41：模型驱动机器人运动，在运动探索过程中，机器人根据奖励函数获得对应的奖励值；

S42：将激光雷达的测距信息、目标点的信息进行归一化处理；

S43：将归一化的激光雷达测距信息和目标点的信息、机器人的动作以及奖励值存放在经验缓冲池中，Actor网络和Critic网络分别从经验缓冲池中随机均匀取样进行训练，Actor网络输出机器人的动作，Critic网络通过状态-动作值函数对机器人当前的动作进行评估，以获得最大奖励值为目标，不断优化机器人动作和导航策略；

S44：当机器人满足以下条件之一就结束一幕的训练过程：

(1)到达目标点；

(2)机器人与障碍物发生碰撞；

(3)训练过程探索步数达到最大探索步数；

结束一幕的训练过程后，将机器人初始点初始化和并在模型训练的仿真环境中随机生成下一个导航目标点。

可选的，所述奖励函数为：

到达奖励r_a、碰撞奖励r_c、时间奖励r_t和势场奖励r_p，前三者皆设为固定值；

到达奖励r_a为达到目标点获得的奖励，其为正奖励，碰撞奖励r_c为机器人在探索过程中与障碍物或者墙壁发生碰撞所获得的奖励值，时间奖励r_t为探索步数达到一定值后得到的奖励，碰撞奖励和时间奖励均为负奖励，势场奖励为机器人从初始位置向目标点靠近并且避开障碍物过程的奖励函数；

奖励函数公式如公式(1)所示：

势场奖励函数设计：势场奖励r_p分为排斥势场奖励和吸引势场奖励；吸引势场由目标点和机器人位置决定，机器人距离目标点位置越远，所受的吸引势场越大；吸引势场见公式(2)所示，其中，k为引力势场正比例增益系数，ρ_g表机器人当前位置与目标点的欧氏距离；

U_att＝kρ_g＝k||P_r-P_g||₂ (2)

在计算排斥势场时，需要考虑到障碍物对机器人产生的排斥影响，机器人距离障碍物越近，受到的排斥势场越大；计算排斥势场需要获得激光雷达探测到的障碍物的距离信息，考虑到障碍物只在一定范围对机器人产生影响，为减轻计算量，超过该影响范围后障碍物对机器人的影响忽略不计；机器人在距离障碍物一定范围内，排斥势场对机器人产生作用；传统的排斥势场只考虑了障碍物对机器人的影响，当机器人的目标点附近存在障碍物时，机器人所受到的排斥影响将占主导地位，使得机器人靠近目标点会获得较大的负奖励值，导致算法难以收敛；在排斥势场的设计中，引入目标距离因子，保证目标点附近引力势场占主导地位，当靠近目标点时获得正的奖励值，引导机器人向目标点靠近，同时避开周围障碍物；排斥势场如公式(3)所示，其中，m为斥力势场距离增益系数，d_i为激光的测距距离，d₀为常数，表示障碍物产生的排斥势场对机器人产生影响的距离界限，N为当前时刻在障碍物影响范围内激光雷达感知到的障碍物的激光线束的数量，n为(0,1)的系数；

当计算出吸引势场和排斥势场后，通过构造塑性奖励函数计算t时刻的势场奖励函数，其过程见公式(4)和公式(5)；

U_t＝U_att+U_rep (4)

r_p＝U_t-1-U_t (5)。

可选的，所述Actor网络和Critic网络采用全连接神经网络，每个神经网络有3个隐藏层，每一层具有512个节点，每个隐藏单元中采用ReLU激活函数；Actor网络输出机器人的线速度和角速度，为了线速度限制在(0,1)m/s范围内，线速度输出层采用Sigmoid激活函数；为获得(-1,1)rad/s范围的角速度，角速度的输出层激活函数采用Tanh函数；Critic网络输出对状态和动作预测的Q值，输出层通过线性激活函数激活。

本发明的有益效果在于：

首先提出了一种基于DDPG的移动机器人无先验地图导航方法，将2D激光雷达测距信息、机器人动作以及目标点位置作为模型的输入，模型经过训练后，可实现移动机器人的自主探索及导航。通过构造一种新的奖励函数优化机器人导航策略，克服了稀疏奖励函数导致的机器人“试错”次数增加的问题，能够更好地引导机器人避开障碍物、向目标点靠近，同时，加快导航模型的训练速度。针对机器人在实际环境中的导航情况，设计出了一种基于Actor-Critic的网络结构，能够灵活适应机器人在复杂环境下的导航。所提出的导航方法具有更快的训练速度、较好的导航性能和泛化性。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为导航模型系统结构示意图；

图2为Actor网络结构图；

图3为Critic网络结构图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本发明的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本发明的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

本发明所提出的导航决策模型包含输入信息处理部分、奖励函数计算部分和基于Actor-Critic网络的DDPG模型，其系统结构图见图1，图中的虚线部分是导航决策模型根据机器人当前所处的状态计算奖励回报的过程。将激光雷达的测距信息、机器人上一时刻的动作(包括角速度和线速度)和目标点的位置作为导航决策模型的输入，模型输出连续的动作。在导航决策模型训练过程中，利用经验缓冲池存储模型的训练数据，Actor网络和Critic网络随机均匀进行取样来训练模型。

对导航决策输入信息的处理：(1)对激光雷达测距的信息进行处理：将激光雷达的测距信息抽象为(－90°,+90°)范围的9个均匀间隔的扇形区域，该方法可降低机器人周围环境噪声对模型训练和导航的影响，同时，减少模型对环境信息处理的计算量；(2)将速度限制在(-1,1)范围内：为了保持机器人运行的稳定性以及减少速度波动对导航模型训练过程的影响，将机器人线速度限制在(0,1)m/s范围内，角速度限制在(-1,1)rad/s范围内；(3)对目标点位置信息的处理：用距离和角度来表征导航目标点相对机器人的位置。

奖励函数设计：通过构造“密集”的奖励函数来解决稀疏的奖励函数可能带来机器人“试错”次数的增加和算法难以收敛等问题。到达奖励r_a、碰撞奖励r_c、时间奖励r_t和势场奖励r_p,前三者皆设为固定值。到达奖励r_a为达到目标点获得的奖励，其为正奖励，碰撞奖励r_c为机器人在探索过程中与障碍物或者墙壁发生碰撞所获得的奖励值，时间奖励r_t为探索步数达到一定值后得到的奖励，碰撞奖励和时间奖励均为负奖励，势场奖励为机器人从初始位置向目标点靠近并且避开障碍物过程的奖励函数。本发明提出的模型的奖励函数公式如公式(1)所示：

势场奖励函数设计：势场奖励r_p分为排斥势场奖励和吸引势场奖励。吸引势场由目标点和机器人位置决定，机器人距离目标点位置越远，所受的吸引势场越大。吸引势场见公式(2)所示，其中，k为引力势场正比例增益系数，ρ_g表机器人当前位置与目标点的欧氏距离。

U_att＝kρ_g＝k||P_r-P_g||₂ (2)

在计算排斥势场时，需要考虑到障碍物对机器人产生的排斥影响，机器人距离障碍物越近，受到的排斥势场越大。计算排斥势场需要获得激光雷达探测到的障碍物的距离信息，考虑到障碍物只在一定范围对机器人产生影响，为减轻计算量，超过该影响范围后障碍物对机器人的影响可忽略不计。因此，机器人在距离障碍物一定范围内，排斥势场对机器人产生作用。传统的排斥势场只考虑了障碍物对机器人的影响，当机器人的目标点附近存在障碍物时，机器人所受到的排斥影响将占主导地位，使得机器人靠近目标点会获得较大的负奖励值，导致算法难以收敛。本文在排斥势场的设计中，引入目标距离因子，保证目标点附近引力势场占主导地位，当靠近目标点时获得正的奖励值，引导机器人向目标点靠近，同时避开周围障碍物。排斥势场如公式(3)所示，其中，m为斥力势场距离增益系数，d_i为激光的测距距离，d₀为常数，表示障碍物产生的排斥势场对机器人产生影响的距离界限，N为当前时刻在障碍物影响范围内激光雷达感知到的障碍物的激光线束的数量，n为(0,1)的系数。

当计算出吸引势场和排斥势场后，通过构造塑性奖励函数计算t时刻的势场奖励函数，其过程见公式(4)和公式(5)。

U_t＝U_att+U_rep (4)

r_p＝U_t-1-U_t (5)

基于Actor-Critic网络的网络结构设计：Actor网络和Critic网络采用全连接神经网络，每个神经网络有3个隐藏层，每一层具有512个节点，每个隐藏单元中采用ReLU激活函数。Actor网络需要输出机器人的线速度和角速度，为了将线速度限制在(0,1)m/s范围内，线速度输出层采用Sigmoid激活函数，此外，为获得(-1,1)rad/s范围的角速度，角速度的输出层激活函数采用Tanh函数。Actor网络结构见图2。Critic网络输出对状态和动作预测的Q值，输出层通过线性激活函数激活，其网络结构见图3。

S1，初始化Actor网络、Critic网络的参数、设置经验缓冲池大小以及随机取样的大小。

S2，构建导航决策模型的训练的仿真环境，具体步骤如下：

S21，利用gazebo、V-REP等仿真平台创建需要训练的机器人模型和封闭或者开放的机器人导航环境，并在所创建的环境中设置一定数量的障碍物；

S22，初始化机器人导航初始点，导航目标点在训练过程中随机生成；

S3，提取机器人搭载的激光雷达(－90°,+90°)范围的9个均匀间隔的扇形区域的测距信息。

S4，导航决策模型驱动机器人向目标点靠近，开始对导航决策模型进行训练，具体步骤如下：

S41，模型驱动机器人运动，在运动探索过程中，机器人根据奖励函数获得对应的奖励值；

S42，将激光雷达的测距信息、目标点的信息进行归一化处理；

S43，将归一化的激光雷达测距信息和目标点的信息、机器人的动作以及奖励值存放在经验缓冲池中，Actor网络和Critic网络分别从经验缓冲池中随机均匀取样进行训练，Actor网络输出机器人的动作，Critic网络通过状态-动作值函数对机器人当前的动作进行评估，以获得最大奖励值为目标，不断优化机器人动作和导航策略；

S44，当机器人满足以下条件之一便结束一幕的训练过程：(1)到达目标点；(2)机器人与障碍物发生碰撞；(3)该过程探索步数达到最大探索步数。结束一幕的训练过程后，将机器人初始点初始化和并在模型训练的仿真环境中随机生成下一个导航目标点；

S5，重复S4步骤，直到机器人所获得的奖励值和导航成功率保持较高值且保持稳定。

S6，导航决策模型训练结束后，设置新的仿真环境对机器人的导航性能和稳定系进行测试验证。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于DDPG的移动机器人无先验地图导航决策方法，其特征在于：该方法包括以下步骤：

S2：构建导航决策模型的训练的仿真环境；

S6：导航决策模型训练结束后，设置新的仿真环境对机器人的导航性能和稳定系进行测试验证；

所述S2具体为：

S21：利用gazebo、V-REP仿真平台创建需要训练的机器人模型和封闭或者开放的机器人导航环境，并在所创建的环境中设置一定数量的障碍物；

S22：初始化机器人导航初始点，导航目标点在训练过程中随机生成；

所述S4具体为：

S44：当机器人满足以下条件之一就结束一幕的训练过程：

(1)到达目标点；

(2)机器人与障碍物发生碰撞；

(3)训练过程探索步数达到最大探索步数；

结束一幕的训练过程后，将机器人初始点初始化和并在模型训练的仿真环境中随机生成下一个导航目标点；

所述奖励函数为：

奖励函数公式如公式(1)所示：

U_att＝kρ_g＝k||P_r-P_g||₂ (2)

U_t＝U_att+U_rep (4)

r_p＝U_t-1-U_t (5)。

2.根据权利要求1所述的一种基于DDPG的移动机器人无先验地图导航决策方法，其特征在于：所述Actor网络和Critic网络采用全连接神经网络，每个神经网络有3个隐藏层，每一层具有512个节点，每个隐藏单元中采用ReLU激活函数；Actor网络输出机器人的线速度和角速度，为了线速度限制在(0,1)m/s范围内，线速度输出层采用Sigmoid激活函数；为获得(-1,1)rad/s范围的角速度，角速度的输出层激活函数采用Tanh函数；Critic网络输出对状态和动作预测的Q值，输出层通过线性激活函数激活。