CN113219997B

CN113219997B - 一种基于tpr-ddpg的移动机器人路径规划方法

Info

Publication number: CN113219997B
Application number: CN202110638373.1A
Authority: CN
Inventors: 王秀青; 赵雅萍
Original assignee: Hebei Normal University
Current assignee: Hebei Normal University
Priority date: 2021-06-08
Filing date: 2021-06-08
Publication date: 2022-08-30
Anticipated expiration: 2041-06-08
Also published as: CN113219997A

Abstract

本发明涉及一种基于TPR‑DDPG的移动机器人路径规划方法，属于移动机器人的路径规划方法技术领域。本发明的技术方案是：对不同的状态进行预处理，并设计完整的奖赏函数，使移动机器人在复杂环境下快速找到最优路径并到达目标点，同时，在策略网络中加入BatchNorm层，保证算法的稳定性。本发明的有益效果是：通过三步式奖惩函数使机器人在避开障碍物的同时能够快速到达目标点。

Description

一种基于TPR-DDPG的移动机器人路径规划方法

技术领域

本发明涉及一种基于TPR-DDPG的移动机器人路径规划方法，属于移动机器人的路径规划方法技术领域。

背景技术

随着时代的进步，科学技术的快速发展，移动机器人越来越在人们的生活中发挥着重要的作用，移动机器人的路径规划技术已经应用到服务、交通等社会的各个领域，从而提高了生产效率，减少了人类资源浪费。路径规划需解决以下三个方面的问题：避障、如何到达目的地以及使行走路径平滑。传统的路径规划算法包括Dijkstra算法、A*算法、可视图法、栅格法和自由空间法，传统的路径规划算法需要已知整个地图的环境信息，在现实生活中，环境因素瞬息万变，因此，传统的路径规划算法是行不通的。强化学习可以不需要先验知识，机器人通过与未知环境不断试错与交互的过程中获得知识，然后通过累积奖赏来优化策略，从而使移动机器人完成路径规划。

强化学习算法具有较好的通用性，强化学习中的Q-learning算法迄今为止应用最广，其状态空间和动作空间都是离散的，奖励函数通过表格存储，弊端在于：(1)Q表格太大，难以保存；(2)样本过于稀疏，导致算法收敛慢甚至不收敛。深度强化学习算法中的深度Q网络(Deep Q-learning,DQN)用神经网络来代替Q表，引入了经验回放机制与目标Q网络，实现了状态空间连续化，但其动作空间是离散的，面对复杂的环境仍然存在路径不光滑问题。深度确定性策略梯度(Deep deterministic policy gradient,DDPG)算法通过演员-评论家(Actor-Critic，AC))框架将DQN与确定性策略梯度(deterministic policy gradient,DPG)相结合，实现状态空间和动作空间都连续化，本发明提出一种基于TPR-DDPG的移动机器人路径规划方法，设计了三步式奖励函数使机器人在避开障碍物的同时快速到达目标点。

发明内容

本发明目的是提供一种基于TPR-DDPG的移动机器人路径规划方法，通过在策略网络中加入BatchNorm层，将移动机器人转动角度作为动作，选取有利用价值的传感器数据作为状态并对其进行预处理，通过三步式奖惩函数使机器人在避开障碍物的同时能够快速到达目标点，有效地解决了背景技术中存在的上述问题。

本发明的技术方案是：一种基于TPR-DDPG的移动机器人路径规划方法，包含以下步骤：

(1)通过移动机器人的传感器信息获得输入到估计策略网络的状态，并对其进行预处理，状态包括机器人到目标点的距离、机器人方位角以及机器人前端八个超声传感器测量值；

(2)创建策略网络μ(s,θ^μ)和评价网络Q(s,a|θ^Q)和对应的目标网络μ'←μ和Q'←Q，初始化经验池R和噪声分布N；

(3)将状态s_t输入到估计策略网络得到一个确定性动作u(s_t)，机器人执行加入噪声后的动作a_t，执行该动作后根据奖惩函数获得奖励r_t以及下一步状态s_t+1，将状态s_t、动作a_t、奖励r_t、下一状态s_t+1存入经验池；

(4)当经验池中的样本达到要放入神经网络中训练的采样数batch时，则从中随机采样batch条样本,根据评价损失函数更新估计评价网络，根据策略梯度更新估计策略网络，然后再利用软更新方式更新目标评价网络与目标策略网络，经过episode轮的训练后保存模型；

(5)导入训练好的模型，将预处理后的状态输入到策略网络，移动机器人直接执行策略网络输出的动作即可从起始点到目标点走出一条无障碍的最优路径。

所述步骤(1)中状态预处理，将所有数据都进行归一化，其中s_p为归一化后的状态值，s_b为归一化前的状态值，s_max为状态的最大取值。归一化前的状态需要取绝对值的原因在于方位角的取值中存在负数。

所述步骤(2)的策略网络，具体包括：输入层由机器人到目标点的距离、机器人方位角以及机器人前端八个超声传感器测量值组成；隐含层使用了五个全连接层，每层的神经元个数分别为600、400、200、20和1，前两层的激活函数为relu6，后两层采用relu作为激活函数，在前四个隐含层fc1、fc2、fc3和fc4激活函数后都加一个BatchNorm层；输出层使用Tanh作为激活函数，使输出层神经元的值范围在[-1,1]，其中[-1,0]表示机器人向左转，[0,1]表示机器人向右转。

所述步骤(2)的评价网络，具体包括：输入层由将机器人到目标点的距离、机器人方位角以及机器人前端八个超声传感器测量值构成的十个状态和策略网络所选择的动作组成；隐含层使用了四个全连接层，每层的神经元个数分别为600、400、200和20，前两层用relu6作为激活函数，后两层用relu作为激活函数；输出层只有一个神经元，其作用在于输出Q值。

所述步骤(3)中给动作加入噪声，其作用在于保持对环境的探索，在整个环境的探索过程中，由于不能确定环境中的障碍物分布情况，所以在整个的探索过程中环境探索率采用一个固定值，且该值不宜过大。

a_t＝(1-α)μ(s_t|θ^u)+αN_t (2)

所述步骤(3)中的奖惩函数实现了在避开障碍物的同时快速到达目标点，具体包括：当机器人到达目标点时，给予奖励值50；当机器人与障碍物发生碰撞时，给予奖励值为负值-50；当机器人既未碰撞又未到达目标点时，奖励由reward1、reward2和reward3三部分组成。

利用式(4)给的奖励值可以实现机器人向目标点趋近，其中，curdis为当前步机器人的位置到目标点的直线距离，predis为上一步机器人的位置到目标点的直线距离；机器人每步移动的最大距离为500mm，reward1∈[-10,10]；当predis-curdis＞0时，reward1∈[0，10]，表示机器人在朝着目标点方向移动，距离目标点越近，reward1越大；当predis-curdis＜0时，reward1∈[-10，0]，表示机器人朝着目标点的反方向移动，距离目标点越远，reward1越小；

reward1＝(predis-curdis)/50,未到达目标点且未碰撞 (4)

利用式(5)可以评估机器人当前动作是否避开障碍物，并根据当前范围内障碍物的情况给予奖惩，curcount为当前采样时刻正前方4个超声传感器中读数小于500mm的个数，precount为前一个采样时刻正前方4个超声传感器中读数小于500mm的个数。当precount≤curcount时，表示当前采样时刻比前一采样时刻与障碍物相撞的危险程度大，则给予惩罚；当precount＞curcount时，表示当前采样时刻比前一采样时刻与障碍物相撞的危险程度小，则给予奖励；

用式(6)给的奖励值可以实现机器人加速到达目标点，abs(dir)为方位角的绝对值。当curcount＝0时，即在机器人前方500mm范围内，当30-abs(dir)＞0时，reward3∈[0，9]，机器人朝着目标点正向移动，给予奖励；当30-abs(dir)＜0时，reward3∈[-4.5，0]，机器人朝着目标点偏向移动或朝着目标点反方向移动，给予惩罚；奖励系数取0.3，而惩罚系数取0.03，避免在大范围内有障碍物时，因惩罚太大而错过了最优路径。

本发明的有益效果是：通过在策略网络中加入BatchNorm层，将移动机器人转动角度作为动作，选取有利用价值的传感器数据作为状态并对其进行预处理，通过三步式奖惩函数使机器人实现在复杂的环境中避开障碍物的同时能够快速到达目标点。

附图说明

图1是本发明的总体框架图；

图2是本发明的流程图；

图3是起始位姿(-3200，-3100，90°)，目标点(4600，2000)实验结果。

具体实施方式

为了使发明实施案例的目的、技术方案和优点更加清楚，下面将结合实施案例中的附图，对本发明实施案例中的技术方案进行清晰的、完整的描述，显然，所表述的实施案例是本发明一小部分实施案例，而不是全部的实施案例，基于本发明中的实施案例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施案例，都属于本发明保护范围。

一种基于TPR-DDPG的移动机器人路径规划方法，包含以下步骤：

a_t＝(1-α)μ(s_t|θ^u)+αN_t (2)

所述步骤(3)中的奖惩函数实现了在避开障碍物的同时快速到达目标点，具体包括：当机器人到达目标点时，给予奖励值50；当机器人与障碍物发生碰撞时，给予奖励值为负值-50；当机器人既未碰撞又未到达目标点时，奖励由reward1、reward2和reward3三部分组成；

reward1＝(predis-curdis)/50,未到达目标点且未碰撞 (4)

用式(6)给的奖励值可以实现机器人加速到达目标点，abs(dir)为方位角的绝对值；

当curcount＝0时，即在机器人前方500mm范围内，当30-abs(dir)＞0时，reward3∈[0，9]，机器人朝着目标点正向移动，给予奖励；当30-abs(dir)＜0时，reward3∈[-4.5，0]，机器人朝着目标点偏向移动或朝着目标点反方向移动，给予惩罚；奖励系数取0.3，而惩罚系数取0.03，避免在大范围内有障碍物时，因惩罚太大而错过了最优路径。

深度确定性策略梯度(Deep deterministic policy gradient,DDPG)算法通过演员-评论家(Actor-Critic，AC))框架将DQN与确定性策略梯度(deterministic policygradient,DPG)相结合，实现状态空间和动作空间都连续化，本发明提出一种基于TPR-DDPG的移动机器人路径规划方法，设计了三步式奖励函数使机器人在复杂的环境中实现避开障碍物的同时快速到达目标点。

实施例：

如图1，本发明的网络结构由估计策略网络、估计评价网络、目标策略网络与目标评价网络四部分组成，其中，估计策略网络与目标策略网络是相同的网络结构，估计评价网络与目标评价网络是相同的网络结构。其通过将状态s_t输入到估计策略网络得出动作u(s_t)，机器人执行加噪声后的动作a_t，获得奖励r_t并转到下一状态s_t+1，将s_t，a_t，r_t，a_i,s_t+1存放到经验池，当经验池中样本达到batch时，就可进行采样并放入神经网络进行训练。其训练过程如下：

将经验池中采样的状态s_i与动作a_i输入到估计评价网络得出Q(a_i)，将下一步状态s_i+1输入到目标策略网络得出动作a'，将状态s_i+1与动作a'输入到目标评价网络得出Q(a')，用损失函数来更新估计评价网络参数。

将经验池中采样的状态s_i输入到估计策略网络得出确定的动作a_i将状态s_i与动作a输入到估计评价网络得出Q(a)，用策略梯度来更新估计策略网络参数。

如图2，本发明的具体步骤如下：

步骤1、初始化策略网络μ(s,θ^μ)和评价网络Q(s,a|θ^Q)，初始化对应的目标网络μ'←μ和Q'←Q，初始化经验池R，初始化噪声分布N。

步骤2、通过将状态s_t输入到策略网络，得出确定的动作值μ(s_t|θ^u)，加入标准正态分布产生的噪声N_t，通过式(2)得出最终动作a_t，α为环境探索率，执行动作a_t，获得奖赏r_t以及状态s_t+1。

a_t＝(1-α)μ(s_t|θ^u)+αN_t (2)

步骤3、将s_t，a_t，r_t，s_t+1放入经验池，当经验池中的数据到达到要放入神经网络中训练的采样数batch时，则从中随机采样batch条样本放入网络中进行训练。若经验池处于饱和状态，则剔除最先放入经验池的样本。

步骤4、根据式(7)更新评价网络，其中L为均方误差损失函数，γ为累计经验折扣率。

步骤5、根据式(8)更新策略网络，

为策略梯度。

步骤6、根据式(9)更新目标网络中的参数，τ为目标网络更新率。

步骤7、回到步骤2后使用策略网络去获取动作，更新经验池、再采样小批量数据放入网络训练，这是一个循环的过程，若完成episode轮的训练，则保存模型，结束程序。

步骤8.导入训练好的模型，将预处理后的状态输入到策略网络，移动机器人直接执行策略网络输出的动作即可从起始点到目标点走出一条无障碍的最优路径。

如图3为一种基于TPR-DDPG的移动机器人路径规划的实验结果图，其以Pioneer3-DX机器人为研究对象，仿真平台为MobileSim，地图构建采用Mapper3，开发环境为Miscrosoft Visual Studio 2013，编程语言为C++，深度学习框架为caffe。仿真实验环境采用长12000mm、宽8000mm的矩形区域，起始位姿(-3200，-3100，90°)，目标点(4600，2000)。移动机器人经过23步到达目标点，其获得的总奖励为270.3，从而有效地验证了所提的基于TPR-DDPG的移动机器人路径规划方法，机器人可以在复杂环境中从起始点到目标点找到一条平滑的最优路径。

Claims

1.一种基于TPR-DDPG的移动机器人路径规划方法，其特征在于包含以下步骤：

所述奖惩函数实现了在避开障碍物的同时快速到达目标点，具体包括：当机器人到达目标点时，给予奖励值50；当机器人与障碍物发生碰撞时，给予奖励值为负值-50；当机器人既未碰撞又未到达目标点时，奖励由reward1、reward2和reward3三部分组成；

利用下式给的奖励值可以实现机器人向目标点趋近，其中，curdis为当前步机器人的位置到目标点的直线距离，predis为上一步机器人的位置到目标点的直线距离；机器人每步移动的最大距离为500mm，reward1∈[-10,10]；当predis-curdis＞0时，reward1∈[0，10]，表示机器人在朝着目标点方向移动，距离目标点越近，reward1越大；当predis-curdis＜0时，reward1∈[-10，0]，表示机器人朝着目标点的反方向移动，距离目标点越远，reward1越小；

reward1＝(predis-curdis)/50,未到达目标点且未碰撞

利用下式可以评估机器人当前动作是否避开障碍物，并根据当前范围内障碍物的情况给予奖惩，curcount为当前采样时刻正前方4个超声传感器中读数小于500mm的个数，precount为前一个采样时刻正前方4个超声传感器中读数小于500mm的个数；当precount≤curcount时，表示当前采样时刻比前一采样时刻与障碍物相撞的危险程度大，则给予惩罚；当precount＞curcount时，表示当前采样时刻比前一采样时刻与障碍物相撞的危险程度小，则给予奖励；

用下式给的奖励值可以实现机器人加速到达目标点，abs(dir)为方位角的绝对值；

当curcount＝0时，即在机器人前方500mm范围内，当30-abs(dir)＞0时，reward3∈[0，9]，机器人朝着目标点正向移动，给予奖励；当30-abs(dir)＜0时，reward3∈[-4.5，0]，机器人朝着目标点偏向移动或朝着目标点反方向移动，给予惩罚；奖励系数取0.3，而惩罚系数取0.03，避免在大范围内有障碍物时，因惩罚太大而错过了最优路径；

2.根据权利要求1所述的一种基于TPR-DDPG的移动机器人路径规划方法，其特征在于：所述步骤(1)中状态预处理，将所有数据都进行归一化，

其中s_p为归一化后的状态值，s_b为归一化前的状态值，s_max为状态的最大取值；归一化前的状态需要取绝对值的原因在于方位角的取值中存在负数。

3.根据权利要求1所述的一种基于TPR-DDPG的移动机器人路径规划方法，其特征在于：所述步骤(2)的策略网络，具体包括：输入层由机器人到目标点的距离、机器人方位角以及机器人前端八个超声传感器测量值组成；隐含层使用了五个全连接层，每层的神经元个数分别为600、400、200、20和1，前两层的激活函数为relu6，后两层采用relu作为激活函数，在前四个隐含层fc1、fc2、fc3和fc4激活函数后都加一个BatchNorm层；输出层使用Tanh作为激活函数，使输出层神经元的值范围在[-1,1]，其中[-1,0]表示机器人向左转，[0,1]表示机器人向右转。

4.根据权利要求1所述的一种基于TPR-DDPG的移动机器人路径规划方法，其特征在于：所述步骤(2)的评价网络，具体包括：输入层由将机器人到目标点的距离、机器人方位角以及机器人前端八个超声传感器测量值构成的十个状态和策略网络所选择的动作组成；隐含层使用了四个全连接层，每层的神经元个数分别为600、400、200和20，前两层用relu6作为激活函数，后两层用relu作为激活函数；输出层只有一个神经元，其作用在于输出Q值。

5.根据权利要求书1所述的一种基于TPR-DDPG的移动机器人路径规划方法，其特征在于，所述步骤(3)中给动作加入噪声，其作用在于保持对环境的探索，a_t＝(1-α)μ(s_t|θ^u)+αN_t

在整个环境的探索过程中，由于不能确定环境中的障碍物分布情况，所以在整个的探索过程中环境探索率采用一个固定值，且该值不宜过大。