CN113219997B - 一种基于tpr-ddpg的移动机器人路径规划方法 - Google Patents

一种基于tpr-ddpg的移动机器人路径规划方法 Download PDF

Info

Publication number
CN113219997B
CN113219997B CN202110638373.1A CN202110638373A CN113219997B CN 113219997 B CN113219997 B CN 113219997B CN 202110638373 A CN202110638373 A CN 202110638373A CN 113219997 B CN113219997 B CN 113219997B
Authority
CN
China
Prior art keywords
robot
target point
state
network
reward
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110638373.1A
Other languages
English (en)
Other versions
CN113219997A (zh
Inventor
王秀青
赵雅萍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hebei Normal University
Original Assignee
Hebei Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hebei Normal University filed Critical Hebei Normal University
Priority to CN202110638373.1A priority Critical patent/CN113219997B/zh
Publication of CN113219997A publication Critical patent/CN113219997A/zh
Application granted granted Critical
Publication of CN113219997B publication Critical patent/CN113219997B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0255Control of position or course in two dimensions specially adapted to land vehicles using acoustic signals, e.g. ultra-sonic singals
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0214Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory in accordance with safety or protection criteria, e.g. avoiding hazardous areas
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0276Control of position or course in two dimensions specially adapted to land vehicles using signals provided by a source external to the vehicle

Abstract

本发明涉及一种基于TPR‑DDPG的移动机器人路径规划方法,属于移动机器人的路径规划方法技术领域。本发明的技术方案是:对不同的状态进行预处理,并设计完整的奖赏函数,使移动机器人在复杂环境下快速找到最优路径并到达目标点,同时,在策略网络中加入BatchNorm层,保证算法的稳定性。本发明的有益效果是:通过三步式奖惩函数使机器人在避开障碍物的同时能够快速到达目标点。

Description

一种基于TPR-DDPG的移动机器人路径规划方法
技术领域
本发明涉及一种基于TPR-DDPG的移动机器人路径规划方法,属于移动机器人的路径规划方法技术领域。
背景技术
随着时代的进步,科学技术的快速发展,移动机器人越来越在人们的生活中发挥着重要的作用,移动机器人的路径规划技术已经应用到服务、交通等社会的各个领域,从而提高了生产效率,减少了人类资源浪费。路径规划需解决以下三个方面的问题:避障、如何到达目的地以及使行走路径平滑。传统的路径规划算法包括Dijkstra算法、A*算法、可视图法、栅格法和自由空间法,传统的路径规划算法需要已知整个地图的环境信息,在现实生活中,环境因素瞬息万变,因此,传统的路径规划算法是行不通的。强化学习可以不需要先验知识,机器人通过与未知环境不断试错与交互的过程中获得知识,然后通过累积奖赏来优化策略,从而使移动机器人完成路径规划。
强化学习算法具有较好的通用性,强化学习中的Q-learning算法迄今为止应用最广,其状态空间和动作空间都是离散的,奖励函数通过表格存储,弊端在于:(1)Q表格太大,难以保存;(2)样本过于稀疏,导致算法收敛慢甚至不收敛。深度强化学习算法中的深度Q网络(Deep Q-learning,DQN)用神经网络来代替Q表,引入了经验回放机制与目标Q网络,实现了状态空间连续化,但其动作空间是离散的,面对复杂的环境仍然存在路径不光滑问题。深度确定性策略梯度(Deep deterministic policy gradient,DDPG)算法通过演员-评论家(Actor-Critic,AC))框架将DQN与确定性策略梯度(deterministic policy gradient,DPG)相结合,实现状态空间和动作空间都连续化,本发明提出一种基于TPR-DDPG的移动机器人路径规划方法,设计了三步式奖励函数使机器人在避开障碍物的同时快速到达目标点。
发明内容
本发明目的是提供一种基于TPR-DDPG的移动机器人路径规划方法,通过在策略网络中加入BatchNorm层,将移动机器人转动角度作为动作,选取有利用价值的传感器数据作为状态并对其进行预处理,通过三步式奖惩函数使机器人在避开障碍物的同时能够快速到达目标点,有效地解决了背景技术中存在的上述问题。
本发明的技术方案是:一种基于TPR-DDPG的移动机器人路径规划方法,包含以下步骤:
(1)通过移动机器人的传感器信息获得输入到估计策略网络的状态,并对其进行预处理,状态包括机器人到目标点的距离、机器人方位角以及机器人前端八个超声传感器测量值;
(2)创建策略网络μ(s,θμ)和评价网络Q(s,a|θQ)和对应的目标网络μ'←μ和Q'←Q,初始化经验池R和噪声分布N;
(3)将状态st输入到估计策略网络得到一个确定性动作u(st),机器人执行加入噪声后的动作at,执行该动作后根据奖惩函数获得奖励rt以及下一步状态st+1,将状态st、动作at、奖励rt、下一状态st+1存入经验池;
(4)当经验池中的样本达到要放入神经网络中训练的采样数batch时,则从中随机采样batch条样本,根据评价损失函数更新估计评价网络,根据策略梯度更新估计策略网络,然后再利用软更新方式更新目标评价网络与目标策略网络,经过episode轮的训练后保存模型;
(5)导入训练好的模型,将预处理后的状态输入到策略网络,移动机器人直接执行策略网络输出的动作即可从起始点到目标点走出一条无障碍的最优路径。
所述步骤(1)中状态预处理,将所有数据都进行归一化,其中sp为归一化后的状态值,sb为归一化前的状态值,smax为状态的最大取值。归一化前的状态需要取绝对值的原因在于方位角的取值中存在负数。
Figure BDA0003106730470000031
所述步骤(2)的策略网络,具体包括:输入层由机器人到目标点的距离、机器人方位角以及机器人前端八个超声传感器测量值组成;隐含层使用了五个全连接层,每层的神经元个数分别为600、400、200、20和1,前两层的激活函数为relu6,后两层采用relu作为激活函数,在前四个隐含层fc1、fc2、fc3和fc4激活函数后都加一个BatchNorm层;输出层使用Tanh作为激活函数,使输出层神经元的值范围在[-1,1],其中[-1,0]表示机器人向左转,[0,1]表示机器人向右转。
所述步骤(2)的评价网络,具体包括:输入层由将机器人到目标点的距离、机器人方位角以及机器人前端八个超声传感器测量值构成的十个状态和策略网络所选择的动作组成;隐含层使用了四个全连接层,每层的神经元个数分别为600、400、200和20,前两层用relu6作为激活函数,后两层用relu作为激活函数;输出层只有一个神经元,其作用在于输出Q值。
所述步骤(3)中给动作加入噪声,其作用在于保持对环境的探索,在整个环境的探索过程中,由于不能确定环境中的障碍物分布情况,所以在整个的探索过程中环境探索率采用一个固定值,且该值不宜过大。
at=(1-α)μ(stu)+αNt (2)
所述步骤(3)中的奖惩函数实现了在避开障碍物的同时快速到达目标点,具体包括:当机器人到达目标点时,给予奖励值50;当机器人与障碍物发生碰撞时,给予奖励值为负值-50;当机器人既未碰撞又未到达目标点时,奖励由reward1、reward2和reward3三部分组成。
Figure BDA0003106730470000041
利用式(4)给的奖励值可以实现机器人向目标点趋近,其中,curdis为当前步机器人的位置到目标点的直线距离,predis为上一步机器人的位置到目标点的直线距离;机器人每步移动的最大距离为500mm,reward1∈[-10,10];当predis-curdis>0时,reward1∈[0,10],表示机器人在朝着目标点方向移动,距离目标点越近,reward1越大;当predis-curdis<0时,reward1∈[-10,0],表示机器人朝着目标点的反方向移动,距离目标点越远,reward1越小;
reward1=(predis-curdis)/50,未到达目标点且未碰撞 (4)
利用式(5)可以评估机器人当前动作是否避开障碍物,并根据当前范围内障碍物的情况给予奖惩,curcount为当前采样时刻正前方4个超声传感器中读数小于500mm的个数,precount为前一个采样时刻正前方4个超声传感器中读数小于500mm的个数。当precount≤curcount时,表示当前采样时刻比前一采样时刻与障碍物相撞的危险程度大,则给予惩罚;当precount>curcount时,表示当前采样时刻比前一采样时刻与障碍物相撞的危险程度小,则给予奖励;
Figure BDA0003106730470000051
用式(6)给的奖励值可以实现机器人加速到达目标点,abs(dir)为方位角的绝对值。当curcount=0时,即在机器人前方500mm范围内,当30-abs(dir)>0时,reward3∈[0,9],机器人朝着目标点正向移动,给予奖励;当30-abs(dir)<0时,reward3∈[-4.5,0],机器人朝着目标点偏向移动或朝着目标点反方向移动,给予惩罚;奖励系数取0.3,而惩罚系数取0.03,避免在大范围内有障碍物时,因惩罚太大而错过了最优路径。
Figure BDA0003106730470000052
本发明的有益效果是:通过在策略网络中加入BatchNorm层,将移动机器人转动角度作为动作,选取有利用价值的传感器数据作为状态并对其进行预处理,通过三步式奖惩函数使机器人实现在复杂的环境中避开障碍物的同时能够快速到达目标点。
附图说明
图1是本发明的总体框架图;
图2是本发明的流程图;
图3是起始位姿(-3200,-3100,90°),目标点(4600,2000)实验结果。
具体实施方式
为了使发明实施案例的目的、技术方案和优点更加清楚,下面将结合实施案例中的附图,对本发明实施案例中的技术方案进行清晰的、完整的描述,显然,所表述的实施案例是本发明一小部分实施案例,而不是全部的实施案例,基于本发明中的实施案例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施案例,都属于本发明保护范围。
一种基于TPR-DDPG的移动机器人路径规划方法,包含以下步骤:
(1)通过移动机器人的传感器信息获得输入到估计策略网络的状态,并对其进行预处理,状态包括机器人到目标点的距离、机器人方位角以及机器人前端八个超声传感器测量值;
(2)创建策略网络μ(s,θμ)和评价网络Q(s,a|θQ)和对应的目标网络μ'←μ和Q'←Q,初始化经验池R和噪声分布N;
(3)将状态st输入到估计策略网络得到一个确定性动作u(st),机器人执行加入噪声后的动作at,执行该动作后根据奖惩函数获得奖励rt以及下一步状态st+1,将状态st、动作at、奖励rt、下一状态st+1存入经验池;
(4)当经验池中的样本达到要放入神经网络中训练的采样数batch时,则从中随机采样batch条样本,根据评价损失函数更新估计评价网络,根据策略梯度更新估计策略网络,然后再利用软更新方式更新目标评价网络与目标策略网络,经过episode轮的训练后保存模型;
(5)导入训练好的模型,将预处理后的状态输入到策略网络,移动机器人直接执行策略网络输出的动作即可从起始点到目标点走出一条无障碍的最优路径。
所述步骤(1)中状态预处理,将所有数据都进行归一化,其中sp为归一化后的状态值,sb为归一化前的状态值,smax为状态的最大取值。归一化前的状态需要取绝对值的原因在于方位角的取值中存在负数。
Figure BDA0003106730470000071
所述步骤(2)的策略网络,具体包括:输入层由机器人到目标点的距离、机器人方位角以及机器人前端八个超声传感器测量值组成;隐含层使用了五个全连接层,每层的神经元个数分别为600、400、200、20和1,前两层的激活函数为relu6,后两层采用relu作为激活函数,在前四个隐含层fc1、fc2、fc3和fc4激活函数后都加一个BatchNorm层;输出层使用Tanh作为激活函数,使输出层神经元的值范围在[-1,1],其中[-1,0]表示机器人向左转,[0,1]表示机器人向右转。
所述步骤(2)的评价网络,具体包括:输入层由将机器人到目标点的距离、机器人方位角以及机器人前端八个超声传感器测量值构成的十个状态和策略网络所选择的动作组成;隐含层使用了四个全连接层,每层的神经元个数分别为600、400、200和20,前两层用relu6作为激活函数,后两层用relu作为激活函数;输出层只有一个神经元,其作用在于输出Q值。
所述步骤(3)中给动作加入噪声,其作用在于保持对环境的探索,在整个环境的探索过程中,由于不能确定环境中的障碍物分布情况,所以在整个的探索过程中环境探索率采用一个固定值,且该值不宜过大。
at=(1-α)μ(stu)+αNt (2)
所述步骤(3)中的奖惩函数实现了在避开障碍物的同时快速到达目标点,具体包括:当机器人到达目标点时,给予奖励值50;当机器人与障碍物发生碰撞时,给予奖励值为负值-50;当机器人既未碰撞又未到达目标点时,奖励由reward1、reward2和reward3三部分组成;
Figure BDA0003106730470000091
利用式(4)给的奖励值可以实现机器人向目标点趋近,其中,curdis为当前步机器人的位置到目标点的直线距离,predis为上一步机器人的位置到目标点的直线距离;机器人每步移动的最大距离为500mm,reward1∈[-10,10];当predis-curdis>0时,reward1∈[0,10],表示机器人在朝着目标点方向移动,距离目标点越近,reward1越大;当predis-curdis<0时,reward1∈[-10,0],表示机器人朝着目标点的反方向移动,距离目标点越远,reward1越小;
reward1=(predis-curdis)/50,未到达目标点且未碰撞 (4)
利用式(5)可以评估机器人当前动作是否避开障碍物,并根据当前范围内障碍物的情况给予奖惩,curcount为当前采样时刻正前方4个超声传感器中读数小于500mm的个数,precount为前一个采样时刻正前方4个超声传感器中读数小于500mm的个数。当precount≤curcount时,表示当前采样时刻比前一采样时刻与障碍物相撞的危险程度大,则给予惩罚;当precount>curcount时,表示当前采样时刻比前一采样时刻与障碍物相撞的危险程度小,则给予奖励;
Figure BDA0003106730470000092
用式(6)给的奖励值可以实现机器人加速到达目标点,abs(dir)为方位角的绝对值;
Figure BDA0003106730470000093
当curcount=0时,即在机器人前方500mm范围内,当30-abs(dir)>0时,reward3∈[0,9],机器人朝着目标点正向移动,给予奖励;当30-abs(dir)<0时,reward3∈[-4.5,0],机器人朝着目标点偏向移动或朝着目标点反方向移动,给予惩罚;奖励系数取0.3,而惩罚系数取0.03,避免在大范围内有障碍物时,因惩罚太大而错过了最优路径。
深度确定性策略梯度(Deep deterministic policy gradient,DDPG)算法通过演员-评论家(Actor-Critic,AC))框架将DQN与确定性策略梯度(deterministic policygradient,DPG)相结合,实现状态空间和动作空间都连续化,本发明提出一种基于TPR-DDPG的移动机器人路径规划方法,设计了三步式奖励函数使机器人在复杂的环境中实现避开障碍物的同时快速到达目标点。
实施例:
如图1,本发明的网络结构由估计策略网络、估计评价网络、目标策略网络与目标评价网络四部分组成,其中,估计策略网络与目标策略网络是相同的网络结构,估计评价网络与目标评价网络是相同的网络结构。其通过将状态st输入到估计策略网络得出动作u(st),机器人执行加噪声后的动作at,获得奖励rt并转到下一状态st+1,将st,at,rt,ai,st+1存放到经验池,当经验池中样本达到batch时,就可进行采样并放入神经网络进行训练。其训练过程如下:
将经验池中采样的状态si与动作ai输入到估计评价网络得出Q(ai),将下一步状态si+1输入到目标策略网络得出动作a',将状态si+1与动作a'输入到目标评价网络得出Q(a'),用损失函数来更新估计评价网络参数。
将经验池中采样的状态si输入到估计策略网络得出确定的动作ai将状态si与动作a输入到估计评价网络得出Q(a),用策略梯度来更新估计策略网络参数。
如图2,本发明的具体步骤如下:
步骤1、初始化策略网络μ(s,θμ)和评价网络Q(s,a|θQ),初始化对应的目标网络μ'←μ和Q'←Q,初始化经验池R,初始化噪声分布N。
步骤2、通过将状态st输入到策略网络,得出确定的动作值μ(stu),加入标准正态分布产生的噪声Nt,通过式(2)得出最终动作at,α为环境探索率,执行动作at,获得奖赏rt以及状态st+1
at=(1-α)μ(stu)+αNt (2)
步骤3、将st,at,rt,st+1放入经验池,当经验池中的数据到达到要放入神经网络中训练的采样数batch时,则从中随机采样batch条样本放入网络中进行训练。若经验池处于饱和状态,则剔除最先放入经验池的样本。
步骤4、根据式(7)更新评价网络,其中L为均方误差损失函数,γ为累计经验折扣率。
Figure BDA0003106730470000111
步骤5、根据式(8)更新策略网络,
Figure BDA0003106730470000112
为策略梯度。
Figure BDA0003106730470000113
步骤6、根据式(9)更新目标网络中的参数,τ为目标网络更新率。
Figure BDA0003106730470000121
步骤7、回到步骤2后使用策略网络去获取动作,更新经验池、再采样小批量数据放入网络训练,这是一个循环的过程,若完成episode轮的训练,则保存模型,结束程序。
步骤8.导入训练好的模型,将预处理后的状态输入到策略网络,移动机器人直接执行策略网络输出的动作即可从起始点到目标点走出一条无障碍的最优路径。
如图3为一种基于TPR-DDPG的移动机器人路径规划的实验结果图,其以Pioneer3-DX机器人为研究对象,仿真平台为MobileSim,地图构建采用Mapper3,开发环境为Miscrosoft Visual Studio 2013,编程语言为C++,深度学习框架为caffe。仿真实验环境采用长12000mm、宽8000mm的矩形区域,起始位姿(-3200,-3100,90°),目标点(4600,2000)。移动机器人经过23步到达目标点,其获得的总奖励为270.3,从而有效地验证了所提的基于TPR-DDPG的移动机器人路径规划方法,机器人可以在复杂环境中从起始点到目标点找到一条平滑的最优路径。

Claims (5)

1.一种基于TPR-DDPG的移动机器人路径规划方法,其特征在于包含以下步骤:
(1)通过移动机器人的传感器信息获得输入到估计策略网络的状态,并对其进行预处理,状态包括机器人到目标点的距离、机器人方位角以及机器人前端八个超声传感器测量值;
(2)创建策略网络μ(s,θμ)和评价网络Q(s,a|θQ)和对应的目标网络μ'←μ和Q'←Q,初始化经验池R和噪声分布N;
(3)将状态st输入到估计策略网络得到一个确定性动作u(st),机器人执行加入噪声后的动作at,执行该动作后根据奖惩函数获得奖励rt以及下一步状态st+1,将状态st、动作at、奖励rt、下一状态st+1存入经验池;
所述奖惩函数实现了在避开障碍物的同时快速到达目标点,具体包括:当机器人到达目标点时,给予奖励值50;当机器人与障碍物发生碰撞时,给予奖励值为负值-50;当机器人既未碰撞又未到达目标点时,奖励由reward1、reward2和reward3三部分组成;
Figure FDA0003731292110000011
利用下式给的奖励值可以实现机器人向目标点趋近,其中,curdis为当前步机器人的位置到目标点的直线距离,predis为上一步机器人的位置到目标点的直线距离;机器人每步移动的最大距离为500mm,reward1∈[-10,10];当predis-curdis>0时,reward1∈[0,10],表示机器人在朝着目标点方向移动,距离目标点越近,reward1越大;当predis-curdis<0时,reward1∈[-10,0],表示机器人朝着目标点的反方向移动,距离目标点越远,reward1越小;
reward1=(predis-curdis)/50,未到达目标点且未碰撞
利用下式可以评估机器人当前动作是否避开障碍物,并根据当前范围内障碍物的情况给予奖惩,curcount为当前采样时刻正前方4个超声传感器中读数小于500mm的个数,precount为前一个采样时刻正前方4个超声传感器中读数小于500mm的个数;当precount≤curcount时,表示当前采样时刻比前一采样时刻与障碍物相撞的危险程度大,则给予惩罚;当precount>curcount时,表示当前采样时刻比前一采样时刻与障碍物相撞的危险程度小,则给予奖励;
Figure FDA0003731292110000021
用下式给的奖励值可以实现机器人加速到达目标点,abs(dir)为方位角的绝对值;
Figure FDA0003731292110000022
当curcount=0时,即在机器人前方500mm范围内,当30-abs(dir)>0时,reward3∈[0,9],机器人朝着目标点正向移动,给予奖励;当30-abs(dir)<0时,reward3∈[-4.5,0],机器人朝着目标点偏向移动或朝着目标点反方向移动,给予惩罚;奖励系数取0.3,而惩罚系数取0.03,避免在大范围内有障碍物时,因惩罚太大而错过了最优路径;
(4)当经验池中的样本达到要放入神经网络中训练的采样数batch时,则从中随机采样batch条样本,根据评价损失函数更新估计评价网络,根据策略梯度更新估计策略网络,然后再利用软更新方式更新目标评价网络与目标策略网络,经过episode轮的训练后保存模型;
(5)导入训练好的模型,将预处理后的状态输入到策略网络,移动机器人直接执行策略网络输出的动作即可从起始点到目标点走出一条无障碍的最优路径。
2.根据权利要求1所述的一种基于TPR-DDPG的移动机器人路径规划方法,其特征在于:所述步骤(1)中状态预处理,将所有数据都进行归一化,
Figure FDA0003731292110000031
其中sp为归一化后的状态值,sb为归一化前的状态值,smax为状态的最大取值;归一化前的状态需要取绝对值的原因在于方位角的取值中存在负数。
3.根据权利要求1所述的一种基于TPR-DDPG的移动机器人路径规划方法,其特征在于:所述步骤(2)的策略网络,具体包括:输入层由机器人到目标点的距离、机器人方位角以及机器人前端八个超声传感器测量值组成;隐含层使用了五个全连接层,每层的神经元个数分别为600、400、200、20和1,前两层的激活函数为relu6,后两层采用relu作为激活函数,在前四个隐含层fc1、fc2、fc3和fc4激活函数后都加一个BatchNorm层;输出层使用Tanh作为激活函数,使输出层神经元的值范围在[-1,1],其中[-1,0]表示机器人向左转,[0,1]表示机器人向右转。
4.根据权利要求1所述的一种基于TPR-DDPG的移动机器人路径规划方法,其特征在于:所述步骤(2)的评价网络,具体包括:输入层由将机器人到目标点的距离、机器人方位角以及机器人前端八个超声传感器测量值构成的十个状态和策略网络所选择的动作组成;隐含层使用了四个全连接层,每层的神经元个数分别为600、400、200和20,前两层用relu6作为激活函数,后两层用relu作为激活函数;输出层只有一个神经元,其作用在于输出Q值。
5.根据权利要求书1所述的一种基于TPR-DDPG的移动机器人路径规划方法,其特征在于,所述步骤(3)中给动作加入噪声,其作用在于保持对环境的探索,at=(1-α)μ(stu)+αNt
在整个环境的探索过程中,由于不能确定环境中的障碍物分布情况,所以在整个的探索过程中环境探索率采用一个固定值,且该值不宜过大。
CN202110638373.1A 2021-06-08 2021-06-08 一种基于tpr-ddpg的移动机器人路径规划方法 Active CN113219997B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110638373.1A CN113219997B (zh) 2021-06-08 2021-06-08 一种基于tpr-ddpg的移动机器人路径规划方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110638373.1A CN113219997B (zh) 2021-06-08 2021-06-08 一种基于tpr-ddpg的移动机器人路径规划方法

Publications (2)

Publication Number Publication Date
CN113219997A CN113219997A (zh) 2021-08-06
CN113219997B true CN113219997B (zh) 2022-08-30

Family

ID=77083129

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110638373.1A Active CN113219997B (zh) 2021-06-08 2021-06-08 一种基于tpr-ddpg的移动机器人路径规划方法

Country Status (1)

Country Link
CN (1) CN113219997B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113759902B (zh) * 2021-08-17 2023-10-27 中南民族大学 多智能体局部交互路径规划方法、装置、设备及存储介质
CN113791612B (zh) * 2021-08-17 2023-10-24 中南民族大学 智能体实时路径规划方法、装置、设备及存储介质
CN114815813B (zh) * 2022-03-29 2024-05-07 山东交通学院 一种基于改进ddpg算法的高效路径规划方法、装置及介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112882469A (zh) * 2021-01-14 2021-06-01 浙江大学 一种融合全局训练的深度强化学习避障导航方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110632931B (zh) * 2019-10-09 2022-06-21 哈尔滨工程大学 动态环境下基于深度强化学习的移动机器人避碰规划方法
CN110794842A (zh) * 2019-11-15 2020-02-14 北京邮电大学 基于势场的强化学习路径规划算法
CN112668235B (zh) * 2020-12-07 2022-12-09 中原工学院 基于离线模型预训练学习的ddpg算法的机器人控制方法
CN112629542B (zh) * 2020-12-31 2022-08-30 山东师范大学 基于ddpg和lstm的无地图机器人路径导航方法及系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112882469A (zh) * 2021-01-14 2021-06-01 浙江大学 一种融合全局训练的深度强化学习避障导航方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Mobile robot dynamic path planning based on improved genetic algotithm;yong wang;《AIP conference proceedings》;20170803;全文 *
Rabot automatic navigation by electrical reward stimulation based on distance measurement in unknown environments;Liqiang Gao;《35th IEEE EMBS》;20130707;全文 *
一种基于改进蚁群算法的载人潜水器全局路径规划;史先鹏;《海洋技术学报》;20190430;全文 *
面向智能避障场景的深度强化学习研究;刘庆杰;《智能物联科技》;20180930;全文 *

Also Published As

Publication number Publication date
CN113219997A (zh) 2021-08-06

Similar Documents

Publication Publication Date Title
CN113219997B (zh) 一种基于tpr-ddpg的移动机器人路径规划方法
WO2020056875A1 (zh) 一种基于深度强化学习的停车策略
Yang et al. A new robot navigation algorithm based on a double-layer ant algorithm and trajectory optimization
Wen et al. Path planning for active SLAM based on deep reinforcement learning under unknown environments
CN105690392B (zh) 基于行动者‑评论家方法的机器人运动控制方法和装置
Lv et al. Blind travel prediction based on obstacle avoidance in indoor scene
Wang et al. GMR-RRT*: Sampling-based path planning using gaussian mixture regression
Fang et al. Target‐driven visual navigation in indoor scenes using reinforcement learning and imitation learning
Han et al. Sensor-based mobile robot navigation via deep reinforcement learning
CN111381600A (zh) 一种基于粒子群算法的uuv路径规划方法
CN115167478B (zh) 基于深度强化学习的机器人无地图路径规划方法及系统
CN115265547A (zh) 一种未知环境下基于强化学习的机器人主动导航方法
US11911902B2 (en) Method for obstacle avoidance in degraded environments of robots based on intrinsic plasticity of SNN
Zhao et al. Path planning for mobile robots based on TPR-DDPG
Li et al. A mixing algorithm of ACO and ABC for solving path planning of mobile robot
Wang et al. Curriculum reinforcement learning from avoiding collisions to navigating among movable obstacles in diverse environments
Zhang et al. Direction-decision learning based pedestrian flow behavior investigation
CN112183762A (zh) 一种基于混合行为空间的强化学习方法
CN116562332A (zh) 一种人机共融环境下的机器人社交性运动规划方法
CN116804879A (zh) 一种改进蜣螂算法融合dwa算法的机器人路径规划框架方法
Sun et al. Event-triggered reconfigurable reinforcement learning motion-planning approach for mobile robot in unknown dynamic environments
CN115009291B (zh) 基于网络演化重放缓冲区的自动驾驶辅助决策方法及系统
CN116360454A (zh) 行人环境下基于深度强化学习的机器人路径避碰规划方法
Nwaonumah et al. Deep reinforcement learning for visual navigation of wheeled mobile robots
CN116430891A (zh) 一种面向多智能体路径规划环境的深度强化学习方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant