CN114089751A - 一种基于改进ddpg算法的移动机器人路径规划方法 - Google Patents

一种基于改进ddpg算法的移动机器人路径规划方法 Download PDF

Info

Publication number
CN114089751A
CN114089751A CN202111331648.3A CN202111331648A CN114089751A CN 114089751 A CN114089751 A CN 114089751A CN 202111331648 A CN202111331648 A CN 202111331648A CN 114089751 A CN114089751 A CN 114089751A
Authority
CN
China
Prior art keywords
mobile robot
target point
training data
ddpg algorithm
algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111331648.3A
Other languages
English (en)
Inventor
解明扬
张瀚
陈欣
王从庆
张民
陈丰毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Aeronautics and Astronautics
Original Assignee
Nanjing University of Aeronautics and Astronautics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Aeronautics and Astronautics filed Critical Nanjing University of Aeronautics and Astronautics
Priority to CN202111331648.3A priority Critical patent/CN114089751A/zh
Publication of CN114089751A publication Critical patent/CN114089751A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0257Control of position or course in two dimensions specially adapted to land vehicles using a radar

Landscapes

  • Engineering & Computer Science (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明公开了一种基于改进DDPG算法的移动机器人路径规划方法,旨在充分发挥深度强化学习算法的未知动态环境适应性,从而快速规划出一条无碰撞的最短路径。本发明主要针对DDPG算法的收敛速度慢的问题进行改进,对DDPG算法中的经验回放池回放技术进行改进,从而提高其收敛速度。

Description

一种基于改进DDPG算法的移动机器人路径规划方法
技术领域
本发明属于移动机器人运动控制技术领域,尤其涉及一种基于改进DDPG算法的移动机器人路径规划方法。
背景技术
移动机器人完成其它任务的首要前提就是要移动到指定目标位置,因此路径规划技术是移动机器人技术中关键的技术之一。移动机器人在城市环境中要完成路径规划,不仅要考虑到静态的障碍物,同时也要考虑到动态的障碍物;由于城市环境十分复杂多变,要建立完整的地图信息十分困难,因此未知环境下的移动机器人路径规划十分重要,同时也给移动机器人进行路径规划增加了很大的难度。
目前传统路径规划算法可以分为全局路径规划和局部路径规划两大类。全局算法包括A*算法,Dijkstra算法,可视图算法,自由空间法等;全局路径规划算法通常需要提前获取全局地图信息,但是移动机器人工作的环境通常是动态的,并且难以获取准确的环境信息,因此只能将全局路径规划,划分为若干个子规划过程,即局部路径规划。局部路径规划大致可以分为4类:随机采样规划方法、人工势场法、图搜索法和群智能优化法。快速扩展随机树算法(Rapidly-exploring Random Trees,RRT)是经典的基于随机采样的算法之一,该算法能快速实现路径规划而得到广泛的应用,但是其无法保证路径最优。人工势场法虽然能应用于未知环境中,但是其容易陷入局部最优。基于群智能算法的代表算法包含,遗传算法、粒子算法、蚁群算法及一些融合算法等,群智能算法因其计算复杂度高,不适用于未知动态环境中机器人路径规划。
近年来随着强化学习和神经网络的发展,深度强化学习算法被认为是解决未知动态环境最具有潜力的方法。根据采用的(Deep reinforcement learning,深度强化学习)DRL算法框架的不同,可以分为基于价值的DRL路径规划和基于actor-critic的DRL路径规划方法。基于价值的DRL算法主要有(Deep Q-learning network,深度Q网络)DQN,DoubleDQN算法等,该种方法只能处理移动机器人离散的动作集合,对于连续的动作空间则有较大的局限性。基于actor-critic的方法主要包含DDPG(Deep Deterministic PolicyGradient深度确定性策略梯度)、TRPO、PPO等,较好的解决了移动机器人连续控制的问题,但是存在着收敛速度慢,不稳定等问题急需解决。
因此,能否很好的实现移动机器人在未知动态环境中的路径规划。决定着移动机器人的发展和应用,所以移动机器人路径规划技术是十分重要的。
发明内容
发明目的:针对DDPG算法在未知动态环境进行路径规划时收敛速度慢的问题,本发明提出了一种基于改进DDPG算法的移动机器人路径规划方法。
技术方案:本发明提出了一种基于DDPG算法的移动机器人路径规划方法,实现移动机器人找到一条从起点到达终点的无碰撞路径,包括如下步骤:
步骤1,建立基于深度强化学习的移动机器人路径规划模型,将移动机器人路径规划问题,描述为马尔科夫决策过程。
步骤2,设计DDPG算法的状态空间、动作空间、actor网络、critic网络及奖励函数。
步骤3:对DDPG算法的经验回放池进行改进,将经验回放池划为多个不同优先级的经验回放池,移动机器人在训练过程中,根据移动机器人是否到达目标点,以及是否发生碰撞,将获取的训练数据放入不同的经验回放池中。
步骤4:设计仿真环境,移动机器人与环境进行交互,获取训练数据,采样训练数据对移动机器人进行仿真训练,完成无碰撞的路径规划。
进一步的,步骤2中DDPG算法的状态空间包括:激光雷达数据、移动机器人当前的控制指令、移动机器人上一时刻的控制指令、目标点的方位和距离;所述移动机器人当前的控制指令是指移动机器的角速度和线速度;DDPG算法的动作空间包括:移动机器人体坐标系下绕Z轴旋转的角速度和沿X轴的线速度。
进一步的,步骤2中DDPG算法的奖励函数根据移动机器人是否到达目标点、移动机器人与目标点的距离变化以及是否与障碍物发生碰撞设计如下:
根据移动机器人是否到达目标点设计的奖励函数:
Figure BDA0003349102110000021
式中,χt为t时刻移动机器人与目标点的距离,d1为设定的阈值,当移动机器人与目标点小于d1时表示到达目标点。
根据移动机器人与障碍物是否发生碰撞设计的奖励函数:
Figure BDA0003349102110000022
式中,di为激光雷达检测到最近的障碍物的距离,d2为设定的常数阈值,当移动机器人与障碍物的距离小于d2时,表示与障碍物发生碰撞。
为引导移动机器人向着目标点前进,根据移动机器人与目标点之间的距离变化,设计的奖励函数:
Figure BDA0003349102110000031
其中,χt-1为t-1时刻移动机器人与目标点的距离,χt为t时刻移动机器人与目标点的距离;
最后总的奖励函数为:
R=rarrival+rcollision+rdis
进一步的,步骤4中的设计仿真环境,移动机器人与环境进行交互,获取训练数据,采样训练数据对移动机器人进行仿真训练,完成无碰撞的路径规划,具体包括如下步骤:
步骤4.1,设计仿真环境,移动机器人与环境进行交互,获取训练数据;
步骤4.2,采样获取训练数据,训练actor网络和critic网络;
步骤4.3,将移动机器人当前状态信息输入到经过训练后的策略网络中,其输出移动机器人下一步的动作指令。
进一步的,步骤3中将经验回放池划为多个不同优先级的经验回放池,具体为:划为三个不同优先级的经验回放池,当移动机器人到达目标点时,将获取的训练数据放入优先级最高的经验回放池一中;当移动机器人处于正常的探索阶段时,将获取的训练数据放入优先级次之的经验回放池二中;当移动机器机器人与障碍物发生碰撞时,将获取的训练数据放入优先级最低的经验回放池三中;
所述训练数据包括状态信息、当前时刻及上一时刻的动作指令及奖励值数据,所述状态信息包括激光雷达数据、以及目标点的方位和距离信息。
进一步的,步骤4.2中采样获取训练数据具体是按不同的比例从经验回放池中采样。
进一步的,步骤4.2中采样获取训练数据具体是先按3:4:3的比例进行采样,训练到多个回合后,再按照4:3:3的比例从三个不同优先级的经验回放池中采样。
有益效果:本发明的一种面向城市环境下改进DDPG算法的移动机器人路径规划方法,将原有随机采样的经验回放池划分为多个不同优先级的经验回放池,提高了DDPG算法的收敛速度。在没有对移动机器人进行运动学建模,直接通过改进的DDPG算法实现了端到端的导航控制。我在四种仿真实验环境中进行了验证,仿真实验表明,本发明能够有效提升DDPG算法的收敛速度。
附图说明
图1为本发明改进后DDPG算法框架示意图。
图2是本发明设计的环境示意图。
图2(a)是环境一示意图;图2(b)是环境二示意图;图2(c)是环境三示意图;图2(d)是环境四示意图。
图3是改进后的DDPG算法与传统的DDPG算法奖励值对比图
图3(a)是环境一中的奖励值对比图;图3(b)是环境二中奖励值对比图;图3(c)是环境三奖励值对比图;图3(d)是环境四中奖励值对比图。
具体实施方式
下面结合附图对本发明做更进一步的解释。
一种基于改进DDPG算法的面向城市环境下移动机器人路径规划方法,主要针对传统DDPG算法收敛速度慢的问题进行了改进,对传统DDPG算法的经验回放进行了改进,将原有随机采样变为按比例从不同等级经验回放池中进行采样。具体步骤如下:
本发明的一种基于改进DDPG算法的移动机器人路径规划方法,包括如下步骤:
步骤1,建立基于深度强化学习的移动机器人路径规划模型:将移动机器人路径规划问题,描述为马尔科夫决策过程。
步骤2,设计DDPG算法的状态空间、动作空间、actor网络、critic网络及奖励函数。
所述DDPG算法的状态空间包括:激光雷达数据、移动机器人当前的控制指令、移动机器人上一时刻的控制指令、目标点的方位和距离;所述移动机器人当前的控制指令是指移动机器的角速度和线速度。
动作空间包括:移动机器人体坐标系下绕Z轴旋转的角速度和沿X轴的线速度。其中Z轴垂直于移动机器人底盘所在平面,向上为正;X轴位于移动机器人底盘所在平面,垂直于Z轴,指向移动机器人前轮连线的中心。
Actor网络采用4层全连接神经网络,每一层均采用ReLU非线性激活函数。
Critic网络同样采用4层全连接神经网络结构。
所述奖励函数根据移动机器人否到达目标点、与目标点的距离变化以及是否与障碍物发生碰撞设计如下:
根据移动机器人是否到达目标点设计的奖励函数:
Figure BDA0003349102110000051
式中,χt为t时刻移动机器人与目标点的距离,d1为设定的阈值,当移动机器人与目标点小于d1时表示到达目标点。
根据移动机器人与障碍物是否发生碰撞设计的奖励函数:
Figure BDA0003349102110000052
式中,di为激光雷达检测到最近的障碍物的距离,d2为设定的常数阈值,当移动机器人与障碍物的距离小于d2时,表示与障碍物发生碰撞。
为引导移动机器人向着目标点前进,根据移动机器人与目标点之间的距离变化,设计的奖励函数:
Figure BDA0003349102110000053
最后总的奖励函数为:
R=rarrival+rcollision+rdis
步骤3:对DDPG算法的经验回放池进行改进,以达到提高收敛速度的目的。
所述对DDPG算法的经验回放池改进,是指将原有的随机采样的经验回放池划分为多个不同优先级的经验回放池,移动机器人在训练过程中,根据移动机器人是否到达目标点,以及是否发生碰撞,将每一条训练数据放入不同的经验回放池中,改进后的DDPG算法结构如图1所示,然后再按照不同的比例从经验回放池中抽取数据对策略网络和价值网络进行训练。
步骤4:设计仿真环境,移动机器人与环境进行交互,获取训练数据,采样训练数据对移动机器人进行仿真训练,完成无碰撞的路径规划。具体步骤如下:
步骤4.1,设计仿真环境,移动机器人与环境进行交互,获取训练数据,根据奖励值的大小存入不同优先级的经验回放池中;
本发明设计了四种仿真环境如图2所示,其中图2(a)是环境一示意图,为无障碍物的静态环境;图(a)中黑色正方形表示移动机器人,黑色方框表示目标点;图2(b)中四个圆形表示静态障碍物,图2(c)黑色方框表示目标点,黑色实心正方形和黑心实心圆体表示三个动态障碍物;图中2(d)方框表示三个目标点,两个黑色实心正方形和一个实心圆分别表示动态障碍物,空心五边形表示为静态障碍物,且环境四的大小为环境三的两倍。
移动机器人分别在四种环境中获取训练数据。首先进行初始化仿真环境、移动机器人的状态信息、Actor网络和Critic网络;然后移动机器人与仿真环境进行交互,从环境中获取状态信息,所述状态信息包含激光雷达数据、以及目标点的方位和距离信息,并计算奖励值;将每一步获取的状态信息、奖励值、当前时刻及上一时刻的动作指令作为训练数据存入经验回放池中。
具体的,当移动机器人到达目标点时,将获取的训练数据放入优先级最高的经验回放池一中;当移动机器人处于正常的探索阶段时,既没有发生碰撞也没有到达目标点,将获取的训练数据放入优先级次之的经验回放池二中;当移动机器机器人与障碍物发生碰撞时,将获取的训练数据放入优先级最低的经验回放池三中。
在进行DDPG算法训练前,移动机器人需要获取足够多的经验数据,因此本发明在训练的初始阶段将每一条表现好的数据重复添加三次,达到快速增加训练数据的目的。
步骤4.2,按不同的比例从经验回放池中采样获取训练数据,训练actor网络和critic网络。
当经验回放池中的数据达到设定的数量时,开始对策略网络和价值网络进行训练。在训练的前期由于到达目标点的数据量较少,本实施例中经验回放池划分为三个,分别从三个不同优先级的经验回放池中按照3:4:3的比例进行采样;训练到500回合后,按照4:3:3的比例从三个不同优先级的经验回放池中采样;然后将采样的数据合并在一起,送入到策略网络和价值网络中进行训练。
步骤4.3,移动机器人根据策略网络输出的动作指令执行动作,完成路径规划。
将移动机器人当前状态信息输入到经过训练后的策略网络中,其输出移动机器人下一步的动作指令,完成路径规划任务;所述动作指令包括移动机器人体坐标系下绕Z轴旋转的角速度和沿X轴的线速度。
经过一千回合训练后,传统DDPG算法与改进后的DDPG算法奖励值对比如图3所示。从图3中可以看出,改进后的DDPG算法比传统的DDPG算法奖励值更早的趋于稳定,收敛速度更快,其中图3(a)是环境一中的奖励值对比图;图3(b)是环境二中奖励值对比图;图3(c)是环境三奖励值对比图;图3(d)是环境四中奖励值对比图。

Claims (7)

1.一种基于改进DDPG算法的移动机器人路径规划方法,其特征在于,包括如下步骤:
步骤1,建立基于深度强化学习的移动机器人路径规划模型,将移动机器人路径规划问题,描述为马尔科夫决策过程;
步骤2,设计DDPG算法的状态空间、动作空间、actor网络、critic网络及奖励函数;
步骤3:对DDPG算法的经验回放池进行改进,将经验回放池划为多个不同优先级的经验回放池,移动机器人在训练过程中,根据移动机器人是否到达目标点、以及是否发生碰撞,将获取的训练数据放入不同的经验回放池中;
步骤4:设计仿真环境,移动机器人与环境进行交互,获取训练数据,采样训练数据对移动机器人进行仿真训练,完成无碰撞的路径规划。
2.根据权利要求1所述一种基于改进DDPG算法的移动机器人路径规划方法,其特征在于,步骤2中DDPG算法的状态空间包括:激光雷达数据、移动机器人当前的控制指令、移动机器人上一时刻的控制指令、目标点的方位和距离;所述移动机器人当前的控制指令是指移动机器的角速度和线速度;
DDPG算法的动作空间包括:移动机器人体坐标系下绕Z轴旋转的角速度和沿X轴的线速度。
3.根据权利要求1所述一种基于改进DDPG算法的移动机器人路径规划方法,其特征在于,步骤2中DDPG算法的奖励函数根据移动机器人是否到达目标点、移动机器人与目标点的距离变化以及是否与障碍物发生碰撞设计如下:
根据移动机器人是否到达目标点设计的奖励函数:
Figure FDA0003349102100000011
式中,χt为t时刻移动机器人与目标点的距离,d1为设定的阈值,当移动机器人与目标点小于d1时表示到达目标点;
根据移动机器人与障碍物是否发生碰撞设计的奖励函数:
Figure FDA0003349102100000012
式中,di为激光雷达检测到最近的障碍物的距离,d2为设定的常数阈值,当移动机器人与障碍物的距离小于d2时,表示与障碍物发生碰撞;
为引导移动机器人向着目标点前进,根据移动机器人与目标点之间的距离变化,设计的奖励函数:
Figure FDA0003349102100000021
其中,χt-1为t-1时刻移动机器人与目标点的距离,χt为t时刻移动机器人与目标点的距离;
最后总的奖励函数为:
R=rarrival+rcollision+rdis
4.根据权利要求1所述一种基于改进DDPG算法的移动机器人路径规划方法,其特征在于,步骤4中的设计仿真环境,移动机器人与环境进行交互,获取训练数据,采样训练数据对移动机器人进行仿真训练,完成无碰撞的路径规划,具体包括如下步骤:
步骤4.1,设计仿真环境,移动机器人与环境进行交互,获取训练数据存储到经验池中;
步骤4.2,从经验池中采样获取训练数据,训练actor网络和critic网络;
步骤4.3,将移动机器人当前状态信息输入到经过训练后的策略网络中,其输出移动机器人下一步的动作指令。
5.根据权利要求1或4所述一种基于改进DDPG算法的移动机器人路径规划方法,其特征在于,步骤3中将经验回放池划为多个不同优先级的经验回放池,具体为:划为三个不同优先级的经验回放池,当移动机器人到达目标点时,将获取的训练数据放入优先级最高的经验回放池一中;当移动机器人处于正常的探索阶段时,将获取的训练数据放入优先级次之的经验回放池二中;当移动机器机器人与障碍物发生碰撞时,将获取的训练数据放入优先级最低的经验回放池三中;
所述训练数据包括状态信息、当前时刻及上一时刻的动作指令及奖励值数据,所述状态信息包括激光雷达数据、以及目标点的方位和距离信息。
6.根据权利要求4所述一种基于改进DDPG算法的移动机器人路径规划方法,其特征在于,步骤4.2中采样获取训练数据具体是按不同的比例从经验回放池中采样。
7.根据权利要求5所述一种基于改进DDPG算法的移动机器人路径规划方法,其特征在于,步骤4.2中采样获取训练数据具体是先按3:4:3的比例进行采样,训练到多个回合后,再按照4:3:3的比例从三个不同优先级的经验回放池中采样。
CN202111331648.3A 2021-11-11 2021-11-11 一种基于改进ddpg算法的移动机器人路径规划方法 Pending CN114089751A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111331648.3A CN114089751A (zh) 2021-11-11 2021-11-11 一种基于改进ddpg算法的移动机器人路径规划方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111331648.3A CN114089751A (zh) 2021-11-11 2021-11-11 一种基于改进ddpg算法的移动机器人路径规划方法

Publications (1)

Publication Number Publication Date
CN114089751A true CN114089751A (zh) 2022-02-25

Family

ID=80299788

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111331648.3A Pending CN114089751A (zh) 2021-11-11 2021-11-11 一种基于改进ddpg算法的移动机器人路径规划方法

Country Status (1)

Country Link
CN (1) CN114089751A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110794842A (zh) * 2019-11-15 2020-02-14 北京邮电大学 基于势场的强化学习路径规划算法
CN112476424A (zh) * 2020-11-13 2021-03-12 腾讯科技(深圳)有限公司 机器人控制方法、装置、设备及计算机存储介质
CN112596515A (zh) * 2020-11-25 2021-04-02 北京物资学院 一种多物流机器人移动控制方法及装置
CN113156980A (zh) * 2021-05-28 2021-07-23 山东大学 一种基于深度强化学习的塔式起重机路径规划方法及系统
CN113503885A (zh) * 2021-04-30 2021-10-15 山东师范大学 一种基于采样优化ddpg算法的机器人路径导航方法及系统
US20210325894A1 (en) * 2018-09-14 2021-10-21 Google Llc Deep reinforcement learning-based techniques for end to end robot navigation

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210325894A1 (en) * 2018-09-14 2021-10-21 Google Llc Deep reinforcement learning-based techniques for end to end robot navigation
CN110794842A (zh) * 2019-11-15 2020-02-14 北京邮电大学 基于势场的强化学习路径规划算法
CN112476424A (zh) * 2020-11-13 2021-03-12 腾讯科技(深圳)有限公司 机器人控制方法、装置、设备及计算机存储介质
CN112596515A (zh) * 2020-11-25 2021-04-02 北京物资学院 一种多物流机器人移动控制方法及装置
CN113503885A (zh) * 2021-04-30 2021-10-15 山东师范大学 一种基于采样优化ddpg算法的机器人路径导航方法及系统
CN113156980A (zh) * 2021-05-28 2021-07-23 山东大学 一种基于深度强化学习的塔式起重机路径规划方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
周能: "复杂场景下基于深度增强学习的移动机器人控制方法研究", CNKI硕士电子期刊, no. 8, pages 1 - 57 *

Similar Documents

Publication Publication Date Title
CN113110592B (zh) 一种无人机避障与路径规划方法
CN110632931B (zh) 动态环境下基于深度强化学习的移动机器人避碰规划方法
CN112947562B (zh) 一种基于人工势场法和maddpg的多无人机运动规划方法
CN112433525A (zh) 基于模仿学习及深度强化学习的移动机器人导航方法
CN113848974B (zh) 一种基于深度强化学习的飞行器轨迹规划方法及系统
CN114089776B (zh) 一种基于深度强化学习的无人机避障方法
CN108320051B (zh) 一种基于gru网络模型的移动机器人动态避碰规划方法
CN113391633A (zh) 一种面向城市环境的移动机器人融合路径规划方法
CN116679719A (zh) 基于动态窗口法与近端策略的无人车自适应路径规划方法
CN116804879A (zh) 一种改进蜣螂算法融合dwa算法的机器人路径规划框架方法
CN112857370A (zh) 一种基于时序信息建模的机器人无地图导航方法
CN114815891A (zh) 一种基于per-idqn的多无人机围捕战术方法
CN114493013A (zh) 基于强化学习的智能体路径规划方法、电子设备及介质
CN116382267B (zh) 一种基于多模态脉冲神经网络的机器人动态避障方法
CN113110101A (zh) 一种生产线移动机器人聚集式回收入库仿真方法及系统
CN116360454A (zh) 行人环境下基于深度强化学习的机器人路径避碰规划方法
CN116430891A (zh) 一种面向多智能体路径规划环境的深度强化学习方法
CN114089751A (zh) 一种基于改进ddpg算法的移动机器人路径规划方法
CN113959446B (zh) 一种基于神经网络的机器人自主物流运输导航方法
Li et al. Vision-based obstacle avoidance algorithm for mobile robot
CN115009291A (zh) 基于网络演化重放缓冲区的自动驾驶辅助决策方法及系统
CN115373415A (zh) 一种基于深度强化学习的无人机智能导航方法
Tang et al. Reinforcement learning for robots path planning with rule-based shallow-trial
CN114396949A (zh) 一种基于ddpg的移动机器人无先验地图导航决策方法
Tran et al. Mobile robot planner with low-cost cameras using deep reinforcement learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination