CN110515303B - 一种基于ddqn的自适应动态路径规划方法 - Google Patents

一种基于ddqn的自适应动态路径规划方法 Download PDF

Info

Publication number
CN110515303B
CN110515303B CN201910879532.XA CN201910879532A CN110515303B CN 110515303 B CN110515303 B CN 110515303B CN 201910879532 A CN201910879532 A CN 201910879532A CN 110515303 B CN110515303 B CN 110515303B
Authority
CN
China
Prior art keywords
agent
map
training
maps
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910879532.XA
Other languages
English (en)
Other versions
CN110515303A (zh
Inventor
张建明
陈新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yuyao Zhejiang University Robot Research Center
Zhejiang University ZJU
Original Assignee
Yuyao Zhejiang University Robot Research Center
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yuyao Zhejiang University Robot Research Center, Zhejiang University ZJU filed Critical Yuyao Zhejiang University Robot Research Center
Priority to CN201910879532.XA priority Critical patent/CN110515303B/zh
Publication of CN110515303A publication Critical patent/CN110515303A/zh
Application granted granted Critical
Publication of CN110515303B publication Critical patent/CN110515303B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • G05B13/027Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion using neural networks only
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0268Control of position or course in two dimensions specially adapted to land vehicles using internal positioning means
    • G05D1/0274Control of position or course in two dimensions specially adapted to land vehicles using internal positioning means using mapping information stored in a memory device

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Automation & Control Theory (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Remote Sensing (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开了一种基于DDQN的自适应动态路径规划方法,解决了不同环境下的路径规划问题。本发明主要分为两个部分,第一部分先利用多个障碍物分布不同的地图训练神经网络,直到定义的损失函数不再减小或者减小到一定范围。第二个部分利用训练完成的神经网络在没有经过训练的全新地图上找到最优策略,实现端到端的路径规划。本发明对于不同的地图具有一定的适应性,经过一次训练后可以快速实现从不同的地图任意位置到指定的终点之间决策出一条最优路径。

Description

一种基于DDQN的自适应动态路径规划方法
技术领域
本发明属于深度强化学习和路径规划领域,具体涉及到一种基于DDQN的自适应动态路径规划方法。
背景技术
未知环境的动态路径规划一直是移动机器人技术领域的一个重要领域,路径规划其定义就是要求在一定限制条件下比如最短路径、最少的机械运动,移动机器人能够避障的同时有效的达到目标点。随着各行各业的智能化、自动化,路径规划等机器人技术广泛应用于工业、农业、军事等各个领域。
根据所能获得的环境信息,路径规划技术分为全局路径规划和局部路径规划。全局路径规划技术对先验知识的要求较高,具有代表性的算法有Voronoi图法,A*算法,Dijkstra算法,粒子群算法,蚁群算法等,但是此类算法在实际的应用中经常出现高时间复杂性和陷入局部最优值的缺陷。局部路径规划算法主要根据机器人自身的传感器感知到的局部环境的信息做出即使的决策,相比较全局路径规划具有低复杂性和可迁移性等优点。
近年来随着神经网络技术的发展,产生了各种深度强化学习算法,强化学习为具有马尔可夫性的过程问题提供了良好的解决方案,局部路径规划可以看作是移动机器人根据当前的状态获得的信息做出即时决策,所以能够将其转化为一个马尔可夫决策过程。强化学习由四个元素组成,代理,环境,行为,即时奖励,其主要是通过代理采取行为不断与环境交互产生不同的马尔可夫决策过程同时获得即时奖励,在这个过程中评估当前策略的价值和改善策略同步进行,策略的价值通过每个状态或者状态行为对的值来表示,改善策略通过不完全贪婪策略来实现,最终两个过程收敛到最优策略上。
DQN由Deep Mind首次提出,该算法在Atari游戏上取得显著的成果,经过训练后代理能够以超越人类职业玩家的水平完成该游戏。DQN算法具有收敛性差,训练不稳定和训练困难等缺陷,之后又涌现出一批针对DQN算法的改进版本,诸如经验回放、目标网络、双重Q网络等方法。DQN过于乐观的估计了TD目标值,带来最大化的偏差,而DDQN可以消除最大化偏差,经验回放打乱了代理和环境交互的状态转换顺序,降低了样本之间的关联性,使喂入算法的样本数据更加平滑,训练过程更加稳定。
发明内容
为了解决现有技术中存在的上述技术问题,本发明提出一种基于DDQN的新型局部路径规划算法,具有决策及时性、可迁移性、适应多种动态环境、不需要收集过多环境信息、神经网络简单、训练代价低等特点,只需经过一次训练就可以在不同的地图的任意位置规划一条通往终点的路径。
本发明采用的技术方案是:一种基于DDQN的自适应动态路径规划方法,该方法包含以下步骤:
步骤1:根据移动机器人和实际环境的大小将环境转化成一定精度的栅格地图。
步骤2:在栅格地图中放置固定数量的固定位置的障碍物,同时在随机位置生成障碍物。同理生成足够数量的训练地图和测试地图,不同地图的固定障碍物位置相同,随机障碍物的位置不同。
步骤3:设计多层神经网络,代理的行为空间,行为选择策略以及奖励函数,初始化经验池,复制主神经网络的结构和参数形成一个目标网络。
经验池的设计提高了样本的利用率,相当于将不同的马尔可夫轨迹碎片化处理,打断了不同轨迹之间的隔离,减小了当前策略决定的样本分布对训练的局限性影响。
步骤4:在所有的训练地图中随机初始化代理的位置,根据当前位置s提取状态特征,将状态特征输入神经网络,根据神经网络的输出值和行为选择策略选择当前的行为a,代理执行该行为获得即时奖励r且到达下一个位置s_,将此过程记为一个步骤。
将元组(s,a,r,s_)存入经验池中。根据经验池中的元组对神经网络参数进行更新。每四个步骤更新一次目标网络的参数。
目标网络用之前的主网络参数更新,这样可以使过程更加稳定。
不断重复步骤四,直到代理到达终点或者步骤数达到上限时重新初始化代理的位置,这个过程记为一个回合。当回合数到达上限时更换训练地图,重复步骤4。
步骤5:经过一段时间训练后神经网络的损失函数不断减小并趋于稳定时训练完毕。在随机生成的测试地图中任意起始位置的代理根据神经网络和贪婪策略选择最优行为均可到达固定的终点。
本发明提出的方法和现有路径规划技术相比的优点:其具有简单的神经网络,不需要将原始图像当作神经网络的输入,节省的大量的计算资源和时间成本,本发明中采取的代理位置初始化的方法提高了重要样本的利用率,采取的行为选择策略有效的平衡了探索和利用的作用,并且本发明提出的算法可以适应多种环境,经过一定时间的训练后可以在各种不同障碍物分布的环境的任意位置找到能够达到固定终点的最优路径。
附图说明
图1是本发明的算法流程图;
图2是策略收敛示意图;
图3是损失函数示意图;
图4是训练过程的奖励趋势图;
图5a-5d是测试地图路径图。
具体实施方式
下面详述本发明的具体实施例,用于解释本发明的具体优点和技术方案。
如图1所示,本案例包括以下步骤:
步骤一:生成50张7*7的栅格地图,其中40张是训练地图,10张是测试地图。
每张地图设置4个固定障碍物和4个移动障碍物,不同地图的固定障碍物位置相同,移动障碍物随机分布且位置不同,所有地图的终点都在(6,6)坐标位置。
步骤二:搭建由三层全连接层构成的神经网络作为主网络。
主网络激活函数为relu函数,输入层为10个神经元,第二层为64个神经元,第三层为32个神经元,输出层为4个神经元,输出代表上下左右四个行为的Q值。
完全复制主网络的结构和参数生成一个目标网络。
步骤三:设计一个容量为5000的经验池用来存储代理和环境交互的经历。
设计奖励函数,当代理遇到障碍物时r=-10,到达终点时r=10,出界r=-10,正常移动时r=-1,训练过程中的奖励变化趋势如图4所示。
设计行为空间A,A中共有四个行为上下左右,分别用0,1,2,3表示。
步骤四:在训练地图中随机初始化代理的位置s,根据当前位置选取行为a,执行行为获得即时奖励r并且到达下一个位置s_。
步骤四全过程记为一个步骤,将每个步骤以元组(s,a,r,s_)的形式存入经验池中。
每执行一个步骤之后从经验池中随机选取64个样本喂入神经网络进行参数更新。
100个步骤记为一个回合,每个地图训练30个回合。当代理达到终点或每个回合开始时重新初始化代理位置。
步骤四(1):代理位置初始化位置范围随着回合数增大而增大。
每个地图训练20个回合,前2个回合将代理位置初始化到距离终点两个栅格的范围内。
2-6回合期间将代理位置初始化到距离终点4个栅格范围内。
6-10回合期间将代理位置初始化到距离终点6个栅格的范围内。
10-20回合期间将代理位置初始化在地图全局,这样的初始化方式有利于采样到重要价值的样本。
步骤四(2):根据代理当前位置提取状态特征具体方式:用一个10维数组表示代理状态特征,前八位数字分别表示代理周围8个栅格,若该栅格为障碍物或者界外,则该数字为1,否则为-1,后两位数字为当前位置和终点的相对坐标。
步骤四(3):行为选取策略具体方法如公式(6)所示:
Figure GDA0003637539480000041
greedy=0.6+episode×0.35÷total_episode
其中ε为随机生成的0-1之间的自然数。
这样的行为选择策略在训练前期专注于探索,在训练后期专注于利用,可以保证最优策略和最优Q值同时收敛值同一个方向如图2所示。
步骤四(4):神经网络参数具体更新方式:随机从经验池中选取64个样本,计算损失函数的方法如公式(7)所示:
Figure GDA0003637539480000051
Ui=ri+γQT(si_,argmaxa_Q(si_,a_;w);wT) (8)
在确定策略下,每个状态行为对的Q值是确定的,根据公式(9)所示贝尔曼期望方程可以计算每个状态行为对的Q值。期望的计算通过从经验池中选取样本减少目标值和Q值的差来实现。
qpai(s,a)=E[Rt+1+γqpai(St+1,At+1)|St=s,At=a] (9)
其中γ是奖励折扣率,其中Q是主网络的输出结果,QT是目标网络的输出结果。公式(7)改善了DQN的损失函数计算方法的高偏差和过于乐观的估计了S_的Q值的缺点。
对损失函数进行Adam梯度下降,更新参数w的方法如公式(10)所示:
Figure GDA0003637539480000052
步骤四(5):每执行10个步骤将目标网络的参数替换为主网络参数。
步骤五:训练完所有训练地图,损失函数不断减小直到稳定在一个极小的范围内可以看作算法收敛,将主网络的所有参数和结构保存到本地,训练过程的损失函数图如图3所示。
步骤六:从每由经过训练的测试地图中任意选取若干地图,在地图全局任意位置初始化代理位置,通过完全贪婪策略选取行为,代理到达终点前走过的路径即为最优路径,图5a-5d所示是同一个模型在不同的环境中的路径规划图,四张图中终点栅格坐标都为(6,6),起点位于不同坐标的栅格,灰色区域为障碍物分布位置,白色区域为算法规划出的栅格路径。

Claims (1)

1.一种基于DDQN的自适应动态路径规划方法,其特征在于,包括以下步骤:
步骤(1)根据应用场景的实际大小产生一批相同大小,具有相同终点的网格地图,再根据实际应用场景的需要在地图中布置多个障碍物,且所有地图的障碍物分布不同,这些地图组成一个训练地图库,同样的方式生成一个测试地图库;
步骤(2)根据地图大小和实际环境复杂程度生成一个神经网络,生成完全由3-5层全连接层构成的神经网络作为主网络,其输入变量个数与地图中每个网格的状态维度相同,输出层为四个神经元,分别代表上下左右四个行为,中间层的激活函数采用RELU函数,并随机初始化主网络的参数;完全复制主网络的结构和参数生成目标网络;
步骤(3)任意从训练地图库中取出一个地图,随机在地图中终点之外没有障碍物的网格生成一个代理,在代理与地图交互过程中,记录下所有交互的步骤,并利用这些交互的经历来训练主网络,直到遍历所有训练地图;
所述步骤(3)的具体过程为:
将训练地图库中的所有地图用来训练主网络,首先在每个地图上产生一个代理,每个地图训练多个回合,每个回合开始前初始化代理的位置,将其随机定义在障碍物之外的网格,每个回合具有步数上限,每一步由强化学习中的状态转移定义,其构成有s,a,r,s_,其中s是当前代理所在网格的特征表示,a是根据s和公式(1)所示策略选择的行为,r是得到的即时奖励,当代理遇到障碍物时即时奖励为-10,遇到终点时即时奖励为10,同时返回重新初始化代理的位置,其他时候即使奖励为-0.1,s_是选择a后到达的下一个网格的状态特征,每一步都会被存储到经验存储器中;
Figure FDA0003732066700000011
greedy=0.5+episode×0.3÷total_episode (2)
当经验存储器中存储的步骤到达目标数量之后,代理每走一步主网络训练一次,每训练多次之后将主网络的参数复制给目标网络;具体训练过程为:从经验存储器中随机选取若干个样本,每个样本都是一个完整的状态转移,将样本的s输入到主网络,根据a的值选出对应的状态行为对的Q值Q(s,a),将s_输入主网络,选出每个样本输出值最大行为a_,再将s_输入目标网络,在目标网络的输出中根据a_选出对应的Q值QT(s_,a_),再根据公式(3)所示的loss损失函数对其进行梯度下降从而更新了主网络的参数
Figure FDA0003732066700000021
Ui=ri+γQT(si_,argmaxa_Q(si_,a_;w);wT) (4)
代理从初始位置到达终点的整个过程在强化学习中称作完整的马尔可夫过程{s1,s2.....sT};每个完整的马尔可夫过程都有自己的累计奖励,由公式(5)所示:
Figure FDA0003732066700000022
训练的过程就是将每个状态行为对应的Q值不断提升的过程,再经过公式(1)定义的ε-greedy策略大概率选择Q值最大的行为,不断提高整个马尔可夫过程的累计回报;
执行完全部的回合,回到步骤(3)一直重复此过程直到遍历所有的地图使得公式(3)中的loss减小到目标范围为止;
步骤(4)训练完成之后的模型可用于测试任意没有经过训练的障碍物分布不同的测试地图,在测试地图上随机位置生成一个代理,将代理所处的当前网格的状态特征输入目标网络,根据ε-greedy策略选出最优行为,执行该行为之后代理移动到下一个状态,不断重复此步骤直到找到终点状态。
CN201910879532.XA 2019-09-17 2019-09-17 一种基于ddqn的自适应动态路径规划方法 Active CN110515303B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910879532.XA CN110515303B (zh) 2019-09-17 2019-09-17 一种基于ddqn的自适应动态路径规划方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910879532.XA CN110515303B (zh) 2019-09-17 2019-09-17 一种基于ddqn的自适应动态路径规划方法

Publications (2)

Publication Number Publication Date
CN110515303A CN110515303A (zh) 2019-11-29
CN110515303B true CN110515303B (zh) 2022-09-09

Family

ID=68632573

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910879532.XA Active CN110515303B (zh) 2019-09-17 2019-09-17 一种基于ddqn的自适应动态路径规划方法

Country Status (1)

Country Link
CN (1) CN110515303B (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111260026B (zh) * 2020-01-10 2022-07-05 电子科技大学 一种基于元强化学习的导航迁移方法
CN111275572B (zh) * 2020-01-15 2023-07-11 杭州电子科技大学 一种基于粒子群和深度强化学习的机组调度系统及方法
CN111352419B (zh) * 2020-02-25 2021-06-04 山东大学 基于时序差分更新经验回放缓存的路径规划方法及系统
CN111651819A (zh) * 2020-05-27 2020-09-11 广东博智林机器人有限公司 一种家装设计方法、装置、电子设备及存储介质
CN112198870B (zh) * 2020-06-01 2022-09-02 西北工业大学 基于ddqn的无人机自主引导机动决策方法
CN111753371B (zh) * 2020-06-04 2024-03-15 纵目科技(上海)股份有限公司 一种车身控制网络模型的训练方法、系统、终端和存储介质
CN111811532B (zh) * 2020-07-02 2022-03-25 浙江大学 基于脉冲神经网络的路径规划方法和装置
CN111917642B (zh) * 2020-07-14 2021-04-27 电子科技大学 分布式深度强化学习的sdn网络智慧路由数据传输方法
CN112179367B (zh) * 2020-09-25 2023-07-04 广东海洋大学 一种基于深度强化学习的智能体自主导航方法
CN112286203B (zh) * 2020-11-11 2021-10-15 大连理工大学 一种基于蚁群算法的多智能体强化学习路径规划方法
CN112670982B (zh) * 2020-12-14 2022-11-08 广西电网有限责任公司电力科学研究院 一种基于奖励机制的微电网有功调度控制方法及系统
CN112836852B (zh) * 2020-12-31 2024-05-31 中国电子科技集团公司信息科学研究院 一种基于强化学习的无人平台路径规划方法及装置
CN112882469B (zh) * 2021-01-14 2022-04-08 浙江大学 一种融合全局训练的深度强化学习避障导航方法
CN113359820A (zh) * 2021-05-28 2021-09-07 中国地质大学(武汉) 一种基于dqn的无人机路径规划方法
CN113312874B (zh) * 2021-06-04 2022-12-06 福州大学 基于改进深度强化学习的总体布线方法
CN113467481B (zh) * 2021-08-11 2022-10-25 哈尔滨工程大学 一种基于改进Sarsa算法的路径规划方法
CN114942643B (zh) * 2022-06-17 2024-05-14 华中科技大学 一种usv无人艇路径规划模型的构建方法及应用
CN116132353A (zh) * 2022-12-28 2023-05-16 重庆邮电大学 基于ddqn的tsn路由选择方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106970615A (zh) * 2017-03-21 2017-07-21 西北工业大学 一种深度强化学习的实时在线路径规划方法
CN107065881A (zh) * 2017-05-17 2017-08-18 清华大学 一种基于深度强化学习的机器人全局路径规划方法
CN108375379A (zh) * 2018-02-01 2018-08-07 上海理工大学 基于变异的双重dqn的快速路径规划方法及移动机器人
CN108536144A (zh) * 2018-04-10 2018-09-14 上海理工大学 一种融合稠密卷积网络和竞争架构的路径规划方法
CN109919319A (zh) * 2018-12-31 2019-06-21 中国科学院软件研究所 基于多个历史最佳q网络的深度强化学习方法及设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10748061B2 (en) * 2016-12-19 2020-08-18 Futurewei Technologies, Inc. Simultaneous localization and mapping with reinforcement learning

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106970615A (zh) * 2017-03-21 2017-07-21 西北工业大学 一种深度强化学习的实时在线路径规划方法
CN107065881A (zh) * 2017-05-17 2017-08-18 清华大学 一种基于深度强化学习的机器人全局路径规划方法
CN108375379A (zh) * 2018-02-01 2018-08-07 上海理工大学 基于变异的双重dqn的快速路径规划方法及移动机器人
CN108536144A (zh) * 2018-04-10 2018-09-14 上海理工大学 一种融合稠密卷积网络和竞争架构的路径规划方法
CN109919319A (zh) * 2018-12-31 2019-06-21 中国科学院软件研究所 基于多个历史最佳q网络的深度强化学习方法及设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
V-D D3QN the Variant of Double Deep Q-Learning Network with Dueling Architecture;Ying Huang等;《2018 37th Chinese Control Conference (CCC)》;20181008;第9130-9135页全文 *
一种基于稠密卷积网络和竞争架构的改进路径规划算法;黄颖等;《计算机与数字工程》;20190430;第47卷(第04期);第812-819页全文 *
工业机器人通信组网方案与路径规划算法的研究;邹博阳;《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》;20190115(第01期);第I140-1626页全文 *

Also Published As

Publication number Publication date
CN110515303A (zh) 2019-11-29

Similar Documents

Publication Publication Date Title
CN110515303B (zh) 一种基于ddqn的自适应动态路径规划方法
Jiang et al. Path planning for intelligent robots based on deep Q-learning with experience replay and heuristic knowledge
CN112937564B (zh) 换道决策模型生成方法和无人车换道决策方法及装置
CN110794842A (zh) 基于势场的强化学习路径规划算法
CN111898728A (zh) 一种基于多Agent强化学习的团队机器人决策方法
CN111260026B (zh) 一种基于元强化学习的导航迁移方法
CN112819253A (zh) 一种无人机避障和路径规划装置及方法
CN112362066A (zh) 一种基于改进的深度强化学习的路径规划方法
CN112052936A (zh) 基于生成对抗机制的强化学习探索方法及装置
CN115099606B (zh) 一种电网调度模型的训练方法及终端
CN113110490A (zh) 基于改进的樽海鞘群算法的机器人多目标路径规划
CN113341972A (zh) 一种基于深度强化学习的机器人路径寻优规划方法
CN114065929A (zh) 一种深度强化学习模型的训练方法、装置及存储介质
CN112613608A (zh) 一种强化学习方法及相关装置
CN112132280A (zh) 基于改进细菌觅食算法优化bp神经网络的方法
CN116147627A (zh) 一种结合深度强化学习和内在动机的移动机器人自主导航方法
CN115409158A (zh) 基于分层深度强化学习模型的机器人行为决策方法及设备
CN116306947A (zh) 一种基于蒙特卡洛树探索的多智能体决策方法
Zhang et al. A gradient-based reinforcement learning algorithm for multiple cooperative agents
CN115344046A (zh) 一种基于改进深度q网络算法的移动机器人路径规划
Liu et al. Forward-looking imaginative planning framework combined with prioritized-replay double DQN
Guo Deep learning and reward design for reinforcement learning
CN115009291A (zh) 基于网络演化重放缓冲区的自动驾驶辅助决策方法及系统
CN114840024A (zh) 基于情景记忆的无人机控制决策方法
CN113503885A (zh) 一种基于采样优化ddpg算法的机器人路径导航方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant