CN110515303A - 一种基于ddqn的自适应动态路径规划方法 - Google Patents
一种基于ddqn的自适应动态路径规划方法 Download PDFInfo
- Publication number
- CN110515303A CN110515303A CN201910879532.XA CN201910879532A CN110515303A CN 110515303 A CN110515303 A CN 110515303A CN 201910879532 A CN201910879532 A CN 201910879532A CN 110515303 A CN110515303 A CN 110515303A
- Authority
- CN
- China
- Prior art keywords
- map
- agency
- training
- network
- path planning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 230000003044 adaptive effect Effects 0.000 title claims abstract description 9
- 238000012549 training Methods 0.000 claims abstract description 29
- 238000013528 artificial neural network Methods 0.000 claims abstract description 20
- 230000008569 process Effects 0.000 claims description 25
- 230000006399 behavior Effects 0.000 claims description 21
- 230000006870 function Effects 0.000 claims description 11
- 230000004888 barrier function Effects 0.000 claims description 10
- 238000012360 testing method Methods 0.000 claims description 10
- 210000002569 neuron Anatomy 0.000 claims description 6
- 230000003993 interaction Effects 0.000 claims description 5
- 230000007423 decrease Effects 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 2
- 230000008859 change Effects 0.000 claims description 2
- 206010048669 Terminal state Diseases 0.000 claims 1
- 230000001186 cumulative effect Effects 0.000 claims 1
- 238000000605 extraction Methods 0.000 claims 1
- 230000002452 interceptive effect Effects 0.000 claims 1
- 210000005036 nerve Anatomy 0.000 claims 1
- 230000001537 neural effect Effects 0.000 claims 1
- 230000001737 promoting effect Effects 0.000 claims 1
- 230000009471 action Effects 0.000 description 6
- 238000013461 design Methods 0.000 description 5
- 230000007613 environmental effect Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 235000019606 astringent taste Nutrition 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000006062 fragmentation reaction Methods 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 230000010181 polygamy Effects 0.000 description 1
- 230000003362 replicative effect Effects 0.000 description 1
- 239000011232 storage material Substances 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/0265—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
- G05B13/027—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion using neural networks only
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/04—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
- G05B13/042—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0221—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0268—Control of position or course in two dimensions specially adapted to land vehicles using internal positioning means
- G05D1/0274—Control of position or course in two dimensions specially adapted to land vehicles using internal positioning means using mapping information stored in a memory device
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Evolutionary Computation (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Aviation & Aerospace Engineering (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Feedback Control In General (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于DDQN的自适应动态路径规划方法,解决了不同环境下的路径规划问题。本发明主要分为两个部分,第一部分先利用多个障碍物分布不同的地图训练神经网络,直到定义的损失函数不再减小或者减小到一定范围。第二个部分利用训练完成的神经网络在没有经过训练的全新地图上找到最优策略,实现端到端的路径规划。本发明对于不同的地图具有一定的适应性,经过一次训练后可以快速实现从不同的地图任意位置到指定的终点之间决策出一条最优路径。
Description
技术领域
本发明属于深度强化学习和路径规划领域,具体涉及到一种基于DDQN的自适应动态路径规划方法。
背景技术
未知环境的动态路径规划一直是移动机器人技术领域的一个重要领域,路径规划其定义就是要求在一定限制条件下比如最短路径、最少的机械运动,移动机器人能够避障的同时有效的达到目标点。随着各行各业的智能化、自动化,路径规划等机器人技术广泛应用于工业、农业、军事等各个领域。
根据所能获得的环境信息,路径规划技术分为全局路径规划和局部路径规划。全局路径规划技术对先验知识的要求较高,具有代表性的算法有Voronoi图法,A*算法,Dijkstra算法,粒子群算法,蚁群算法等,但是此类算法在实际的应用中经常出现高时间复杂性和陷入局部最优值的缺陷。局部路径规划算法主要根据机器人自身的传感器感知到的局部环境的信息做出即使的决策,相比较全局路径规划具有低复杂性和可迁移性等优点。
近年来随着神经网络技术的发展,产生了各种深度强化学习算法,强化学习为具有马尔可夫性的过程问题提供了良好的解决方案,局部路径规划可以看作是移动机器人根据当前的状态获得的信息做出即时决策,所以能够将其转化为一个马尔可夫决策过程。强化学习由四个元素组成,代理,环境,行为,即时奖励,其主要是通过代理采取行为不断与环境交互产生不同的马尔可夫决策过程同时获得即时奖励,在这个过程中评估当前策略的价值和改善策略同步进行,策略的价值通过每个状态或者状态行为对的值来表示,改善策略通过不完全贪婪策略来实现,最终两个过程收敛到最优策略上。
DQN由Deep Mind首次提出,该算法在Atari游戏上取得显著的成果,经过训练后代理能够以超越人类职业玩家的水平完成该游戏。DQN算法具有收敛性差,训练不稳定和训练困难等缺陷,之后又涌现出一批针对DQN算法的改进版本,诸如经验回放、目标网络、双重Q网络等方法。DQN过于乐观的估计了TD目标值,带来最大化的偏差,而DDQN可以消除最大化偏差,经验回放打乱了代理和环境交互的状态转换顺序,降低了样本之间的关联性,使喂入算法的样本数据更加平滑,训练过程更加稳定。
发明内容
为了解决现有技术中存在的上述技术问题,本发明提出一种基于DDQN的新型局部路径规划算法,具有决策及时性、可迁移性、适应多种动态环境、不需要收集过多环境信息、神经网络简单、训练代价低等特点,只需经过一次训练就可以在不同的地图的任意位置规划一条通往终点的路径。
本发明采用的技术方案是:一种基于DDQN的自适应动态路径规划方法,该方法包含以下步骤:
步骤1:根据移动机器人和实际环境的大小将环境转化成一定精度的栅格地图。
步骤2:在栅格地图中放置固定数量的固定位置的障碍物,同时在随机位置生成障碍物。同理生成足够数量的训练地图和测试地图,不同地图的固定障碍物位置相同,随机障碍物的位置不同。
步骤3:设计多层神经网络,代理的行为空间,行为选择策略以及奖励函数,初始化经验池,复制主神经网络的结构和参数形成一个目标网络。
经验池的设计提高了样本的利用率,相当于将不同的马尔可夫轨迹碎片化处理,打断了不同轨迹之间的隔离,减小了当前策略决定的样本分布对训练的局限性影响。
步骤4:在所有的训练地图中随机初始化代理的位置,根据当前位置s提取状态特征,将状态特征输入神经网络,根据神经网络的输出值和行为选择策略选择当前的行为a,代理执行该行为获得即时奖励r且到达下一个位置s_,将此过程记为一个步骤。
将元组(s,a,r,s_)存入经验池中。根据经验池中的元组对神经网络参数进行更新。每四个步骤更新一次目标网络的参数。
目标网络用之前的主网络参数更新,这样可以使公式(3)所示的过程更加稳定。
不断重复步骤四,直到代理到达终点或者步骤数达到上限时重新初始化代理的位置,这个过程记为一个回合。当回合数到达上限时更换训练地图,重复步骤4。
步骤5:经过一段时间训练后神经网络的损失函数不断减小并趋于稳定时训练完毕。在随机生成的测试地图中任意起始位置的代理根据神经网络和贪婪策略选择最优行为均可到达固定的终点。
本发明提出的方法和现有路径规划技术相比的优点:其具有简单的神经网络,不需要将原始图像当作神经网络的输入,节省的大量的计算资源和时间成本,本发明中采取的代理位置初始化的方法提高了重要样本的利用率,采取的行为选择策略有效的平衡了探索和利用的作用,并且本发明提出的算法可以适应多种环境,经过一定时间的训练后可以在各种不同障碍物分布的环境的任意位置找到能够达到固定终点的最优路径。
附图说明
图1是本发明的算法流程图;
图2是策略收敛示意图;
图3是损失函数示意图;
图4是训练过程的奖励趋势图;
图5a-5d是测试地图路径图。
具体实施方式
下面详述本发明的具体实施例,用于解释本发明的具体优点和技术方案。
如图1所示,本案例包括以下步骤:
步骤一:生成50张7*7的栅格地图,其中40张是训练地图,10张是测试地图。
每张地图设置4个固定障碍物和4个移动障碍物,不同地图的固定障碍物位置相同,移动障碍物随机分布且位置不同,所有地图的终点都在(6,6)坐标位置。
步骤二:搭建由三层全连接层构成的神经网络作为主网络。
主网络激活函数为relu函数,输入层为10个神经元,第二层为64个神经元,第三层为32个神经元,输出层为4个神经元,输出代表上下左右四个行为的Q值。
完全复制主网络的结构和参数生成一个目标网络。
步骤三:设计一个容量为5000的经验池用来存储代理和环境交互的经历。
设计奖励函数,当代理遇到障碍物时r=-10,到达终点时r=10,出界r=-10,正常移动时r=-1,训练过程中的奖励变化趋势如图4所示。
设计行为空间A,A中共有四个行为上下左右,分别用0,1,2,3表示。
步骤四:在训练地图中随机初始化代理的位置s,根据当前位置选取行为a,执行行为获得即时奖励r并且到达下一个位置s_。
步骤四全过程记为一个步骤,将每个步骤以元组(s,a,r,s_)的形式存入经验池中。
每执行一个步骤之后从经验池中随机选取64个样本喂入神经网络进行参数更新。
100个步骤记为一个回合,每个地图训练30个回合。当代理达到终点或每个回合开始时重新初始化代理位置。
步骤四(1):代理位置初始化位置范围随着回合数增大而增大。
每个地图训练20个回合,前2个回合将代理位置初始化到距离终点两个栅格的范围内。
2-6回合期间将代理位置初始化到距离终点4个栅格范围内。
6-10回合期间将代理位置初始化到距离终点6个栅格的范围内。
10-20回合期间将代理位置初始化在地图全局,这样的初始化方式有利于采样到重要价值的样本。
步骤四(2):根据代理当前位置提取状态特征具体方式:用一个10维数组表示代理状态特征,前八位数字分别表示代理周围8个栅格,若该栅格为障碍物或者界外,则该数字为1,否则为-1,后两位数字为当前位置和终点的相对坐标。
步骤四(3):行为选取策略具体方法如公式(6)所示:
greedy=0.6+episode×0.35÷episode
其中ε为随机生成的0-1之间的自然数。
这样的行为选择策略在训练前期专注于探索,在训练后期专注于利用,可以保证最优策略和最优Q值同时收敛值同一个方向如图2所示。
步骤四(4):神经网络参数具体更新方式:随机从经验池中选取64个样本,计算损失函数的方法如公式(7)所示:
Ui=ri+γQT(si_,argmaxa_Q(si_,a_;w);wT) (8)
在确定策略下,每个状态行为对的Q值是确定的,根据公式(9)所示贝尔曼期望方程可以计算每个状态行为对的Q值。期望的计算通过从经验池中选取样本减少目标值和Q值的差来实现。
qpai(s,a)=E[Rt+1+γqpai(St+1,At+1)|St=s,At=a] (9)
其中γ是奖励折扣率,其中Q是主网络的输出结果,QT是目标网络的输出结果。公式(7)改善了DQN的损失函数计算方法的高偏差和过于乐观的估计了S_的Q值的缺点。
对损失函数进行Adam梯度下降,更新参数w的方法如公式(10)所示:
步骤四(5):每执行10个步骤将目标网络的参数替换为主网络参数。
步骤五:训练完所有训练地图,损失函数不断减小直到稳定在一个极小的范围内可以看作算法收敛,将主网络的所有参数和结构保存到本地,训练过程的损失函数图如图3所示。
步骤六:从每由经过训练的测试地图中任意选取若干地图,在地图全局任意位置初始化代理位置,通过完全贪婪策略选取行为,代理到达终点前走过的路径即为最优路径,图5a-5d所示是同一个模型在不同的环境中的路径规划图,四张图中终点栅格坐标都为(6,6),起点位于不同坐标的栅格,灰色区域为障碍物分布位置,白色区域为算法规划出的栅格路径。
Claims (4)
1.一种基于DDQN的自适应动态路径规划方法,其特征在于,包括以下步骤:
步骤(1)根据应用场景的实际大小产生一批相同大小,具有相同终点的网格地图,再根据实际应用场景的需要在地图中布置一定数量障碍物,且所有地图的障碍物分布不同,这些地图组成一个训练地图库,同样的生成一个测试地图库;
步骤(2)根据地图大小和实际环境复杂程度生成一个多层神经网络,其输入个数与地图中每个网格的状态维度相同,输出层的神经元个数与机器人的行为个数相同,随机初始化神经网络的参数;
步骤(3)任意从训练地图库中取出一个地图,随机在地图中终点之外没有障碍物的网格生成一个代理,在代理与地图交互过程中,记录下所有交互的步骤,并利用这些交互的经历来训练神经网络,直到遍历所有训练地图;
步骤(4)训练完成之后的模型可用于测试任意没有经过训练的障碍物分布不同的测试地图,在测试地图上随机位置生成一个代理,将代理所处的当前网格的状态特征输入神经网络,根据完全贪婪策略选出最优行为,执行该行为之后代理移动到下一个状态,不断重复此步骤直到找到终点状态。
2.如权利要求1所述的一种基于DDQN的自适应动态路径规划方法,其特征在于,所述步骤(1)的具体过程为:
根据实际环境的大小生成训练地图库和测试地图库,训练地图库中的地图数量要满足能够使神经网络收敛的数量;地图库中的每个地图大小相同,设置的终点相同,每个地图中布置一定数量且分布不同的障碍物;其中部分障碍物位于地图的固定位置,其余障碍物随机分布在其他位置;地图栅格的划分精度对最终的结果有着显著的影响,根据代理的实际大小的应用场景中实际障碍物的大小确定适当精度的栅格划分。
3.如权利要求1所述的一种基于DDQN的自适应动态路径规划方法,其特征在于,所述步骤(2)的具体过程为:
生成完全由3-5层全连接层构成的神经网络作为主网络,其输入变量与代理在每个位置提取的状态特征维度相同,输出层为四个神经元,分别代表上下左右四个行为,中间层数的激活函数采用RELU函数,并随机初始化所有参数;完全复制主网络的结构和参数生成目标网络。
4.如权利要求1所述的一种基于DDQN的自适应动态路径规划方法,其特征在于,所述步骤(3)的具体过程为:
将训练地图库中的所有地图用来训练主网络,首先在每个地图上产生一个代理,每个地图训练多个个回合,每个回合开始前初始化代理的位置,将其随机定义在障碍物之外的网格,每个回合具有步数上限,每一步由强化学习中的状态转移定义,其构成有s,a,r,s_,其中s是当前代理所在网格的特征表示,a是根据s和公式(1)所示策略选择的行为,r是得到的即时奖励,当代理遇到障碍物时即时奖励为-10,遇到终点时即时奖励为10,同时回重新初始化代理的位置,其他时候即使奖励为-0.1,s_是选择a后到达的下一个网格的状态特征,每一步都会被存储到经验存储器中;
greedy=0.5+episode×0.3÷total_episode (2)
当经验存储器中存储的步骤到达一定数量之后,代理每走一步主神经网络训练一次,每训练多次之后将主网络的参数复制给目标网络;具体训练过程为:从经验存储器中随机选取若干个样本,每个样本都是一个完整的状态转移,将样本的s输入到主网络网络,根据a的值选出对应的状态行为对的Q值Q主(s,a),将s_输入主网络,选出每个样本输出值最大行为a_,再将s_输入目标网络,在目标网络的输出中根据a_选出对应的Q值QT(s_,a_),再根据公式(3)所示的TD误差对其进行梯度下降从而更新了主网络的参数
Ui=ri+γQT(si_,argmaxa_Q(si_,a_;w);wT) (4)
代理从初始位置到达终点的整个过程在强化学习中叫做完整的马尔可夫过程(s1,s2.....sT);每个完整的马尔可夫过程都有自己的累计奖励,由公式(5)所示:
训练的过程就是将每个状态行为对的Q值不断提升的过程,再经过ε-greedy的策略大概率选择Q值最大的行为,可以不断提高整个马尔可夫过程的累计回报;执行完全部的回合,回到步骤(3)一直重复此过程直到遍历所有的地图使得公式(3)中的loss减小到一定范围为止。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910879532.XA CN110515303B (zh) | 2019-09-17 | 2019-09-17 | 一种基于ddqn的自适应动态路径规划方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910879532.XA CN110515303B (zh) | 2019-09-17 | 2019-09-17 | 一种基于ddqn的自适应动态路径规划方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110515303A true CN110515303A (zh) | 2019-11-29 |
CN110515303B CN110515303B (zh) | 2022-09-09 |
Family
ID=68632573
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910879532.XA Active CN110515303B (zh) | 2019-09-17 | 2019-09-17 | 一种基于ddqn的自适应动态路径规划方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110515303B (zh) |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111260026A (zh) * | 2020-01-10 | 2020-06-09 | 电子科技大学 | 一种基于元强化学习的导航迁移方法 |
CN111275572A (zh) * | 2020-01-15 | 2020-06-12 | 杭州电子科技大学 | 一种基于粒子群和深度强化学习的机组调度系统及方法 |
CN111352419A (zh) * | 2020-02-25 | 2020-06-30 | 山东大学 | 基于时序差分更新经验回放缓存的路径规划方法及系统 |
CN111651819A (zh) * | 2020-05-27 | 2020-09-11 | 广东博智林机器人有限公司 | 一种家装设计方法、装置、电子设备及存储介质 |
CN111753371A (zh) * | 2020-06-04 | 2020-10-09 | 纵目科技(上海)股份有限公司 | 一种车身控制网络模型的训练方法、系统、终端和存储介质 |
CN111811532A (zh) * | 2020-07-02 | 2020-10-23 | 浙江大学 | 基于脉冲神经网络的路径规划方法和装置 |
CN111917642A (zh) * | 2020-07-14 | 2020-11-10 | 电子科技大学 | 分布式深度强化学习的sdn网络智慧路由数据传输方法 |
CN112179367A (zh) * | 2020-09-25 | 2021-01-05 | 广东海洋大学 | 一种基于深度强化学习的智能体自主导航方法 |
CN112198870A (zh) * | 2020-06-01 | 2021-01-08 | 西北工业大学 | 基于ddqn的无人机自主引导机动决策方法 |
CN112286203A (zh) * | 2020-11-11 | 2021-01-29 | 大连理工大学 | 一种基于蚁群算法的多智能体强化学习路径规划方法 |
CN112670982A (zh) * | 2020-12-14 | 2021-04-16 | 广西电网有限责任公司电力科学研究院 | 一种基于奖励机制的微电网有功调度控制方法及系统 |
CN112836852A (zh) * | 2020-12-31 | 2021-05-25 | 中国电子科技集团公司信息科学研究院 | 一种基于强化学习的无人平台路径规划方法及装置 |
CN112882469A (zh) * | 2021-01-14 | 2021-06-01 | 浙江大学 | 一种融合全局训练的深度强化学习避障导航方法 |
CN113312874A (zh) * | 2021-06-04 | 2021-08-27 | 福州大学 | 基于改进深度强化学习的总体布线方法 |
CN113359820A (zh) * | 2021-05-28 | 2021-09-07 | 中国地质大学(武汉) | 一种基于dqn的无人机路径规划方法 |
CN113467481A (zh) * | 2021-08-11 | 2021-10-01 | 哈尔滨工程大学 | 一种基于改进Sarsa算法的路径规划方法 |
CN114942643A (zh) * | 2022-06-17 | 2022-08-26 | 华中科技大学 | 一种usv无人艇路径规划模型的构建方法及应用 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106970615A (zh) * | 2017-03-21 | 2017-07-21 | 西北工业大学 | 一种深度强化学习的实时在线路径规划方法 |
CN107065881A (zh) * | 2017-05-17 | 2017-08-18 | 清华大学 | 一种基于深度强化学习的机器人全局路径规划方法 |
US20180174038A1 (en) * | 2016-12-19 | 2018-06-21 | Futurewei Technologies, Inc. | Simultaneous localization and mapping with reinforcement learning |
CN108375379A (zh) * | 2018-02-01 | 2018-08-07 | 上海理工大学 | 基于变异的双重dqn的快速路径规划方法及移动机器人 |
CN108536144A (zh) * | 2018-04-10 | 2018-09-14 | 上海理工大学 | 一种融合稠密卷积网络和竞争架构的路径规划方法 |
CN109919319A (zh) * | 2018-12-31 | 2019-06-21 | 中国科学院软件研究所 | 基于多个历史最佳q网络的深度强化学习方法及设备 |
-
2019
- 2019-09-17 CN CN201910879532.XA patent/CN110515303B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180174038A1 (en) * | 2016-12-19 | 2018-06-21 | Futurewei Technologies, Inc. | Simultaneous localization and mapping with reinforcement learning |
CN106970615A (zh) * | 2017-03-21 | 2017-07-21 | 西北工业大学 | 一种深度强化学习的实时在线路径规划方法 |
CN107065881A (zh) * | 2017-05-17 | 2017-08-18 | 清华大学 | 一种基于深度强化学习的机器人全局路径规划方法 |
CN108375379A (zh) * | 2018-02-01 | 2018-08-07 | 上海理工大学 | 基于变异的双重dqn的快速路径规划方法及移动机器人 |
CN108536144A (zh) * | 2018-04-10 | 2018-09-14 | 上海理工大学 | 一种融合稠密卷积网络和竞争架构的路径规划方法 |
CN109919319A (zh) * | 2018-12-31 | 2019-06-21 | 中国科学院软件研究所 | 基于多个历史最佳q网络的深度强化学习方法及设备 |
Non-Patent Citations (3)
Title |
---|
YING HUANG等: "V-D D3QN the Variant of Double Deep Q-Learning Network with Dueling Architecture", 《2018 37TH CHINESE CONTROL CONFERENCE (CCC)》 * |
邹博阳: "工业机器人通信组网方案与路径规划算法的研究", 《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》 * |
黄颖等: "一种基于稠密卷积网络和竞争架构的改进路径规划算法", 《计算机与数字工程》 * |
Cited By (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111260026A (zh) * | 2020-01-10 | 2020-06-09 | 电子科技大学 | 一种基于元强化学习的导航迁移方法 |
CN111260026B (zh) * | 2020-01-10 | 2022-07-05 | 电子科技大学 | 一种基于元强化学习的导航迁移方法 |
CN111275572A (zh) * | 2020-01-15 | 2020-06-12 | 杭州电子科技大学 | 一种基于粒子群和深度强化学习的机组调度系统及方法 |
CN111352419A (zh) * | 2020-02-25 | 2020-06-30 | 山东大学 | 基于时序差分更新经验回放缓存的路径规划方法及系统 |
CN111651819A (zh) * | 2020-05-27 | 2020-09-11 | 广东博智林机器人有限公司 | 一种家装设计方法、装置、电子设备及存储介质 |
CN112198870A (zh) * | 2020-06-01 | 2021-01-08 | 西北工业大学 | 基于ddqn的无人机自主引导机动决策方法 |
CN112198870B (zh) * | 2020-06-01 | 2022-09-02 | 西北工业大学 | 基于ddqn的无人机自主引导机动决策方法 |
CN111753371A (zh) * | 2020-06-04 | 2020-10-09 | 纵目科技(上海)股份有限公司 | 一种车身控制网络模型的训练方法、系统、终端和存储介质 |
CN111753371B (zh) * | 2020-06-04 | 2024-03-15 | 纵目科技(上海)股份有限公司 | 一种车身控制网络模型的训练方法、系统、终端和存储介质 |
CN111811532B (zh) * | 2020-07-02 | 2022-03-25 | 浙江大学 | 基于脉冲神经网络的路径规划方法和装置 |
CN111811532A (zh) * | 2020-07-02 | 2020-10-23 | 浙江大学 | 基于脉冲神经网络的路径规划方法和装置 |
CN111917642A (zh) * | 2020-07-14 | 2020-11-10 | 电子科技大学 | 分布式深度强化学习的sdn网络智慧路由数据传输方法 |
CN112179367B (zh) * | 2020-09-25 | 2023-07-04 | 广东海洋大学 | 一种基于深度强化学习的智能体自主导航方法 |
CN112179367A (zh) * | 2020-09-25 | 2021-01-05 | 广东海洋大学 | 一种基于深度强化学习的智能体自主导航方法 |
CN112286203A (zh) * | 2020-11-11 | 2021-01-29 | 大连理工大学 | 一种基于蚁群算法的多智能体强化学习路径规划方法 |
CN112670982A (zh) * | 2020-12-14 | 2021-04-16 | 广西电网有限责任公司电力科学研究院 | 一种基于奖励机制的微电网有功调度控制方法及系统 |
CN112670982B (zh) * | 2020-12-14 | 2022-11-08 | 广西电网有限责任公司电力科学研究院 | 一种基于奖励机制的微电网有功调度控制方法及系统 |
CN112836852A (zh) * | 2020-12-31 | 2021-05-25 | 中国电子科技集团公司信息科学研究院 | 一种基于强化学习的无人平台路径规划方法及装置 |
CN112836852B (zh) * | 2020-12-31 | 2024-05-31 | 中国电子科技集团公司信息科学研究院 | 一种基于强化学习的无人平台路径规划方法及装置 |
CN112882469A (zh) * | 2021-01-14 | 2021-06-01 | 浙江大学 | 一种融合全局训练的深度强化学习避障导航方法 |
CN112882469B (zh) * | 2021-01-14 | 2022-04-08 | 浙江大学 | 一种融合全局训练的深度强化学习避障导航方法 |
CN113359820A (zh) * | 2021-05-28 | 2021-09-07 | 中国地质大学(武汉) | 一种基于dqn的无人机路径规划方法 |
CN113312874A (zh) * | 2021-06-04 | 2021-08-27 | 福州大学 | 基于改进深度强化学习的总体布线方法 |
CN113467481A (zh) * | 2021-08-11 | 2021-10-01 | 哈尔滨工程大学 | 一种基于改进Sarsa算法的路径规划方法 |
CN113467481B (zh) * | 2021-08-11 | 2022-10-25 | 哈尔滨工程大学 | 一种基于改进Sarsa算法的路径规划方法 |
CN114942643B (zh) * | 2022-06-17 | 2024-05-14 | 华中科技大学 | 一种usv无人艇路径规划模型的构建方法及应用 |
CN114942643A (zh) * | 2022-06-17 | 2022-08-26 | 华中科技大学 | 一种usv无人艇路径规划模型的构建方法及应用 |
Also Published As
Publication number | Publication date |
---|---|
CN110515303B (zh) | 2022-09-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110515303A (zh) | 一种基于ddqn的自适应动态路径规划方法 | |
CN110443364A (zh) | 一种深度神经网络多任务超参数优化方法及装置 | |
Griffith et al. | Policy shaping: Integrating human feedback with reinforcement learning | |
CN112325897B (zh) | 基于启发式深度强化学习的路径规划方法 | |
CN108803332B (zh) | 基于改进生物地理学的路径规划方法 | |
CN106529818B (zh) | 基于模糊小波神经网络的水质评价预测方法 | |
Verbancsics et al. | Evolving static representations for task transfer | |
CN109325580A (zh) | 一种用于服务组合全局优化的自适应布谷鸟搜索方法 | |
CN106022471A (zh) | 基于粒子群优化算法的小波神经网络模型船舶横摇实时预测方法 | |
Zhang et al. | A collaborative multiagent reinforcement learning method based on policy gradient potential | |
CN110327624A (zh) | 一种基于课程强化学习的游戏跟随方法和系统 | |
CN112215364A (zh) | 一种基于强化学习的敌-友深度确定性策略方法及系统 | |
CN113919485A (zh) | 基于动态层级通信网络的多智能体强化学习方法及系统 | |
CN113919482A (zh) | 智能体训练方法、装置、计算机设备和存储介质 | |
CN106850289A (zh) | 结合高斯过程与强化学习的服务组合方法 | |
CN109514553A (zh) | 一种机器人移动控制的方法、系统及设备 | |
CN109726676A (zh) | 自动驾驶系统的规划方法 | |
CN106874955A (zh) | 一种基于深度卷积神经网络的三维形状分类方法 | |
CN110222838A (zh) | 深度神经网络及其训练方法、装置、电子设备及存储介质 | |
CN112827174B (zh) | 一种分布式多机器人目标搜索方法 | |
Li et al. | SparseMAAC: Sparse attention for multi-agent reinforcement learning | |
CN101477689A (zh) | 一种基于自适应蚁群智能的空中机器人视觉分层匹配方法 | |
Feng et al. | Curriculum goal-conditioned imitation for offline reinforcement learning | |
CN115202339B (zh) | 基于dqn的多月球车采样固定目标自适应规划方法 | |
Ma et al. | Hierarchical coordination Multi-agent reinforcement learning with spatio-temporal abstraction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |