CN110389591A - 一种基于dbq算法的路径规划方法 - Google Patents
一种基于dbq算法的路径规划方法 Download PDFInfo
- Publication number
- CN110389591A CN110389591A CN201910809463.5A CN201910809463A CN110389591A CN 110389591 A CN110389591 A CN 110389591A CN 201910809463 A CN201910809463 A CN 201910809463A CN 110389591 A CN110389591 A CN 110389591A
- Authority
- CN
- China
- Prior art keywords
- robot
- model
- algorithm
- neural network
- environment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 53
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000013528 artificial neural network Methods 0.000 claims description 26
- 230000007613 environmental effect Effects 0.000 claims description 26
- 230000004888 barrier function Effects 0.000 claims description 24
- 230000009471 action Effects 0.000 claims description 20
- 230000006870 function Effects 0.000 claims description 19
- 230000008569 process Effects 0.000 claims description 19
- 238000012549 training Methods 0.000 claims description 6
- 230000002452 interceptive effect Effects 0.000 claims description 5
- 238000007689 inspection Methods 0.000 claims description 4
- 210000002569 neuron Anatomy 0.000 claims description 3
- 230000000644 propagated effect Effects 0.000 claims description 2
- 230000007246 mechanism Effects 0.000 abstract description 8
- 238000001514 detection method Methods 0.000 description 6
- 238000011160 research Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- ALMQPZAZAZTVLI-UHFFFAOYSA-N sodium;4-benzamido-2-hydroxybenzoic acid Chemical compound [Na+].C1=C(O)C(C(=O)O)=CC=C1NC(=O)C1=CC=CC=C1 ALMQPZAZAZTVLI-UHFFFAOYSA-N 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0221—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
Landscapes
- Engineering & Computer Science (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Feedback Control In General (AREA)
- Manipulator (AREA)
Abstract
本发明属于机器人路径规划领域,具体涉及一种基于DBQ算法的路径规划方法。本发明所提出的路径规划方法通过对强化学习Dyna‑Q算法中的动作选择机制进行改进主要解决三个路径规划问题:其一,解决机器人在这种环境中学习的早期阶段学习效率低的问题;其二,提高了机器路径规划的精度;其三,加快了算法的收敛速度。
Description
技术领域
本发明属于机器人路径规划领域,具体涉及一种基于DBQ算法的路径规划方法。
背景技术
近年来,随着现代科学技术,特别是计算机技术、电子通信技术、控制技术的发展,移动机器人性能不断完善,使其在医疗卫生、航天航空、机械制造、教育娱乐等领域得到了不同程度的应用。移动机器人在各个领域完成各项任务的前提条件是从起始位置朝向执行任务的目标点规划处一条有效路径,从而路径规划技术应运而生。路径规划技术是研究移动机器人相关技术的基础,也是机器人学中一个重要的组成部分。传统的路径规划方法大多需要对环境进行完整的信息配置,机器人不具备对环境信息的自学习能力。机器人应用领域的不断扩大导致其应用场景复杂性不断提升,如何能让机器人理解与感知环境成为学术界一直讨论与研究的问题。
现有的研究成果,例如神经网络算法、遗传算法、蚁群算法等智能算法广泛地应用于机器人路径规划领域,但这些算法大都不具备与环境的交互并自主学习以适应复杂多变的环境信息的能力。强化学习(Reinforce Learning,RL)的发展为解决此问题提供了方法,它强调机器人与环境的相互作用,通过“试错”的方式强化机器人的学习过程。机器人不会被教导要采取哪些行动,但它通过Q值函数来评估当前状态从而选择动作以最大化长期目标中的累积奖励。
移动机器人路径规划方法有很多,国内外学者对移动机器人路径规划算法已经进行了大量的研究工作。现存算法从理解环境的角度主要分为非智能算法与智能算法,非智能算法主要利用力、几何等方式完成路径规划的过程,智能算法在强调机器人对环境的学习与理解的基础上完成相应规划过程。
总结现有研究成果发现,目前基于强化学习的机器人路径规划存在以下几个问题需要解决:
(1)非智能算法的路径规划算法虽然灵活简单、可操作性强,但是大都要预知环境信息,机器人对环境的感知能力弱。在环境复杂多变或是缺少环境信息的情况下,传统的算法适用性差;
(2)智能路径规划算法虽然对环境有一定的感知能力,但是算法在机器人路径规划的精度、算法的收敛速度等方面仍需要改进;
(3)Dyna学习框架下强化学习进行移动机器人的路径规划时,利用环境模型产生的模型样本与在线学习产生的真实样本可以共同更新值函数,提高了算法的学习效率。但机器人在具有稀疏奖赏值的未知环境中获得奖励的概率太小,导致机器人在这种环境中学习的早期阶段学习效率低。
发明内容
本发明的目的在于提供通过对强化学习Dyna-Q算法中的动作选择机制进行改进实现有效的避开了环境中的障碍物的一种基于DBQ算法的路径规划方法。
本发明的目的通过如下技术方案来实现:包括以下步骤:
步骤1:构建BP神经网络动作选择器;
步骤2:当前训练次数加一;初始化机器人的起始位置、目标点、Model(s,a)和Q值函数Q(s,a);其中Model(s,a)为机器人与环境的交互过程中环境估计模型;s为机器人当前的状态,即位置信息;a为机器人即将执行的动作;
步骤3:通过BP神经网络动作选择器选择动作a
步骤4:根据即将执行的动作a,计算机器人下一时刻的状态s';
步骤5:检查机器人是否进入“死区”,若进入“死区”根据ε-greedy动作选择策略选择动作;
所述的ε-greedy动作选择策略为:
步骤6:执行动作a,得到新状态s'和即时奖励r;
步骤7:更新Q值函数Q(s,a)和环境模型Model(s,a);
步骤8:利用环境模型得到模型样本,利用模型样本H更新Q值函数,此过程进行N次;
步骤9:若未与障碍物发生碰撞且未到达目标点,则返回步骤3进行下一次路径规划;若与障碍物发生碰撞或已到达终点,此时若未达到最大训练次数或未得到最优策略,则返回步骤2进行下一次训练。
本发明还可以包括:
所述的步骤1中构建BP神经网络动作选择器的方法具体为:
步骤2.1:从环境信息与定义的智能体运动规则中提取出特征向量,作为网络的输入Y(n)与输出d(n);
步骤2.2:设计网络的结构,确定BP神经网络各层神经元个数;
步骤2.3:用非零随机值设置权重ωmi和ωin的值;
步骤2.4:计算BP神经网络的误差;
步骤2.5:调整输出层与隐含层之间的权重ωin,计算误差对ωin的梯度再沿着该方向反向进行调整:
其中η为学习率;.
步骤2.6:将误差信号向前传播,调整输入层与隐含层之间连接权值,BP神经网络的一次迭代调整结束;
步骤2.7:BP神经网络通过n次迭代最终收敛,得到智能体的动作选择器模型。
本发明的有益效果在于:
本发明针对现阶段路径规划领域存在问题,提出了一种基于DBQ算法的路径规划方法,这种方法不仅有效的实现了路径规划,同时也有效的避开了环境中的障碍物。本发明所提出的路径规划方法通过对强化学习Dyna-Q算法中的动作选择机制进行改进主要解决三个路径规划问题:其一,解决机器人在这种环境中学习的早期阶段学习效率低的问题;其二,提高了机器路径规划的精度;其三,加快了算法的收敛速度。
附图说明
图1是一种基于DBQ算法的路径规划方法的总体流程图。
图2是一种基于DBQ算法的路径规划方法的详细流程图。
图3是本发明的实施例中机器人与环境坐标系图。
图4是本发明的实施例中空间分成的八个区域的示意图。
图5是本发明中机器人陷入“死区”情况的示意图。
图6是本发明的实施例中机器人动作选择规则表。
具体实施方式
下面结合附图对本发明做进一步描述。
目前利用强化学习解决移动机器人路径规划问题的研究大都是在环境未知的情况下通过与环境的交互学习得到真实样本,利用真实样本进行学习策略的迭代与更新,此过程称为“学习”的过程。但是机器人与复杂或者特殊的真实环境交互时开销较大,从而引入“规划”的概念来解决此问题。所谓规划是指在机器人与环境交互的过程中建立相应的环境模型,将环境模型产生的模型样本用于策略的迭代。强化学习的Dyna框架建立环境模型的同时引入规划的学习框架,Dyna学习框架将强化学习的学习与规划过程相结合,学习过程对环境进行学习的同时建立环境模型,利用学习产生的真实样本与环境模型产生的模型样本共同完成机器人的学习过程。传统强化学习仅用真实样本学习迭代值函数表的学习方式效率较低。为解决此问题,本发明引入Dyna学习框架中规划与学习同时学习的策略,在Dyna-Q算法的基础上改进机器人动作选择策略以实现移动机器人路径规划算法的设计与实现。
强化学习在解决移动机器人的路径规划问题时利用环境模型产生的模型样本与在线学习时产生的真实样本可以共同更新值函数,提高了算法的学习效率。但机器人在具有稀疏奖赏值的未知环境中获得奖励的概率太小,导致机器人在这种环境中学习的早期阶段学习效率低。
本发明针对现阶段路径规划领域存在问题,提出了一种基于DBQ的路径规划方法,这种方法不仅有效的实现了路径规划,同时也有效的避开了环境中的障碍物。本发明所提出的路径规划方法通过对强化学习Dyna-Q算法中的动作选择机制进行改进主要解决三个路径规划问题:其一,解决机器人在这种环境中学习的早期阶段学习效率低的问题;其二,提高了机器路径规划的精度;其三,加快了算法的收敛速度。发明主要包括:定义机器人动作选择规则,通过障碍物相对机器人的位置信息定义的环境状态信息和根据机器人动作选择的8个方向定义的动作空间来制定机器人的动作选择规则;构建BP神经网络动作选择器,根据智能体的运动规则定义神经网络输出的特征向量;路径规划,根据BPAS选择动作的方式改进Dyna-Q算法中的动作选择机制,进行机器人路径的规划。本发明的总流程图如图1。
本发明在强化学习路径规划的基础上,通过构建动作选择器模型改进Dyna-Q算法的动作选择机制并提出DBQ路径规划算法,提高算法的收敛速度与路径规划的精度。本发明的详细流程图如图2所示,具体为:
步骤1:构建BP神经网络动作选择器;
步骤2:当前训练次数加一;初始化机器人的起始位置、目标点、Model(s,a)和Q值函数Q(s,a);其中Model(s,a)为机器人与环境的交互过程中环境估计模型;s为机器人当前的状态,即位置信息;a为机器人即将执行的动作;
步骤3:通过BP神经网络动作选择器选择动作a
步骤4:根据即将执行的动作a,计算机器人下一时刻的状态s';
步骤5:检查机器人是否进入“死区”,若进入“死区”根据ε-greedy动作选择策略选择动作;
所述的ε-greedy动作选择策略为:
步骤6:执行动作a,得到新状态s'和即时奖励r;
步骤7:更新Q值函数Q(s,a)和环境模型Model(s,a);
步骤8:利用环境模型得到模型样本,利用模型样本H更新Q值函数,此过程进行N次;
步骤9:若未与障碍物发生碰撞且未到达目标点,则返回步骤3进行下一次路径规划;若与障碍物发生碰撞或已到达终点,此时若未达到最大训练次数或未得到最优策略,则返回步骤2进行下一次训练。
实施例1:
基于上述问题描述,为了实现本发明的目的,本发明采用如下步骤:
步骤001.机器人动作选择规则,主要通过障碍物相对机器人的位置信息定义的环境状态信息和根据机器人动作选择的8个方向定义的动作空间来制定机器人的动作选择规则。
步骤002.BP神经网络动作选择器,根据智能体的运动规则定义神经网络输出的特征向量。
步骤003.路径规划,利用步骤002所构建的基于规则的动作选择模型替代Dyna-Q算法中的动作选择机制,进行机器人路径规划。
所述步骤001具体包括如下步骤:
步骤00101.环境状态信息的定义。对机器人所处环境中的目标点、障碍物相对于机器人的位置信息进行定义,以此得到相应的环境状态信息。在机器人对环境学习的过程中,以机器人所处的位置作为坐标原点(0,0),机器人行进方向作为y轴,与行进方向垂直的方向作为x轴建立平面直角坐标系,如图3所示。首先对障碍物相对于机器人的位置信息进行描述,机器人能检测的空间定义在(0,π)的范围内,如果机器人所检测的范围内没有障碍物存在,将其定义为无障碍物(NO);障碍物位于检测区间(0,π/3)时,将其定义为障碍物位于机器人右侧(OR);障碍物位于检测区间(π/3,2π/3)时,将其定义为障碍物位于机器人前方(OF);障碍物位于检测区间(2π/3,π)时,将其定义为障碍物位于机器人左侧(OL)。其次对目标点相对于机器人的位置信息进行描述,目标点位于检测区间(0,π/3)时,将其定义为目标点位于机器人右侧(TR);目标点位于检测区间(π/3,2π/3)时,将其定义为目标点位于机器人前方(TF);目标点位于检测区间(2π/3,π)时,将其定义为目标点位于机器人左侧(TL)。
步骤00102.本发明所提出的机器人路径规划算法的环境空间采用栅格地图,栅格地图可以保证状态空间与动作空间描述的简单化。对于所提算法的动作空间,设置机器人在每个栅格上可以向四周以及对角线方向上的八个区域移动,以机器人为原点,周围空间按照角度大小被分成八个区域如图4所示,这个八个区域分别对应Ri(i=1,2,3,4,5,6,7,8)为:
步骤00103.进行所提算法动作空间的定义,如果机器人朝向R1区域方向前进,将其定义为动作E;朝向R2区域方向前进,定义为动作NE;朝向R3区域方向前进,将其定义为动作N;朝向R4区域方向前进,将其定义为动作NW;朝向R5区域方向前进,将其定义为动作W;朝向R6区域方向前进,将其定义为动作SW;朝向R7区域方向前进,将其定义为动作S;朝向R8区域方向前进,将其定义为动作NE。所以动作空间由以上8个动作组成,可以表示为A=(E,NE,N,NW,W,SW,S,SE)。
步骤00103.根据对以上环境信息的定义,以机器人为参照物,目标点(目标默认只有一个)相对于机器人本身将得到三个可能的位置信息即(TL,TF,TR)。同理,障碍物相对于机器人本身得到四种可能的位置信息(NO,OR,OF,OL)。所以机器人在所处的环境中的某一状态可以根据当前目标点与障碍物的位置信息选择可以躲避障碍物同时又可以逼近目标点的动作。在进行动作选择的过程中躲避障碍物的优先级要高于目标点逼近的优先级,本节根据以上条件定义了某一状态下动作选择的规则,具体规则如图6所示。表的前两列为目标点与障碍相对于机器人的位置信息,后八列为在给定目标点与障碍物位置信息的情况下,机器人可以选择的动作即动作空间。
BP神经网络的7个输入层对应的输入节点分别为对应障碍物与目标点的位置信息(OL,OF,OR,NO,TL,TF,TR),根据障碍物、目标点相对于智能体的位置将7个输入分别置为1(激活状态)和0(非激活状态),得到输入的特征向量。同理BP网络的8个输出分为对应智能体的8个动作(E,NE,N,NW,W,SW,S,SE),根据智能体的运动规则定义神经网络输出的特征向量。针对智能体运动选择规则,所述步骤002,具体包括以下步骤:
步骤00201.从环境信息与定义的智能体运动规则中提取出特征向量,作为网络的输入Y(n)与输出d(n)。
步骤00202.设计网络的结构,确定BP神经网络各层神经元个数。
步骤00203.用较小的非零随机值设置权重ωmi和ωin的值。
步骤00204.将BP神经网络的误差计算模型定义为:
,其中的平方与系数是为了以后求导方便。
步骤00205.调整输出层与隐含层之间的权重ωin,计算误差对ωin的梯度再沿着该方向反向进行调整:
,其中η为学习率。
步骤00206.将误差信号向前传播,调整输入层与隐含层之间连接权值,调整方式与步骤00205类似。
步骤00207.至此,BP神经网络的一次迭代调整结束,通过n次迭代最终收敛,得到智能体的动作选择器模型。
在Q学习算法中,算法采用ε-greedy策略进行动作选择,该策略表达式如公式2-21,该策略以1-ε的概率选择值函数最大的状态动作对,同时以一个较小的概率ε随机的选择动作,对动作空间的随机选择可以理解为智能体对环境的探索过程。表示为:
从上公式可以看出,ε-greedy策略可以一定程度上平衡机器人在学习过程的探索与利用的问题,但是当环境的状态空间较大,并且奖赏函数比较稀疏时,机器人在学习过程中选择到一个奖赏值较大的动作的概率比较小。在智能体与环境交互学习的前期阶段,由于智能体对环境完全未知,也就是说以表格形式存储的强化学习的状态动作对的值函数的初始化赋值均为0,所以智能体在学习前期选择到一个能够有累积奖赏值的动作更新十分困难,这导致算法前期的学习速率缓慢。为解决此问题,本文将利用本发明所构建的基于规则的动作的选择模型BPAS替代Dyna-Q算法中的动作选择机制,提出DBQ路径规划算法。
在DBQ算法中,输入为起始点s1与目标点sg,输出是最优策略π*,最优策略是通过最优值函数的状态-动作对决定的状态序列。DBQ算法的环境信息是已知的,机器人与环境的交互过程中构建环境估计模型Model(s,a),该模型记录机器人在每一步的状态转移(s,a,s')中的下一时刻的状态s'和即时奖励r。步骤003的具体步骤如下:
步骤00301.执行动作a,观察下一个状态s',同时得到即时奖励r。
步骤00302.检查机器人是否进入“死区”,若进入“死区”根据ε-greedy动作选择策略选择动作,返回步骤00301。
步骤00303.根据得到的奖赏值更新Q值函数。
步骤00304.更新环境模型Model(s,a),记录状态-动作对(s,a)的即时奖励与下一刻的状态s'。
步骤00305.利用环境模型得到模型样本,利用模型样本H更新值函数,此过程进行N次。
步骤00306.转移到下一个状态s'。
步骤00302中所提到的“死区”,是指机器人按照BP动作选择器的输出选择动作时会导致机器人陷入如图5类似的环境。当机器人陷入此类环境,从图片中可以看出,如果机器人继续按照BP动作选择器为依据选择动作,机器人是很难跳出这样的“死区”的,所以在DBQ路径规划算法学习迭代的步骤中加入了动作选择是否会导致机器人陷入死区的判断,一旦BP动作选择器输出的动作会导致机器人进入“死区”,此时将采用ε-greedy策略进行选择动作。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (2)
1.一种基于DBQ算法的路径规划方法,其特征在于,包括以下步骤:
步骤1:构建BP神经网络动作选择器;
步骤2:当前训练次数加一;初始化机器人的起始位置、目标点、Model(s,a)和Q值函数Q(s,a);其中Model(s,a)为机器人与环境的交互过程中环境估计模型;s为机器人当前的状态,即位置信息;a为机器人即将执行的动作;
步骤3:通过BP神经网络动作选择器选择动作a
步骤4:根据即将执行的动作a,计算机器人下一时刻的状态s';
步骤5:检查机器人是否进入“死区”,若进入“死区”根据ε-greedy动作选择策略选择动作;
所述的ε-greedy动作选择策略为:
步骤6:执行动作a,得到新状态s'和即时奖励r;
步骤7:更新Q值函数Q(s,a)和环境模型Model(s,a);
步骤8:利用环境模型得到模型样本,利用模型样本H更新Q值函数,此过程进行N次;
步骤9:若未与障碍物发生碰撞且未到达目标点,则返回步骤3进行下一次路径规划;若与障碍物发生碰撞或已到达终点,此时若未达到最大训练次数或未得到最优策略,则返回步骤2进行下一次训练。
2.根据权利要求1所述的一种基于DBQ算法的路径规划方法,其特征在于:所述的步骤1中构建BP神经网络动作选择器的方法具体为:
步骤2.1:从环境信息与定义的智能体运动规则中提取出特征向量,作为网络的输入Y(n)与输出d(n);
步骤2.2:设计网络的结构,确定BP神经网络各层神经元个数;
步骤2.3:用非零随机值设置权重ωmi和ωin的值;
步骤2.4:计算BP神经网络的误差;
步骤2.5:调整输出层与隐含层之间的权重ωin,计算误差对ωin的梯度再沿着该方向反向进行调整:
其中η为学习率;.
步骤2.6:将误差信号向前传播,调整输入层与隐含层之间连接权值,BP神经网络的一次迭代调整结束;
步骤2.7:BP神经网络通过n次迭代最终收敛,得到智能体的动作选择器模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910809463.5A CN110389591A (zh) | 2019-08-29 | 2019-08-29 | 一种基于dbq算法的路径规划方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910809463.5A CN110389591A (zh) | 2019-08-29 | 2019-08-29 | 一种基于dbq算法的路径规划方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110389591A true CN110389591A (zh) | 2019-10-29 |
Family
ID=68289558
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910809463.5A Pending CN110389591A (zh) | 2019-08-29 | 2019-08-29 | 一种基于dbq算法的路径规划方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110389591A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110908377A (zh) * | 2019-11-26 | 2020-03-24 | 南京大学 | 一种机器人导航空间约简方法 |
CN111506104A (zh) * | 2020-04-03 | 2020-08-07 | 北京邮电大学 | 一种规划无人机位置的方法及装置 |
CN111815032A (zh) * | 2020-06-18 | 2020-10-23 | 浙江大华技术股份有限公司 | 自动导引车调度方法及其相关装置 |
CN112327866A (zh) * | 2020-11-18 | 2021-02-05 | 哈尔滨工程大学 | 一种应对连续状态空间的rdbq路径规划方法 |
CN112925307A (zh) * | 2021-01-20 | 2021-06-08 | 中国科学院重庆绿色智能技术研究院 | 一种用于智能仓储机器人系统的分布式多机器人路径规划方法 |
CN112964272A (zh) * | 2021-03-16 | 2021-06-15 | 湖北汽车工业学院 | 一种改进的Dyna-Q学习路径规划算法 |
WO2022042093A1 (zh) * | 2020-08-27 | 2022-03-03 | 朱宝 | 智能机器人及其学习方法 |
CN115102867A (zh) * | 2022-05-10 | 2022-09-23 | 内蒙古工业大学 | 结合深度强化学习的区块链分片系统性能优化方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108762281A (zh) * | 2018-06-08 | 2018-11-06 | 哈尔滨工程大学 | 一种基于记忆关联强化学习的嵌入式实时水下机器人智能决策方法 |
-
2019
- 2019-08-29 CN CN201910809463.5A patent/CN110389591A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108762281A (zh) * | 2018-06-08 | 2018-11-06 | 哈尔滨工程大学 | 一种基于记忆关联强化学习的嵌入式实时水下机器人智能决策方法 |
Non-Patent Citations (1)
Title |
---|
李贤: "基于强化学习的移动机器人路径规划研究", 《中国优秀硕士学位论文全文数据库·信息科技辑》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110908377A (zh) * | 2019-11-26 | 2020-03-24 | 南京大学 | 一种机器人导航空间约简方法 |
CN110908377B (zh) * | 2019-11-26 | 2021-04-27 | 南京大学 | 一种机器人导航空间约简方法 |
CN111506104A (zh) * | 2020-04-03 | 2020-08-07 | 北京邮电大学 | 一种规划无人机位置的方法及装置 |
CN111506104B (zh) * | 2020-04-03 | 2021-10-01 | 北京邮电大学 | 一种规划无人机位置的方法及装置 |
CN111815032A (zh) * | 2020-06-18 | 2020-10-23 | 浙江大华技术股份有限公司 | 自动导引车调度方法及其相关装置 |
WO2022042093A1 (zh) * | 2020-08-27 | 2022-03-03 | 朱宝 | 智能机器人及其学习方法 |
CN112327866A (zh) * | 2020-11-18 | 2021-02-05 | 哈尔滨工程大学 | 一种应对连续状态空间的rdbq路径规划方法 |
CN112925307A (zh) * | 2021-01-20 | 2021-06-08 | 中国科学院重庆绿色智能技术研究院 | 一种用于智能仓储机器人系统的分布式多机器人路径规划方法 |
CN112964272A (zh) * | 2021-03-16 | 2021-06-15 | 湖北汽车工业学院 | 一种改进的Dyna-Q学习路径规划算法 |
CN115102867A (zh) * | 2022-05-10 | 2022-09-23 | 内蒙古工业大学 | 结合深度强化学习的区块链分片系统性能优化方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110389591A (zh) | 一种基于dbq算法的路径规划方法 | |
Yao et al. | Path planning method with improved artificial potential field—a reinforcement learning perspective | |
Liu et al. | Multi-UAV path planning based on fusion of sparrow search algorithm and improved bioinspired neural network | |
Buniyamin et al. | Robot global path planning overview and a variation of ant colony system algorithm | |
CN112799386B (zh) | 基于人工势场与强化学习的机器人路径规划方法 | |
CN111780777A (zh) | 一种基于改进a*算法和深度强化学习的无人车路径规划方法 | |
Zhang et al. | Collective behavior coordination with predictive mechanisms | |
Wu et al. | An adaptive conversion speed Q-learning algorithm for search and rescue UAV path planning in unknown environments | |
Zhai et al. | Decentralized multi-robot collision avoidance in complex scenarios with selective communication | |
CN117007066A (zh) | 多规划算法集成的无人驾驶轨迹规划方法及相关装置 | |
CN117705113A (zh) | 一种改进ppo的无人机视觉避障及自主导航方法 | |
CN113534819A (zh) | 用于领航跟随型多智能体编队路径规划的方法和存储介质 | |
CN118394090A (zh) | 一种基于深度强化学习的无人车决策与规划方法及系统 | |
Yan et al. | Path Planning for Mobile Robot's Continuous Action Space Based on Deep Reinforcement Learning | |
Zhang et al. | Enhancing Multi-UAV Reconnaissance and Search Through Double Critic DDPG With Belief Probability Maps | |
CN117930863A (zh) | 一种基于数字孪生和深度强化学习的集群协同目标搜索方法 | |
Li et al. | An Improved grey wolf optimizer with weighting functions and its application to Unmanned Aerial Vehicles path planning | |
Jiang et al. | Research on dynamic path planning method of electric inspection robot based on fuzzy neural network | |
CN116562332A (zh) | 一种人机共融环境下的机器人社交性运动规划方法 | |
CN114326826B (zh) | 多无人机队形变换方法及系统 | |
CN116227622A (zh) | 基于深度强化学习的多智能体地标覆盖方法及系统 | |
Song et al. | Towards efficient exploration in unknown spaces: A novel hierarchical approach based on intrinsic rewards | |
Li et al. | Vision-based obstacle avoidance algorithm for mobile robot | |
Li et al. | Research on path planning of cloud robot in dynamic environment based on improved ddpg algorithm | |
Liang et al. | Mastering cooperative driving strategy in complex scenarios using multi-agent reinforcement learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191029 |