CN114721397A - 一种基于强化学习和好奇心的迷宫机器人路径规划方法 - Google Patents

一种基于强化学习和好奇心的迷宫机器人路径规划方法 Download PDF

Info

Publication number
CN114721397A
CN114721397A CN202210412829.7A CN202210412829A CN114721397A CN 114721397 A CN114721397 A CN 114721397A CN 202210412829 A CN202210412829 A CN 202210412829A CN 114721397 A CN114721397 A CN 114721397A
Authority
CN
China
Prior art keywords
node
curiosity
action
learning
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210412829.7A
Other languages
English (en)
Other versions
CN114721397B (zh
Inventor
张晓平
刘翼豪
王力
李凯
杨天航
吴宜通
孟祥鹏
郑远鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
North China University of Technology
Original Assignee
North China University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by North China University of Technology filed Critical North China University of Technology
Priority to CN202210412829.7A priority Critical patent/CN114721397B/zh
Priority claimed from CN202210412829.7A external-priority patent/CN114721397B/zh
Publication of CN114721397A publication Critical patent/CN114721397A/zh
Application granted granted Critical
Publication of CN114721397B publication Critical patent/CN114721397B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

一种基于强化学习和好奇心的迷宫机器人路径规划方法,属于移动机器人技术领域。该模型以强化学习为基础,包括Q‑learning算法,好奇心算法,以及回溯强化。其中,好奇心算法包括一个BP网络,联想记忆网络和内部奖励三部分。算法首先感知所在节点以及状态;随后根据好奇心算法进行好奇心奖励计算,而后根据Q‑learning算法更新公式计算Q值;选择动作;发生状态转移;到达目的地后进行回溯强化;重复以上过程直至学习到最短路径。本发明引入基于预测误差的好奇机制,使得算法对未知环境有更好的探索能力,同时也降低了重复探索的次数,减少了学习过程中的寻路时间。使得机器人在迷宫中能更好更快地寻得最优解。

Description

一种基于强化学习和好奇心的迷宫机器人路径规划方法
技术领域
本发明涉及一种基于强化学习和好奇心的迷宫机器人路径规划方法,属于移动机器人技术领域。
背景技术
移动机器人应用广泛,根据在工业、服务、军事等领域的不同,其所具备的能力和移动方式也不同。早期移动机器人主要代替人们解决现实问题,近年来,随着人工智能的普及和发展,移动机器人逐渐向更加智能的自学习、自控制方向发展,代替人类完成更加复杂的、不确定性的任务具有重要意义。
为了使得机器人更加智能,研究者们受生物学的启发,试图将生物的情感复制的到机器人身上,使得它们在面对学习任务时也同样具有生物类似的反应,从而达到智能水平。其中好奇心作为情感之一,促进学习的作用尤为突出。
基于以上背景,本发明以强化学习为框架,提出一种具有好奇心的迷宫机器人自主导航方法并设计了其学习算法,使得机器人在探索迷宫的过程中具有类似生物的探索过程。使得强化学习效率得到了提高。相关的专利如申请号CN201911001136.3提出了一种基于强化学习的移动机器人路径规划方法,其对改进后的A*方法进行预训练,并设置以路径长度为函数的强化学习奖励奖励函数,其没有涉及好奇心算法。申请号202110837144.2根据移动机器人的运动约束条件,利用RRT*算法生成多条可行路径,然后利用转弯特性函数计算每一可行路径的路径时间代价,并选取路径时间代价最小的可行路径作为移动机器人的规划路径。
2018年2019年北京理工大学的张家辉教授提出了一种基于好奇心的移动机器人路径规划方法,旨在用一种心理能量函数来指导机器人在导航任务中的学习方向。荷兰特文特大学的N.Botteghi提出了一个强化学习框架来导航、探索和映射未知环境。其运用SLAM算法估计机器人的姿态并绘制环境地图。引入好心驱动的奖励功能,引导移动机器人走向环境中未知的区域。
本发明使用强化学习为数学模型,动作选择上采用基于好奇心的内在奖励机制,能够学习到最优策略的同时有效的提高系统学习效率。目前,尚未见到与本发明相似的专利记录。
发明内容
本发明涉及一种基于强化学习和好奇心的迷宫机器人路径规划方法,属于移动机器人技术领域。
一、强化学习
采用Q-learning,将节点作为状态,即S={Nk|k=1,2,3…n}。奖励设置如下:
Figure BDA0003604491960000021
其中,rc为好奇心内在奖励;r为强化学习奖励。可选动作指相对于移动机器人第一次到达某一节点时,除回退动作之外的动作为可选动作。即,当下一节点无法转移到另一新节点,而只可回退到上一节点时,强化学习奖励r=-100。
动作A={a|ii=1,2,3…p},分别为将机器人正面朝向转到地图的东,西,南,北方向。
其中,Q值更新公式如下:
Q(Nk,ai)=(1-α)Q(Nk,ai)+α[r+maxQ(Nk+1,a′)]
其中,Nk为某一节点;ai为当前节点下所执行的动作;Q(Nk,ai)为节点Nk下的动作ai的Q值;α为学习率设置为0.8。r为获得的强化学习奖励;Nk+1为下一节点,maxQ(Nk+1,a′)为下一节点中的各个动作的最大Q值;a′为下一节点最大Q值的动作。
二、好奇心算法
分为三个部分:
1、前向网络
采用BP网络,设有3个隐含层,输入层神经元数量为2个,3个隐含层神经元数量均为33个,输出层神经元数量为5个,每一层的激活函数均为logistic函数。BP网络权值初始化为[0,1]随机数值。其输入为两个值分别为节点以及动作,即[Nk,ai];输出为
Figure BDA0003604491960000031
五个值,即下一节点以及下一节点各个方向可通行情况,可通行数值接近1,不可通行为数值接近0。其损失函数如下:
Figure BDA0003604491960000032
其中,其中
Figure BDA0003604491960000033
为联想记忆网络输出y′中的值其物理含义与BP网络输出相同。
2、联想记忆网络
联想记忆网络,用来记录在某一节点下选择某一动作所对应的下一节点以及下一节点的可通行情况。网络只有一层输入和一层输出,没有隐含层。
输入为1×m的矩阵,
Figure BDA0003604491960000034
其中m=n×p,n,p分别为节点个数和动作数。输入矩阵包含节点Nk以及动作ai信息,其中节点Nk由矩阵中的某p列表示。而在表示Nk的p列元素中,自左向右数第i个元素为1,且只有1个元素为1,用来表示动作ai
由[Nk,ai]编码为
Figure BDA0003604491960000035
的公式如下:
j=p×(Nk-1)+ai
根据上述公式得到第j列元素为1,进而得到编码后的
Figure BDA0003604491960000036
矩阵
Figure BDA0003604491960000037
中只有一个元素为1,其余均为0,第j列元素为1则Nk及ai表达式如下:
Figure BDA0003604491960000038
其中j为矩阵Mm的元素1所在列数;p为动作数。
输出为5个值,下一节点和移动机器人到达下一节点的四个方向的情况,即
Figure BDA0003604491960000041
其中N′k+1为下一节点,
Figure BDA0003604491960000042
为下一节点各个方向可通行情况,可通行为数值1,不可通行为数值0。在进行动作选择时,仅选取当前节点数值为1的方向并执行动作。方向
Figure BDA0003604491960000043
和动作[a1,a2,a3,a4]是一一对应的。
联想记忆网络的初始权值Wlm为l×m的0矩阵,权值矩阵更新公式如下:
Figure BDA0003604491960000044
其中y′为联想记忆网络的输出矩阵,
Figure BDA0003604491960000045
为联想记忆网络的输入矩阵。
3、内部奖励
内部奖励设置为前向网络和联想记忆网络的输出误差。好奇心奖励函数与损失函数计算过程相同。
Figure BDA0003604491960000046
rc表示动作ai的好奇心奖励。有效的好奇心奖励才会被运用,好奇心奖励有效性判别与某一节点的好奇度
Figure BDA0003604491960000047
有关,好奇度公式如下:
Figure BDA0003604491960000048
Figure BDA0003604491960000049
其中
Figure BDA00036044919600000410
为智能体在节点Nk传感器所检测到的四个方向的可通行情况,方向可通行则数值为1,方向有障碍物不可行则数值为0。maxQ(Nk+1,a)为节点Nk下的各个动作Q值的最大Q值;rc表示动作ai的好奇心奖励。
Figure BDA00036044919600000411
时,此节点的好奇度下降,此时动作的好奇心值记为无效。
三、回溯强化
当智能体到达目的地时,则探索结束。智能体根据联想记忆从终点出发,进行推理回溯,每个节点和相应的动作都不是得到相同的强化,而是按顺序递减。进行回溯强化时Q值更新公式如下:
Q(Nk,ai)=(1-α)Q(Nk,ai)+αmaxQ(Nk+1,a′)
按顺序递减的好处就是可以将各个节点与终点距离的不同区分开来,距离目的地近的根据公式将得到更多强化,进而得到最优策略。
本发明所述模型的学习过程如图1所示,包括以下步骤:
步骤1:对系统进行初始化,随机化前向网络权值矩阵,归零联想记忆网络权值矩阵;
步骤2:感知移动机器人所在节点以及各个方向可通行情况;
步骤3:判断当前可选动作;
步骤4:根据更新公式计算Q值;
步骤5:分别计算当前可选动作的好奇心奖励rc
步骤6:判断好奇心奖励rc是否有效;
步骤7:当无有效好奇心奖励时,选择Q值大的动作,存在有效好奇心奖励时选择好奇心奖励rc最大的动作;
步骤8:实施选定的动作,状态发生转移;
步骤9:判断是否到达出口,否则转向步骤2。
步骤10:进行回溯强化。
步骤11:判断是否存在好奇度大于1的节点,若存在,则进行迭代学习,并重复步骤2-11,否则结束程序。
与现有技术相比,本发明的优点在于:首先使用学习自动机为感知运动系统认知过程提供了一种形式化的数学模型,具有普适性,泛化能力强;其次,算法中引入好奇心概念,设计了具有主动学习环境的内发动机机制,提高了系统的自学习能力及其稳定性的同时,有效的减少了重复探索。
附图说明
图1为本发明所涉及的学习流程图;
图2为迷宫实验及移动机器人图;
图3为移动机器人学习过程图;
图4为移动机器人学习结果图;
图5为移动机器人从地图不同位置导航到出口路线图;
具体实施方式
下面结合附图和具体实施方式对本发明作进一步说明。
迷宫环境的搭建是采用V-rep软件,迷宫采用走廊式,并设有24个节点。移动机器人需要做出动作的地方即设置为一个节点。移动机器人采用辆轮式,并额外有一个辅助轮,它有三个距离传感器,分别位于其自身的左右两侧和前方。距离传感器的检测范围为0.7米。
V-rep可以检索一个对象的方向(欧拉角)。该值可以通过V-rep和Python的API接口获取。因此,可以知道之前传感器的欧拉值,并确定迷宫机器人的方向。
迷宫机器人能走直线有两个原因。
一种是,当迷宫机器人做出一个动作时,它默认沿着当前方向行走;
二是迷宫机器人的前面有一个红外距离传感器,可以保证它在行走的时候不会撞到墙。
实验1:移动机器人基本学习过程
我们在V-Rep中设计了一个路径宽度为60cm的迷宫,如图2所示。节点设置在每个需要操作的地方。学习率设置为α=0.8。迷宫从1号节点开始。目的地为节点21。我们进行了一个涉及三个学习的模拟。为了防止历史或无用的经验从影响训练,最大Q值设置为100。如图3左侧所示,这是本次仿真的第一次学习。在第一次学习中,由于没有节点信息,所以当迷宫机器人遇到节点10、11时,根据好奇心预测的值的大小,进行动作选择。我们可以看到做出的动作都是a2。同样的情况也发生在节点15以及节点19处。
在第二次学习中,机器人到达节点12时,根据好好奇心计算出来的数值,做出了动作a2,因为迷宫机器人在之前的学习中已经探索了动作a1。所以a2的好奇值大于a1的好奇心值。同理,当迷宫机器人到达节点13时,选择好奇值较高的动作a4。然后,当到达节点4时,根据好奇心算法进行动作选择。接下来,当迷宫机器人遇到节点6时,传感器检测到没有可选动作,所以直接进行回溯动作a4,返回节点4。迷宫机器人根据好奇算法,选择好奇值最大的动作,即动作a3。选择a3后的探索过程与上面相同。同样,迷宫机器人将返回节点4。
在这里,迷宫机器人在节点4处已经探索所有可行方向的动作,节点4的好奇度降Fk c降低。此时,迷宫机器人通过选择Q值最大的动作a2退出节点4,然后回到节点13。然后迷宫机器人在节点13处选择Q值最高的可选动作a1继续探索。在节点15,迷宫机器人的选择为a3。然后通过节点16和节点18来到节点19。在节点19,迷宫机器人并没有做出动作a3,是因为好奇心算法的联想记忆模块的输出直接提供了在节点19进行动作a3后到达下一节点的信息,算法直接根据这一信息进行好奇心值的计算。从而避免了重复探索。随后根据算法,选择Q值最大的动作a2。在这个过程中,带有联想记忆网络的好奇心算法起到了很大的作用。然后迷宫机器人通过节点19,节点20,到达迷宫出口。
最后的实验结果图中,可以看到,迷宫机器人已经学习到了该迷宫的最短路径策略。
实验2:移动机器人从地图不同位置导航到出口路线图
图5为迷宫机器人从节点6开始的学习结果。我们可以看到迷宫机器人可以很好地找到出口。当迷宫机器人从节点23出发时,也可以到达目的地。

Claims (1)

1.一种基于强化学习和好奇心的迷宫机器人路径规划方法,其特征在于包括:
(1)强化学习
采用Q-learning,将节点作为状态,即S={Nk|k=1,2,3…n};奖励设置如下:
Figure FDA0003604491950000011
其中,rc为好奇心内在奖励;r为强化学习奖励;可选动作指相对于移动机器人第一次到达某一节点时,除回退动作之外的动作为可选动作;即,当下一节点无法转移到另一新节点,而只可回退到上一节点时,强化学习奖励r=-100;
动作A={ai|i=1,2,3…p},分别为将机器人正面朝向转到地图的东,西,南,北方向;其中,Q值更新公式如下:
Q(Nk,ai)=(1-α)Q(Nk,ai)+α[r+maxQ(Nk+1,a′)]
其中,Nk为某一节点;ai为当前节点下所执行的动作;Q(Nk,ai)为节点Nk下的动作ai的Q值;α为学习率设置为0.8;r为获得的强化学习奖励;Nk+1为下一节点,maxQ(Nk+1,a′)为下一节点中的各个动作的最大Q值;a′为下一节点最大Q值的动作;
(2)好奇心算法:
1、前向网络
采用BP网络,设有3个隐含层,输入层神经元数量为2个,3个隐含层神经元数量均为33个,输出层神经元数量为5个,每一层的激活函数均为logistic函数;BP网络的权值初始化为[0,1]随机数值;其输入为两个值分别为节点以及动作,即[Nk,ai];输出为
Figure FDA0003604491950000012
五个值,即下一节点以及下一节点各个方向可通行情况,可通行数值接近1,不可通行为数值接近0;其损失函数如下:
Figure FDA0003604491950000021
其中,其中
Figure FDA0003604491950000022
为联想记忆网络输出y′中的值其物理含义与BP网络输出相同;
2、联想记忆网络
联想记忆网络,用来记录在某一节点下选择某一动作所对应的下一节点以及下一节点的可通行情况;网络只有一层输入和一层输出,没有隐含层;
输入为1×m的矩阵,
Figure FDA0003604491950000023
其中m=n×p,n,p分别为节点个数和动作数;输入矩阵包含节点Nk以及动作ai信息,其中节点Nk由矩阵中的某p列表示;而在表示Nk的p列元素中,自左向右数第i个元素为1,且只有1个元素为1,用来表示动作ai
由[Nk,ai]编码为
Figure FDA0003604491950000024
的公式如下:
j=p×(Nk-1)+ai
根据上述公式得到第j列元素为1,进而得到编码后的
Figure FDA0003604491950000025
矩阵
Figure FDA0003604491950000026
中只有一个元素为1,其余均为0,第j列元素为1则Nk及ai表达式如下:
Figure FDA0003604491950000027
其中j为矩阵Mm的元素1所在列数;p为动作数;
输出为5个值,下一节点和移动机器人到达下一节点的四个方向的情况,即
Figure FDA0003604491950000028
其中N′k+1为下一节点,
Figure FDA0003604491950000029
为下一节点各个方向可通行情况,可通行为数值1,不可通行为数值0;在进行动作选择时,仅选取当前节点数值为1的方向并执行动作;方向
Figure FDA0003604491950000031
和动作[a1,a2,a3,a4]是一一对应的;
联想记忆网络的初始权值Wlm为l×m的0矩阵,权值矩阵更新公式如下:
Figure FDA0003604491950000032
其中y′为联想记忆网络的输出矩阵,
Figure FDA0003604491950000033
为联想记忆网络的输入矩阵;
3、内部奖励
内部奖励设置为前向网络和联想记忆网络的输出误差;好奇心奖励函数与损失函数计算过程相同;
Figure FDA0003604491950000034
rc表示动作ai的好奇心奖励;有效的好奇心奖励才会被运用,好奇心奖励有效性判别与某一节点的好奇度
Figure FDA0003604491950000035
有关,好奇度公式如下:
Figure FDA0003604491950000036
Figure FDA0003604491950000037
其中
Figure FDA0003604491950000038
为智能体在节点Nk传感器所检测到的四个方向的可通行情况,方向可通行则数值为1,方向有障碍物不可行则数值为0;maxQ(Nk+1,a)为节点Nk下的各个动作Q值的最大Q值;rc表示动作ai的好奇心奖励;
Figure FDA0003604491950000039
时,此节点的好奇度下降,此时动作的好奇心值记为无效;
(3)回溯强化
当智能体到达目的地时,则本轮探索结束;智能体根据联想记忆从终点出发,进行推理回溯,每个节点和相应的动作都不是得到相同的强化,而是按顺序递减;进行回溯强化时Q值更新公式如下:
Q(Nk,ai)=(1-α)Q(Nk,ai)+αmaxQ(Nk+1,a′)
当连续两次进行回溯强化时,不存在好奇度大于1的节点,则不再进行迭代学习,程序结束。
CN202210412829.7A 2022-04-19 一种基于强化学习和好奇心的迷宫机器人路径规划方法 Active CN114721397B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210412829.7A CN114721397B (zh) 2022-04-19 一种基于强化学习和好奇心的迷宫机器人路径规划方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210412829.7A CN114721397B (zh) 2022-04-19 一种基于强化学习和好奇心的迷宫机器人路径规划方法

Publications (2)

Publication Number Publication Date
CN114721397A true CN114721397A (zh) 2022-07-08
CN114721397B CN114721397B (zh) 2024-05-31

Family

ID=

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115242271A (zh) * 2022-07-27 2022-10-25 南京邮电大学 一种强化学习辅助的大规模MIMO的Damped-BP检测方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105137967A (zh) * 2015-07-16 2015-12-09 北京工业大学 一种深度自动编码器与q学习算法相结合的移动机器人路径规划方法
US20200364580A1 (en) * 2019-05-16 2020-11-19 Salesforce.Com, Inc. Learning World Graphs to Accelerate Hierarchical Reinforcement Learning
JP2021034050A (ja) * 2019-08-21 2021-03-01 哈爾浜工程大学 強化学習に基づくauv行動計画及び動作制御方法
CN113110509A (zh) * 2021-05-17 2021-07-13 哈尔滨工业大学(深圳) 一种基于深度强化学习的仓储系统多机器人路径规划方法
CN113156940A (zh) * 2021-03-03 2021-07-23 河北工业职业技术学院 基于好奇心-贪婪奖励函数的机器人路径规划的方法
US20210325894A1 (en) * 2018-09-14 2021-10-21 Google Llc Deep reinforcement learning-based techniques for end to end robot navigation
CN113885329A (zh) * 2021-10-20 2022-01-04 沈阳化工大学 一种基于深度强化学习的移动机器人路径规划方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105137967A (zh) * 2015-07-16 2015-12-09 北京工业大学 一种深度自动编码器与q学习算法相结合的移动机器人路径规划方法
US20210325894A1 (en) * 2018-09-14 2021-10-21 Google Llc Deep reinforcement learning-based techniques for end to end robot navigation
US20200364580A1 (en) * 2019-05-16 2020-11-19 Salesforce.Com, Inc. Learning World Graphs to Accelerate Hierarchical Reinforcement Learning
JP2021034050A (ja) * 2019-08-21 2021-03-01 哈爾浜工程大学 強化学習に基づくauv行動計画及び動作制御方法
CN113156940A (zh) * 2021-03-03 2021-07-23 河北工业职业技术学院 基于好奇心-贪婪奖励函数的机器人路径规划的方法
CN113110509A (zh) * 2021-05-17 2021-07-13 哈尔滨工业大学(深圳) 一种基于深度强化学习的仓储系统多机器人路径规划方法
CN113885329A (zh) * 2021-10-20 2022-01-04 沈阳化工大学 一种基于深度强化学习的移动机器人路径规划方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
任红格;向迎帆;李福进;刘伟民;: "基于内在动机的强化学习算法在两轮机器人中的研究", 计算机测量与控制, no. 09, 25 September 2015 (2015-09-25) *
张晓平;阮晓钢;肖尧;谢瓦达哈;柴洁;: "基于内发动机机制的移动机器人自主路径规划方法", 控制与决策, no. 09, 19 December 2017 (2017-12-19) *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115242271A (zh) * 2022-07-27 2022-10-25 南京邮电大学 一种强化学习辅助的大规模MIMO的Damped-BP检测方法
CN115242271B (zh) * 2022-07-27 2023-06-16 南京邮电大学 一种强化学习辅助的大规模MIMO的Damped-BP检测方法

Similar Documents

Publication Publication Date Title
Gul et al. A comprehensive study for robot navigation techniques
Mac et al. Heuristic approaches in robot path planning: A survey
Xie et al. Unmanned aerial vehicle path planning algorithm based on deep reinforcement learning in large-scale and dynamic environments
Singh et al. Path optimisation of a mobile robot using an artificial neural network controller
Mohanty et al. A new hybrid optimization algorithm for multiple mobile robots navigation based on the CS-ANFIS approach
Dumitrescu et al. Fuzzy logic for intelligent control system using soft computing applications
Xie et al. Learning with stochastic guidance for robot navigation
Elmi et al. Online path planning of mobile robot using grasshopper algorithm in a dynamic and unknown environment
Guo et al. A fusion method of local path planning for mobile robots based on LSTM neural network and reinforcement learning
Mohanty et al. A new hybrid intelligent path planner for mobile robot navigation based on adaptive neuro-fuzzy inference system
CN116147627A (zh) 一种结合深度强化学习和内在动机的移动机器人自主导航方法
Balan et al. Optimal trajectory planning for multiple waypoint path planning using tabu search
Wang et al. Research on dynamic path planning of wheeled robot based on deep reinforcement learning on the slope ground
Trullier et al. Biomimetic navigation models and strategies in animats
Lou et al. Path planning in an unknown environment based on deep reinforcement learning with prior knowledge
Zhao Optimal path planning for robot based on ant colony algorithm
Chen et al. Deep reinforcement learning-based robot exploration for constructing map of unknown environment
Xing et al. Robot path planner based on deep reinforcement learning and the seeker optimization algorithm
CN114721397B (zh) 一种基于强化学习和好奇心的迷宫机器人路径规划方法
CN114721397A (zh) 一种基于强化学习和好奇心的迷宫机器人路径规划方法
Mohanty et al. A new intelligent approach for mobile robot navigation
Lee et al. Smart robot wall-following control using a sonar behavior-based fuzzy controller in unknown environments
Botteghi et al. Curiosity-driven reinforcement learning agent for mapping unknown indoor environments
CN114396949B (zh) 一种基于ddpg的移动机器人无先验地图导航决策方法
Patle Intelligent navigational strategies for multiple wheeled mobile robots using artificial hybrid methodologies

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant