CN110632922B - 一种基于蝙蝠算法与强化学习的路径规划方法 - Google Patents

一种基于蝙蝠算法与强化学习的路径规划方法 Download PDF

Info

Publication number
CN110632922B
CN110632922B CN201910854519.9A CN201910854519A CN110632922B CN 110632922 B CN110632922 B CN 110632922B CN 201910854519 A CN201910854519 A CN 201910854519A CN 110632922 B CN110632922 B CN 110632922B
Authority
CN
China
Prior art keywords
bat
state
optimal
algorithm
action
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910854519.9A
Other languages
English (en)
Other versions
CN110632922A (zh
Inventor
邱腾飞
朱敬旭辉
刘信潮
赵景波
张文彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qingdao University of Technology
Original Assignee
Qingdao University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qingdao University of Technology filed Critical Qingdao University of Technology
Priority to CN201910854519.9A priority Critical patent/CN110632922B/zh
Publication of CN110632922A publication Critical patent/CN110632922A/zh
Application granted granted Critical
Publication of CN110632922B publication Critical patent/CN110632922B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明属于智能机器人技术领域,具体涉及机器人的路径规划方法。基于蝙蝠算法与强化学习的路径规划方法,包括:确定路径规划的初始位置和目标位置,采用适应度函数确定两位置的函数值,根据蝙蝠算法得到蝙蝠的初始状态和最终状态;以<α,γ>为强化学习的动作,从蝙蝠的初始状态开始,对所述动作进行强化学习训练,使每一个状态得到一个最优动作,将训练得到的状态‑动作对保存到Q表中;所述<α,γ>为蝙蝠算法的响度衰减系数α和脉冲发射率增强系数γ的组合;从Q表中选取最优的状态‑动作对,代入蝙蝠算法中,得到最优的蝙蝠位置;从而规划出初始位置到目标位置的最优路径。本发明的基于蝙蝠算法与强化学习的路径规划方法,将蝙蝠算法和强化学习相结合,确保在规避障碍物的前提下更加有效、快速的实现智能机器人路径自主规划。

Description

一种基于蝙蝠算法与强化学习的路径规划方法
技术领域
本发明属于智能机器人技术领域,具体涉及机器人的路径规划方法。
背景技术
移动机器人是靠自身动力和控制能力来实现各种功能的一种机器,具有通用性和智能性的特点。工业机器人被逐步应用于实际的工业生产中,代替工人进行各种操作任务,如搬运、焊接、装配等,将工人从繁琐重复的工作中解放出来。由于工业机器人的批量使用,使生产流程工序自动化、简洁化,显著降低了生产成本,提高了生产利润。
随着机器人的应用领域不断扩大,作业环境日益复杂化,机器人的自主导航成为亟待解决的首要问题。机器人的自主导航主要分为两方面技术:机器人路径规划和路径跟踪。
路径规划问题是寻找一条从初始位姿到最终位姿的路径,并满足最优,使得移动安保巡逻机器人在通过路径时不与任何静止或动态障碍物发生碰撞,这是移动机器人最基本的条件。也就是说,做好路径规划应从这3个方面出发:(1)明确起始位置及终点;(2)避开障碍物;(3)尽可能做到路径上的优化。一般的连续域范围内路径规划问题,其一般步骤主要包括环境建模、路径搜索和路径平滑三个环节。传统的路径规划算法有人工势场法、模拟退火算法、模糊逻辑算法和禁忌搜索算法等。这些传统的路径规划算法在某种程度上收敛速度慢,在概率上完备但并不完美。
专利CN201310488139是一种纯路径规划类的算法,该算法是A*算法的改进,主要针对open表中节点多、耗时多的问题进行改进,主要应用与机器人二维三维空间的快速路径规划。该专利主要从路径规划方向出发,所以得出的路径有可能离障碍物很近,从而对于实际半径宽度的机器人可能在行走的过程中就会触碰障碍物,导致行走受阻。专利CN201510028275是一种采用加入淘汰机制的鱼群算法针对具有神经网络结构的控制器对移动机器人进行控制,并凭借神经网络的泛化性能来学习到避障和目的地的行为的算法。该算法基于机器学习理论。但学习的过程是一个训练的过程,且需要很多的数据进行测试。
针对目前已有的研究,解决实际问题时,在机器人路径规划的合理性、避障的可靠性和路径跟踪控制的实时性、准确性等方面还存在较大的提升空间。
发明内容
本发明目的在于解决现有技术中存在的问题,提供基于蝙蝠算法和强化学习相结合的机器人自主路径规划算法。
本发明解决其技术问题采用的技术手段是:基于蝙蝠算法与强化学习的路径规划方法,包括:
确定路径规划的初始位置和目标位置,采用适应度函数确定两位置的函数值,根据蝙蝠算法得到蝙蝠的初始状态和最终状态;
以<α,γ>为强化学习的动作,从蝙蝠的初始状态开始,对所述动作进行强化学习训练,使每一个状态得到一个最优动作,将训练得到的状态-动作对保存到Q表中;所述<α,γ>为蝙蝠算法的响度衰减系数α和脉冲发射率增强系数γ的组合;
从Q表中选取最优的状态-动作对,代入蝙蝠算法中,得到最优的蝙蝠位置;从而规划出初始位置到目标位置的最优路径。
作为本发明的一种优选方式,所述蝙蝠的初始状态和最终状态的算法过程为:
Step 1:种群初始化;
Step 2:初始化蝙蝠的位置xi,并根据适应度函数值的优劣寻找当前最优解x*
Step 3:开始主循环,生成均匀分布的随机数rand,
若rand<ri,则按照下列公式分别更新蝙蝠的频率、速度和位置;
fi=fmin+(fmax-fmin)β, (4)
Figure GDA0003590610370000021
Figure GDA0003590610370000022
其中:
β:β∈[0,1]是均匀分布的随机数。
fi:第i只蝙蝠的搜索脉冲频率,fi∈[fmin,fmax];
Figure GDA0003590610370000023
分别表示第t代和第t-1代第i只蝙蝠的速度。
Figure GDA0003590610370000024
分别表示第t代和第t-1代第i只蝙蝠的状态。
x*:当前所有蝙蝠的最优状态;
若rand≥ri,则根据公式(4)进行局部搜索,产生一个新解xnew,并对该解进行越界处理;
xnew=xold+∈Lt, (7)
其中:
ε∈[-1,1],是均匀分布的随机数;Lt是第t代所有蝙蝠响度的平均值;xold是当前最优个体;xnew是经局部搜索后产生的新个体;
Step 4:生成均匀分布的随机数rand,若rand<Li且fit(xnew)<fit(x*),则接受Step 3产生的新解xnew,将蝙蝠位置进行更新,同时根据公式(5)和公式(6)对脉冲响度和脉冲发射率进行调整;
Figure GDA0003590610370000031
Figure GDA0003590610370000032
其中:
α称为响度衰减系数,γ称为脉冲发射率增强系数;对于任意的0<α<1和γ>0,当迭代次数t→+∞时,响度
Figure GDA0003590610370000033
脉冲发射率
Figure GDA0003590610370000034
Figure GDA0003590610370000037
是初始脉冲发射率;
Step 5:更新整个流程的最优解,判断是否到达终止条件,是则输出最优解,否则循环至Step 3。
作为本发明的进一步改进,所述的适应度函数为:
Figure GDA0003590610370000035
F=F1+penalty, (2)
Figure GDA0003590610370000036
其中:
(x,y):当前时刻t位置
(x′,y′):下一时刻t+1位置
(xg,yg):目标位置
F1:路径规划中下一时刻位置(x′,y′)与当前时刻位置(x,y)和目标位置(xg,yg)的欧式距离之和最小,即实现路径最短;
penalty:路径规划中不能接触环境中的障碍物(xi,yi),i∈{1,2,…n},其中n为障碍物的数量,否则添加一个大的惩罚项,即实现避障目标。
作为本发明的进一步改进,所述对动作进行强化学习训练的算法过程为:在动作集中选取最优动作进行即时奖励;所述即时奖励设置为连续迭代中相邻蝙蝠适应度值之间的差值,表达式为:
re(Ri(t),<α′,γ′>)=fit(Xi(t+1))-fit(Xi(t))=Ri(t+1)-Ri(t) (12)
其中:<α′,γ′>为在<α,β>集(动作集)中选取的最优动作;re(Ri(t),<α′,γ′>为<α′,γ′>作用于环境时得到即时奖励;X(t)定义为蝙蝠的位置,Xi(t)为当前蝙蝠的位置,Xi(t+1)为新蝙蝠的位置,即下一蝙蝠的位置;R(t)定义为强化学习的状态,即蝙蝠在位置X(t)时的适应度函数值,Ri(t)为当前状态,Ri(t+1)为下一状态;
通过公式(11)不断更新Q(Ri(t),<α′,γ′>),得到最优状态-动作对Q表:
Figure GDA0003590610370000041
其中:Q(st,at):智能体在环境状态为st时采取动作at后所能获得的最优奖赏折扣之和;
re(st,at):即时奖励;η是折扣因子;μ是学习率,控制着学习速度,在一定取值范围内,μ越大则收敛越快。
本发明的基于蝙蝠算法与强化学习的路径规划方法,将蝙蝠算法和强化学习相结合,确保在规避障碍物的前提下更加有效、快速的实现智能机器人路径自主规划。
附图说明
图1是根据本发明实施例的强化学习基本原理图;
图2是根据本发明实施例的QBA思想框图;
图3是根据本发明实施例的QBA流程图;
图4是根据本发明实施例的基于QBA的路径规划流程图。
具体实施方式
下面结合附图和实施例对本发明的基于蝙蝠算法与强化学习的路径规划方法的原理、步骤、流程做出详细的阐述和介绍,以使本领域技术人员更好的理解本发明的技术思想和内涵,本发明的技术方案并不限于实施例所述的具体内容。
实施例 本实施例的基于蝙蝠算法与强化学习的路径规划方法,流程如图4所示,具体包括:
一、确定路径规划的初始位置和目标位置,采用适应度函数确定两位置的函数值,搭建蝙蝠算法模型,计算得到蝙蝠的初始状态和最终状态
适应度函数的设计综合考虑了路径长度和避障两方面目标,其数学表述如式(1)-(3)所示:
Figure GDA0003590610370000051
F=F1+Penalty, (2)
Figure GDA0003590610370000052
其中:
(x,y):当前时刻t位置
(x′,y′):下一时刻t+1位置
(xg,yg):目标位置
F1:路径规划中下一时刻位置(x′,y′)与当前时刻位置(x,y)和目标位置(xg,yg)的欧式距离之和最小,即实现路径最短;
penalty:路径规划中不能接触环境中的障碍物(xi,yi),i∈{1,2,…n},其中为障碍物的数量,否则添加一个大的惩罚项,即实现避障目标。
每只蝙蝠都被视为“无质量、无大小”的粒子,分别代表着解空间中的一个可行解。对于不同的适应度函数,每只蝙蝠都有对应的函数值,通过比较各个函数值的大小确定当前最优个体。据此更新种群中各蝙蝠的速度、频率、响度和脉冲发射率,反复迭代进化,逼近并产生当前最优解,最终找到全局最优解。
蝙蝠在位置xi以速度vi随机飞行,它们可以自动调整发出脉冲的频率f,并依据目标的接近程度调整脉冲发射率r∈[0,1]。在蝙蝠算法中,假设响度L从一个最大值L0变化到固定最小值Lmin。算法中每只蝙蝠的频率、速度和位置更新公式如下:
fi=fmin+(fmax-fmin)β, (4)
Figure GDA0003590610370000053
Figure GDA0003590610370000054
其中:β:β∈[0,1]是均匀分布的随机数。
fi:第i只蝙蝠的搜索脉冲频率,fi∈[fmin,fmax];
Figure GDA0003590610370000055
分别表示第t代和第t-1代第i只蝙蝠的速度。
Figure GDA0003590610370000056
分别表示第t代和第t-1代第i只蝙蝠的位置。
x*:当前所有蝙蝠的最优位置。
蝙蝠一旦找到猎物,就会在当前最优个体附近使用局部搜索策略。此时由生成的均匀分布随机数rand作为判断阈值,如果rand>ri(第i只蝙蝠的脉冲发射率),则进行局部搜索,否则,则进行全局搜索。局部搜索的位置更新公式为:
xnew=xold+∈Lt, (7)
其中:∈∈[-1,1]是均匀分布的随机数;Lt是第t代所有蝙蝠响度的平均值;xold是当前最优个体;xnew是经局部搜索后产生的新个体。
蝙蝠在接近猎物的过程中,随着迭代次数的增加,响度Lt会逐渐降低,同时,脉冲发射率ri会逐渐增大,其更新公式如下:
Figure GDA0003590610370000061
Figure GDA0003590610370000062
其中:α称为响度衰减系数,γ称为脉冲发射率增强系数。对于任意的0<α<1和γ>0,当迭代次数t→+∞时,响度
Figure GDA0003590610370000063
脉冲发射率
Figure GDA0003590610370000064
Figure GDA0003590610370000066
是初始脉冲发射率。
响度衰减系数α和脉冲发射率增强系数γ对算法性能的影响非常大。
二、采用强化学习算法对蝙蝠算法进行训练
强化学习算法的基本原理如图1所示,随机初始化Q(s,a)值,在环境状态st条件下,智能体根据一定的探索策略给出动作at,得到经验知识的状态动作对<st,at,st+1,re(st,at)>。
用此经验知识根据迭代公式更新Q值;在新的环境状态st+1下,继续按此方式循环直至达到目标状态。
在一定条件下,Q学习算法只需要使用贪婪策略即可保证收敛。贪婪策略即每次都选择Q(s,a)最大的动作,贪婪策略的优点是算法简单,容易实现和理解,表达式如下:
a=argmaxaQ(s,a)。 (10)
Q学习算法采用策略π的经验知识更新动作值函数估计Q(s,a),并在不断的“试错”过程中发现最优策略π*。其Q值迭代表达式如下:
Figure GDA0003590610370000065
其中:Q(st,at):智能体在环境状态为st时采取动作at后所能获得的最优奖赏折扣之和;
re(st,at):即时奖励;η是折扣因子;μ是学习率,控制着学习速度,在一定取值范围内,μ越大则收敛越快。
在蝙蝠算法中,优化结果的好坏由响度衰减系数α和脉冲发射率增强系数γ决定。强化学习与蝙蝠算法相结合的QBA来获取最优的<α,γ>组合以提高蝙蝠算法的寻优效果。
图2中,<α,γ>集为蝙蝠算法的响度衰减系数α和脉冲发射率增强系数γ的任意值组合,定义每个<α,γ>组合为强化学习的一个动作;X(t)定义为蝙蝠的位置,Xi(t)为当前蝙蝠的位置,Xi(t+1)为新蝙蝠的位置,即下一蝙蝠的位置;R(t)定义为强化学习的状态,即蝙蝠在位置X(t)时的适应度函数值,Ri(t)为当前状态,Ri(t+1)为下一状态。
QBA可以描述为通过式(10)即贪婪策略在<α,γ>集(动作集)中选取最优动作<α′,γ′>。<α′,γ′>作用于环境会得到即时奖励re(Ri(t),<α′,γ′>),即时奖励re(Ri(t),<α′,γ′>)设置为连续迭代中相邻蝙蝠适应度值之间的差值,表达式如下:
re(Ri(t),<α′,γ′>)=fit(Xi(t+1))-fit(Xi(t))=Ri(t+1)-Ri(t) (12)
<α′,γ′>用于蝙蝠算法可以获得新的蝙蝠位置Xi(t+1),并求得新状态Ri(t+1)的Q值。最后,通过公式(10)对Q(Ri(t),<α′,γ′>)进行更新。
在QBA中,对于每一个状态都有一个对应的最优动作<α,γ>产生以获得最大累积奖赏值,并将训练得到的状态-动作对保存在Q表中。即采用强化学习算法对蝙蝠算法中的<α,γ>参数进行训练,并将结果保存在数据集中,如图3所示。
三、训练完成后,从Q表中选用最优的<α,γ>组合代入蝙蝠算法中,得到最优的蝙蝠位置,以此进行路径规划任务,从而减少了搜索最优的时间,并且可以完成最短路径的规划。

Claims (1)

1.基于蝙蝠算法与强化学习的路径规划方法,其特征在于,包括:
确定路径规划的初始位置和目标位置,采用适应度函数确定两位置的函数值,根据蝙蝠算法得到蝙蝠的初始状态和最终状态;
以<α,γ>为强化学习的动作,从蝙蝠的初始状态开始,对所述动作进行强化学习训练,使每一个状态得到一个最优动作,将训练得到的状态-动作对保存到Q表中;所述<α,γ>为蝙蝠算法的响度衰减系数α和脉冲发射率增强系数γ的组合;
从Q表中选取最优的状态-动作对,代入蝙蝠算法中,得到最优的蝙蝠位置;从而规划出初始位置到目标位置的最优路径;
所述蝙蝠的初始状态和最终状态的算法过程为:
Step 1:种群初始化;
Step 2:初始化蝙蝠的位置xi,并根据适应度函数值的优劣寻找当前最优解x*
Step 3:开始主循环,生成均匀分布的随机数rand,
若rand<ri,则按照下列公式分别更新蝙蝠的频率、速度和位置;
fi=fmin+(fmax-fmin)β, (4)
Figure FDA0003590610360000011
Figure FDA0003590610360000012
其中:
β:β∈[0,1]是均匀分布的随机数;
fi:第i只蝙蝠的搜索脉冲频率,fi∈[fmin,fmax];
Figure FDA0003590610360000013
分别表示第t代和第t-1代第i只蝙蝠的速度;
Figure FDA0003590610360000014
分别表示第t代和第t-1代第i只蝙蝠的状态;
x*:当前所有蝙蝠的最优状态;
若rand≥ri,则根据公式(4)进行局部搜索,产生一个新解xnew,并对该解进行越界处理;
xnew=xold+∈Lt, (7)
其中:
∈∈[-1,1],是均匀分布的随机数;Lt是第t代所有蝙蝠响度的平均值;xold是当前最优个体;xnew是经局部搜索后产生的新个体;
ri表示第i只蝙蝠的脉冲发射率;
Step 4:生成均匀分布的随机数rand,若rand<Li且fit(xnew)<fit(x*),则接受Step 3产生的新解xnew,将蝙蝠位置进行更新,同时根据公式(5)和公式(6)对脉冲响度和脉冲发射率进行调整;
Figure FDA0003590610360000021
Figure FDA0003590610360000022
其中:
α称为响度衰减系数,γ称为脉冲发射率增强系数;对于任意的0<α<1和γ>0,当迭代次数t→+∞时,响度
Figure FDA0003590610360000023
脉冲发射率
Figure FDA0003590610360000024
Figure FDA0003590610360000025
是初始脉冲发射率;
Step 5:更新整个流程的最优解,判断是否到达终止条件,是则输出最优解,否则循环至Step 3;
所述的适应度函数为:
Figure FDA0003590610360000026
F=F1+penalty, (2)
Figure FDA0003590610360000027
其中:
(x,y):当前时刻t位置
(x,,y′):下一时刻t+1位置
(xg,yg):目标位置
F1:路径规划中下一时刻位置(x′,y′)与当前时刻位置(x,y)和目标位置(xg,yg)的欧式距离之和最小,即实现路径最短;
penalty:路径规划中不能接触环境中的障碍物(xi,yi),i∈{1,2,…n},其中n为障碍物的数量,否则添加一个大的惩罚项,即实现避障目标;
所述对动作进行强化学习训练的算法过程为:
在动作集中选取最优动作进行即时奖励;所述即时奖励设置为连续迭代中相邻蝙蝠适应度值之间的差值,表达式为:
re(Ri(t),<α′,γ′>)=fit(Xi(t+1))-fit(Xi(t))=Ri(t+1)-Ri(t) (12)
其中:<α′,γ′>为在<α,γ>集中选取的最优动作;re(Ri(t),<α,γ>)为<α,γ>作用于环境时得到的即时奖励;X(t)定义为蝙蝠的位置,Xi(t)为当前蝙蝠的位置,Xi(t+1)为新蝙蝠的位置,即下一蝙蝠的位置;R(t)定义为强化学习的状态,即蝙蝠在位置X(t)时的适应度函数值,Ri(t)为当前状态,Ri(t+1)为下一状态;
通过迭代公式(11)不断更新Q(Ri(t),<α′,γ′>),得到最优状态-动作对Q表:
Figure FDA0003590610360000031
其中:Q(st,at):智能体在环境状态为st时采取动作at后所能获得的最优奖赏折扣之和;
re(st,at):即时奖励;η是折扣因子;μ是学习率,控制着学习速度,在一定取值范围内,μ越大则收敛越快。
CN201910854519.9A 2019-09-10 2019-09-10 一种基于蝙蝠算法与强化学习的路径规划方法 Active CN110632922B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910854519.9A CN110632922B (zh) 2019-09-10 2019-09-10 一种基于蝙蝠算法与强化学习的路径规划方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910854519.9A CN110632922B (zh) 2019-09-10 2019-09-10 一种基于蝙蝠算法与强化学习的路径规划方法

Publications (2)

Publication Number Publication Date
CN110632922A CN110632922A (zh) 2019-12-31
CN110632922B true CN110632922B (zh) 2022-06-17

Family

ID=68972519

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910854519.9A Active CN110632922B (zh) 2019-09-10 2019-09-10 一种基于蝙蝠算法与强化学习的路径规划方法

Country Status (1)

Country Link
CN (1) CN110632922B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111103887B (zh) * 2020-01-14 2021-11-12 大连理工大学 一种基于多传感器的多移动机器人调度系统设计方法
CN111930121B (zh) * 2020-08-10 2022-10-25 哈尔滨工程大学 一种室内移动机器人的混合路径规划方法
CN111896006B (zh) * 2020-08-11 2022-10-04 燕山大学 一种基于强化学习和启发式搜索的路径规划方法及系统
CN112330001A (zh) * 2020-10-27 2021-02-05 河南大学 一种基于离散蝙蝠算法的物流配送车辆路径优化方法
CN112987742B (zh) * 2021-02-08 2022-08-26 扬州大学 一种机器人路径规划方法和规划系统
CN114895707B (zh) * 2022-05-13 2023-06-30 华南农业大学 基于变频蝙蝠算法的农业无人机路径规划方法及系统
CN117492473A (zh) * 2023-11-10 2024-02-02 清华大学深圳国际研究生院 基于cpg控制及q学习的软体机器人路径规划方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104406593A (zh) * 2014-12-03 2015-03-11 广西民族大学 一种确定无人机航路最优路径的方法
CN109144102A (zh) * 2018-09-19 2019-01-04 沈阳航空航天大学 一种基于改进蝙蝠算法的无人机航路规划方法
CN109742756A (zh) * 2019-01-30 2019-05-10 云南电网有限责任公司电力科学研究院 超导储能辅助pss抑制低频振荡的参数调整方法
WO2019094729A1 (en) * 2017-11-09 2019-05-16 Strong Force Iot Portfolio 2016, Llc Methods and systems for the industrial internet of things
CN109947132A (zh) * 2019-04-09 2019-06-28 浙江工业大学 基于rfid库存盘点的无人机三维路径规划方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104406593A (zh) * 2014-12-03 2015-03-11 广西民族大学 一种确定无人机航路最优路径的方法
WO2019094729A1 (en) * 2017-11-09 2019-05-16 Strong Force Iot Portfolio 2016, Llc Methods and systems for the industrial internet of things
CN109144102A (zh) * 2018-09-19 2019-01-04 沈阳航空航天大学 一种基于改进蝙蝠算法的无人机航路规划方法
CN109742756A (zh) * 2019-01-30 2019-05-10 云南电网有限责任公司电力科学研究院 超导储能辅助pss抑制低频振荡的参数调整方法
CN109947132A (zh) * 2019-04-09 2019-06-28 浙江工业大学 基于rfid库存盘点的无人机三维路径规划方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
An adaptive reinforcement learning-based bat algorithm for structural design problems;Meng xianbing etal;《INTERNATIONAL JOURNAL OF BIO-INSPIRED COMPUTATION》;20191231;第114-124页 *
Mengjia Li ; Xiujie Liu ; Renhui Li ; Ran Zheng ; Wenchao Zhao.Fault Diagnosis of Transformer Based on Chaotic Bats Algorithm Optimizing Fuzzy Petri Net.《2018 2nd IEEE Advanced Information Management,Communicates,Electronic and Automation Control Conference (IMCEC)》.2018, *
基于机器人群体避障学习的群智能算法的研究;范家琪;《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》;20190615;第I140-27页 *
适用于小型智能车的行驶路况评价及自主避障控制研究;吕丹丹;《中国优秀博硕士学位论文全文数据库(硕士)工程科技Ⅱ辑》;20160715;第C034-142页 *

Also Published As

Publication number Publication date
CN110632922A (zh) 2019-12-31

Similar Documents

Publication Publication Date Title
CN110632922B (zh) 一种基于蝙蝠算法与强化学习的路径规划方法
Jiang et al. Path planning for intelligent robots based on deep Q-learning with experience replay and heuristic knowledge
CN108133258B (zh) 一种混合全局优化方法
CN110378439B (zh) 基于Q-Learning算法的单机器人路径规划方法
Wu et al. Robot path planning based on artificial potential field with deterministic annealing
Gigras et al. Artificial intelligence in robot path planning
Di Mario et al. A comparison of PSO and reinforcement learning for multi-robot obstacle avoidance
Mohanty et al. Application of deep Q-learning for wheel mobile robot navigation
Bai et al. Design and Simulation of a Collision-free Path Planning Algorithm for Mobile Robots Based on Improved Ant Colony Optimization.
CN117970782B (zh) 一种基于鱼鳞进化gsom改进的模糊pid控制方法
Sood et al. Meta-heuristic techniques for path planning: recent trends and advancements
Khlif et al. Reinforcement learning with modified exploration strategy for mobile robot path planning
Gu et al. An improved Q-Learning algorithm for path planning in maze environments
Zhou et al. An indoor blind area-oriented autonomous robotic path planning approach using deep reinforcement learning
Zhou Optimal values selection of Q-learning Parameters in Stochastic Mazes
Anas et al. Comparison of deep Q-learning, Q-learning and SARSA reinforced learning for robot local navigation
Liu et al. Her-pdqn: A reinforcement learning approach for uav navigation with hybrid action spaces and sparse rewards
CN117471919A (zh) 一种基于改进鹈鹕优化算法的机器人路径规划方法
Zhou et al. Path planning of mobile robot in complex environment based on improved Q-learning algorithm
Duraisamy et al. Genetic Algorithm Optimized Grey-Box Modelling and Fuzzy Logic Controller for Tail-Actuated Robotic Fish
Salmanpour et al. Optimal path planning for mobile robot using Intelligent Water Drops algorithm
Yang et al. PMDRL: Pareto-front-based multi-objective deep reinforcement learning
Duo et al. A deep reinforcement learning based mapless navigation algorithm using continuous actions
Feng et al. Efficient Navigation of a Robotic Fish Swimming Across the Vortical Flow Field
Neumann et al. Efficient continuous-time reinforcement learning with adaptive state graphs

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant