CN110632922B - 一种基于蝙蝠算法与强化学习的路径规划方法 - Google Patents
一种基于蝙蝠算法与强化学习的路径规划方法 Download PDFInfo
- Publication number
- CN110632922B CN110632922B CN201910854519.9A CN201910854519A CN110632922B CN 110632922 B CN110632922 B CN 110632922B CN 201910854519 A CN201910854519 A CN 201910854519A CN 110632922 B CN110632922 B CN 110632922B
- Authority
- CN
- China
- Prior art keywords
- bat
- state
- optimal
- algorithm
- action
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000002787 reinforcement Effects 0.000 title claims abstract description 28
- 238000000034 method Methods 0.000 title claims abstract description 25
- 230000009471 action Effects 0.000 claims abstract description 28
- 230000006870 function Effects 0.000 claims abstract description 22
- 238000012549 training Methods 0.000 claims abstract description 10
- 230000008569 process Effects 0.000 claims description 12
- 241000288673 Chiroptera Species 0.000 claims description 7
- 101100208381 Caenorhabditis elegans tth-1 gene Proteins 0.000 claims description 6
- 239000003795 chemical substances by application Substances 0.000 claims description 4
- LFQSCWFLJHTTHZ-UHFFFAOYSA-N Ethanol Chemical compound CCO LFQSCWFLJHTTHZ-UHFFFAOYSA-N 0.000 claims description 2
- YCKRFDGAMUMZLT-UHFFFAOYSA-N Fluorine atom Chemical compound [F] YCKRFDGAMUMZLT-UHFFFAOYSA-N 0.000 claims description 2
- 229910052731 fluorine Inorganic materials 0.000 claims description 2
- 239000011737 fluorine Substances 0.000 claims description 2
- 238000012545 processing Methods 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 241000251468 Actinopterygii Species 0.000 description 1
- 230000004888 barrier function Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000009776 industrial production Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 238000002922 simulated annealing Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000003466 welding Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0221—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
Landscapes
- Engineering & Computer Science (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Feedback Control In General (AREA)
Abstract
本发明属于智能机器人技术领域,具体涉及机器人的路径规划方法。基于蝙蝠算法与强化学习的路径规划方法,包括:确定路径规划的初始位置和目标位置,采用适应度函数确定两位置的函数值,根据蝙蝠算法得到蝙蝠的初始状态和最终状态;以<α,γ>为强化学习的动作,从蝙蝠的初始状态开始,对所述动作进行强化学习训练,使每一个状态得到一个最优动作,将训练得到的状态‑动作对保存到Q表中;所述<α,γ>为蝙蝠算法的响度衰减系数α和脉冲发射率增强系数γ的组合;从Q表中选取最优的状态‑动作对,代入蝙蝠算法中,得到最优的蝙蝠位置;从而规划出初始位置到目标位置的最优路径。本发明的基于蝙蝠算法与强化学习的路径规划方法,将蝙蝠算法和强化学习相结合,确保在规避障碍物的前提下更加有效、快速的实现智能机器人路径自主规划。
Description
技术领域
本发明属于智能机器人技术领域,具体涉及机器人的路径规划方法。
背景技术
移动机器人是靠自身动力和控制能力来实现各种功能的一种机器,具有通用性和智能性的特点。工业机器人被逐步应用于实际的工业生产中,代替工人进行各种操作任务,如搬运、焊接、装配等,将工人从繁琐重复的工作中解放出来。由于工业机器人的批量使用,使生产流程工序自动化、简洁化,显著降低了生产成本,提高了生产利润。
随着机器人的应用领域不断扩大,作业环境日益复杂化,机器人的自主导航成为亟待解决的首要问题。机器人的自主导航主要分为两方面技术:机器人路径规划和路径跟踪。
路径规划问题是寻找一条从初始位姿到最终位姿的路径,并满足最优,使得移动安保巡逻机器人在通过路径时不与任何静止或动态障碍物发生碰撞,这是移动机器人最基本的条件。也就是说,做好路径规划应从这3个方面出发:(1)明确起始位置及终点;(2)避开障碍物;(3)尽可能做到路径上的优化。一般的连续域范围内路径规划问题,其一般步骤主要包括环境建模、路径搜索和路径平滑三个环节。传统的路径规划算法有人工势场法、模拟退火算法、模糊逻辑算法和禁忌搜索算法等。这些传统的路径规划算法在某种程度上收敛速度慢,在概率上完备但并不完美。
专利CN201310488139是一种纯路径规划类的算法,该算法是A*算法的改进,主要针对open表中节点多、耗时多的问题进行改进,主要应用与机器人二维三维空间的快速路径规划。该专利主要从路径规划方向出发,所以得出的路径有可能离障碍物很近,从而对于实际半径宽度的机器人可能在行走的过程中就会触碰障碍物,导致行走受阻。专利CN201510028275是一种采用加入淘汰机制的鱼群算法针对具有神经网络结构的控制器对移动机器人进行控制,并凭借神经网络的泛化性能来学习到避障和目的地的行为的算法。该算法基于机器学习理论。但学习的过程是一个训练的过程,且需要很多的数据进行测试。
针对目前已有的研究,解决实际问题时,在机器人路径规划的合理性、避障的可靠性和路径跟踪控制的实时性、准确性等方面还存在较大的提升空间。
发明内容
本发明目的在于解决现有技术中存在的问题,提供基于蝙蝠算法和强化学习相结合的机器人自主路径规划算法。
本发明解决其技术问题采用的技术手段是:基于蝙蝠算法与强化学习的路径规划方法,包括:
确定路径规划的初始位置和目标位置,采用适应度函数确定两位置的函数值,根据蝙蝠算法得到蝙蝠的初始状态和最终状态;
以<α,γ>为强化学习的动作,从蝙蝠的初始状态开始,对所述动作进行强化学习训练,使每一个状态得到一个最优动作,将训练得到的状态-动作对保存到Q表中;所述<α,γ>为蝙蝠算法的响度衰减系数α和脉冲发射率增强系数γ的组合;
从Q表中选取最优的状态-动作对,代入蝙蝠算法中,得到最优的蝙蝠位置;从而规划出初始位置到目标位置的最优路径。
作为本发明的一种优选方式,所述蝙蝠的初始状态和最终状态的算法过程为:
Step 1:种群初始化;
Step 2:初始化蝙蝠的位置xi,并根据适应度函数值的优劣寻找当前最优解x*;
Step 3:开始主循环,生成均匀分布的随机数rand,
若rand<ri,则按照下列公式分别更新蝙蝠的频率、速度和位置;
fi=fmin+(fmax-fmin)β, (4)
其中:
β:β∈[0,1]是均匀分布的随机数。
x*:当前所有蝙蝠的最优状态;
若rand≥ri,则根据公式(4)进行局部搜索,产生一个新解xnew,并对该解进行越界处理;
xnew=xold+∈Lt, (7)
其中:
ε∈[-1,1],是均匀分布的随机数;Lt是第t代所有蝙蝠响度的平均值;xold是当前最优个体;xnew是经局部搜索后产生的新个体;
Step 4:生成均匀分布的随机数rand,若rand<Li且fit(xnew)<fit(x*),则接受Step 3产生的新解xnew,将蝙蝠位置进行更新,同时根据公式(5)和公式(6)对脉冲响度和脉冲发射率进行调整;
其中:
Step 5:更新整个流程的最优解,判断是否到达终止条件,是则输出最优解,否则循环至Step 3。
作为本发明的进一步改进,所述的适应度函数为:
F=F1+penalty, (2)
其中:
(x,y):当前时刻t位置
(x′,y′):下一时刻t+1位置
(xg,yg):目标位置
F1:路径规划中下一时刻位置(x′,y′)与当前时刻位置(x,y)和目标位置(xg,yg)的欧式距离之和最小,即实现路径最短;
penalty:路径规划中不能接触环境中的障碍物(xi,yi),i∈{1,2,…n},其中n为障碍物的数量,否则添加一个大的惩罚项,即实现避障目标。
作为本发明的进一步改进,所述对动作进行强化学习训练的算法过程为:在动作集中选取最优动作进行即时奖励;所述即时奖励设置为连续迭代中相邻蝙蝠适应度值之间的差值,表达式为:
re(Ri(t),<α′,γ′>)=fit(Xi(t+1))-fit(Xi(t))=Ri(t+1)-Ri(t) (12)
其中:<α′,γ′>为在<α,β>集(动作集)中选取的最优动作;re(Ri(t),<α′,γ′>为<α′,γ′>作用于环境时得到即时奖励;X(t)定义为蝙蝠的位置,Xi(t)为当前蝙蝠的位置,Xi(t+1)为新蝙蝠的位置,即下一蝙蝠的位置;R(t)定义为强化学习的状态,即蝙蝠在位置X(t)时的适应度函数值,Ri(t)为当前状态,Ri(t+1)为下一状态;
通过公式(11)不断更新Q(Ri(t),<α′,γ′>),得到最优状态-动作对Q表:
其中:Q(st,at):智能体在环境状态为st时采取动作at后所能获得的最优奖赏折扣之和;
re(st,at):即时奖励;η是折扣因子;μ是学习率,控制着学习速度,在一定取值范围内,μ越大则收敛越快。
本发明的基于蝙蝠算法与强化学习的路径规划方法,将蝙蝠算法和强化学习相结合,确保在规避障碍物的前提下更加有效、快速的实现智能机器人路径自主规划。
附图说明
图1是根据本发明实施例的强化学习基本原理图;
图2是根据本发明实施例的QBA思想框图;
图3是根据本发明实施例的QBA流程图;
图4是根据本发明实施例的基于QBA的路径规划流程图。
具体实施方式
下面结合附图和实施例对本发明的基于蝙蝠算法与强化学习的路径规划方法的原理、步骤、流程做出详细的阐述和介绍,以使本领域技术人员更好的理解本发明的技术思想和内涵,本发明的技术方案并不限于实施例所述的具体内容。
实施例 本实施例的基于蝙蝠算法与强化学习的路径规划方法,流程如图4所示,具体包括:
一、确定路径规划的初始位置和目标位置,采用适应度函数确定两位置的函数值,搭建蝙蝠算法模型,计算得到蝙蝠的初始状态和最终状态
适应度函数的设计综合考虑了路径长度和避障两方面目标,其数学表述如式(1)-(3)所示:
F=F1+Penalty, (2)
其中:
(x,y):当前时刻t位置
(x′,y′):下一时刻t+1位置
(xg,yg):目标位置
F1:路径规划中下一时刻位置(x′,y′)与当前时刻位置(x,y)和目标位置(xg,yg)的欧式距离之和最小,即实现路径最短;
penalty:路径规划中不能接触环境中的障碍物(xi,yi),i∈{1,2,…n},其中为障碍物的数量,否则添加一个大的惩罚项,即实现避障目标。
每只蝙蝠都被视为“无质量、无大小”的粒子,分别代表着解空间中的一个可行解。对于不同的适应度函数,每只蝙蝠都有对应的函数值,通过比较各个函数值的大小确定当前最优个体。据此更新种群中各蝙蝠的速度、频率、响度和脉冲发射率,反复迭代进化,逼近并产生当前最优解,最终找到全局最优解。
蝙蝠在位置xi以速度vi随机飞行,它们可以自动调整发出脉冲的频率f,并依据目标的接近程度调整脉冲发射率r∈[0,1]。在蝙蝠算法中,假设响度L从一个最大值L0变化到固定最小值Lmin。算法中每只蝙蝠的频率、速度和位置更新公式如下:
fi=fmin+(fmax-fmin)β, (4)
其中:β:β∈[0,1]是均匀分布的随机数。
x*:当前所有蝙蝠的最优位置。
蝙蝠一旦找到猎物,就会在当前最优个体附近使用局部搜索策略。此时由生成的均匀分布随机数rand作为判断阈值,如果rand>ri(第i只蝙蝠的脉冲发射率),则进行局部搜索,否则,则进行全局搜索。局部搜索的位置更新公式为:
xnew=xold+∈Lt, (7)
其中:∈∈[-1,1]是均匀分布的随机数;Lt是第t代所有蝙蝠响度的平均值;xold是当前最优个体;xnew是经局部搜索后产生的新个体。
蝙蝠在接近猎物的过程中,随着迭代次数的增加,响度Lt会逐渐降低,同时,脉冲发射率ri会逐渐增大,其更新公式如下:
响度衰减系数α和脉冲发射率增强系数γ对算法性能的影响非常大。
二、采用强化学习算法对蝙蝠算法进行训练
强化学习算法的基本原理如图1所示,随机初始化Q(s,a)值,在环境状态st条件下,智能体根据一定的探索策略给出动作at,得到经验知识的状态动作对<st,at,st+1,re(st,at)>。
用此经验知识根据迭代公式更新Q值;在新的环境状态st+1下,继续按此方式循环直至达到目标状态。
在一定条件下,Q学习算法只需要使用贪婪策略即可保证收敛。贪婪策略即每次都选择Q(s,a)最大的动作,贪婪策略的优点是算法简单,容易实现和理解,表达式如下:
a=argmaxaQ(s,a)。 (10)
Q学习算法采用策略π的经验知识更新动作值函数估计Q(s,a),并在不断的“试错”过程中发现最优策略π*。其Q值迭代表达式如下:
其中:Q(st,at):智能体在环境状态为st时采取动作at后所能获得的最优奖赏折扣之和;
re(st,at):即时奖励;η是折扣因子;μ是学习率,控制着学习速度,在一定取值范围内,μ越大则收敛越快。
在蝙蝠算法中,优化结果的好坏由响度衰减系数α和脉冲发射率增强系数γ决定。强化学习与蝙蝠算法相结合的QBA来获取最优的<α,γ>组合以提高蝙蝠算法的寻优效果。
图2中,<α,γ>集为蝙蝠算法的响度衰减系数α和脉冲发射率增强系数γ的任意值组合,定义每个<α,γ>组合为强化学习的一个动作;X(t)定义为蝙蝠的位置,Xi(t)为当前蝙蝠的位置,Xi(t+1)为新蝙蝠的位置,即下一蝙蝠的位置;R(t)定义为强化学习的状态,即蝙蝠在位置X(t)时的适应度函数值,Ri(t)为当前状态,Ri(t+1)为下一状态。
QBA可以描述为通过式(10)即贪婪策略在<α,γ>集(动作集)中选取最优动作<α′,γ′>。<α′,γ′>作用于环境会得到即时奖励re(Ri(t),<α′,γ′>),即时奖励re(Ri(t),<α′,γ′>)设置为连续迭代中相邻蝙蝠适应度值之间的差值,表达式如下:
re(Ri(t),<α′,γ′>)=fit(Xi(t+1))-fit(Xi(t))=Ri(t+1)-Ri(t) (12)
<α′,γ′>用于蝙蝠算法可以获得新的蝙蝠位置Xi(t+1),并求得新状态Ri(t+1)的Q值。最后,通过公式(10)对Q(Ri(t),<α′,γ′>)进行更新。
在QBA中,对于每一个状态都有一个对应的最优动作<α,γ>产生以获得最大累积奖赏值,并将训练得到的状态-动作对保存在Q表中。即采用强化学习算法对蝙蝠算法中的<α,γ>参数进行训练,并将结果保存在数据集中,如图3所示。
三、训练完成后,从Q表中选用最优的<α,γ>组合代入蝙蝠算法中,得到最优的蝙蝠位置,以此进行路径规划任务,从而减少了搜索最优的时间,并且可以完成最短路径的规划。
Claims (1)
1.基于蝙蝠算法与强化学习的路径规划方法,其特征在于,包括:
确定路径规划的初始位置和目标位置,采用适应度函数确定两位置的函数值,根据蝙蝠算法得到蝙蝠的初始状态和最终状态;
以<α,γ>为强化学习的动作,从蝙蝠的初始状态开始,对所述动作进行强化学习训练,使每一个状态得到一个最优动作,将训练得到的状态-动作对保存到Q表中;所述<α,γ>为蝙蝠算法的响度衰减系数α和脉冲发射率增强系数γ的组合;
从Q表中选取最优的状态-动作对,代入蝙蝠算法中,得到最优的蝙蝠位置;从而规划出初始位置到目标位置的最优路径;
所述蝙蝠的初始状态和最终状态的算法过程为:
Step 1:种群初始化;
Step 2:初始化蝙蝠的位置xi,并根据适应度函数值的优劣寻找当前最优解x*;
Step 3:开始主循环,生成均匀分布的随机数rand,
若rand<ri,则按照下列公式分别更新蝙蝠的频率、速度和位置;
fi=fmin+(fmax-fmin)β, (4)
其中:
β:β∈[0,1]是均匀分布的随机数;
x*:当前所有蝙蝠的最优状态;
若rand≥ri,则根据公式(4)进行局部搜索,产生一个新解xnew,并对该解进行越界处理;
xnew=xold+∈Lt, (7)
其中:
∈∈[-1,1],是均匀分布的随机数;Lt是第t代所有蝙蝠响度的平均值;xold是当前最优个体;xnew是经局部搜索后产生的新个体;
ri表示第i只蝙蝠的脉冲发射率;
Step 4:生成均匀分布的随机数rand,若rand<Li且fit(xnew)<fit(x*),则接受Step 3产生的新解xnew,将蝙蝠位置进行更新,同时根据公式(5)和公式(6)对脉冲响度和脉冲发射率进行调整;
其中:
Step 5:更新整个流程的最优解,判断是否到达终止条件,是则输出最优解,否则循环至Step 3;
所述的适应度函数为:
F=F1+penalty, (2)
其中:
(x,y):当前时刻t位置
(x,,y′):下一时刻t+1位置
(xg,yg):目标位置
F1:路径规划中下一时刻位置(x′,y′)与当前时刻位置(x,y)和目标位置(xg,yg)的欧式距离之和最小,即实现路径最短;
penalty:路径规划中不能接触环境中的障碍物(xi,yi),i∈{1,2,…n},其中n为障碍物的数量,否则添加一个大的惩罚项,即实现避障目标;
所述对动作进行强化学习训练的算法过程为:
在动作集中选取最优动作进行即时奖励;所述即时奖励设置为连续迭代中相邻蝙蝠适应度值之间的差值,表达式为:
re(Ri(t),<α′,γ′>)=fit(Xi(t+1))-fit(Xi(t))=Ri(t+1)-Ri(t) (12)
其中:<α′,γ′>为在<α,γ>集中选取的最优动作;re(Ri(t),<α,γ>)为<α,γ>作用于环境时得到的即时奖励;X(t)定义为蝙蝠的位置,Xi(t)为当前蝙蝠的位置,Xi(t+1)为新蝙蝠的位置,即下一蝙蝠的位置;R(t)定义为强化学习的状态,即蝙蝠在位置X(t)时的适应度函数值,Ri(t)为当前状态,Ri(t+1)为下一状态;
通过迭代公式(11)不断更新Q(Ri(t),<α′,γ′>),得到最优状态-动作对Q表:
其中:Q(st,at):智能体在环境状态为st时采取动作at后所能获得的最优奖赏折扣之和;
re(st,at):即时奖励;η是折扣因子;μ是学习率,控制着学习速度,在一定取值范围内,μ越大则收敛越快。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910854519.9A CN110632922B (zh) | 2019-09-10 | 2019-09-10 | 一种基于蝙蝠算法与强化学习的路径规划方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910854519.9A CN110632922B (zh) | 2019-09-10 | 2019-09-10 | 一种基于蝙蝠算法与强化学习的路径规划方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110632922A CN110632922A (zh) | 2019-12-31 |
CN110632922B true CN110632922B (zh) | 2022-06-17 |
Family
ID=68972519
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910854519.9A Active CN110632922B (zh) | 2019-09-10 | 2019-09-10 | 一种基于蝙蝠算法与强化学习的路径规划方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110632922B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111103887B (zh) * | 2020-01-14 | 2021-11-12 | 大连理工大学 | 一种基于多传感器的多移动机器人调度系统设计方法 |
CN111930121B (zh) * | 2020-08-10 | 2022-10-25 | 哈尔滨工程大学 | 一种室内移动机器人的混合路径规划方法 |
CN111896006B (zh) * | 2020-08-11 | 2022-10-04 | 燕山大学 | 一种基于强化学习和启发式搜索的路径规划方法及系统 |
CN112330001A (zh) * | 2020-10-27 | 2021-02-05 | 河南大学 | 一种基于离散蝙蝠算法的物流配送车辆路径优化方法 |
CN112987742B (zh) * | 2021-02-08 | 2022-08-26 | 扬州大学 | 一种机器人路径规划方法和规划系统 |
CN114895707B (zh) * | 2022-05-13 | 2023-06-30 | 华南农业大学 | 基于变频蝙蝠算法的农业无人机路径规划方法及系统 |
CN117492473A (zh) * | 2023-11-10 | 2024-02-02 | 清华大学深圳国际研究生院 | 基于cpg控制及q学习的软体机器人路径规划方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104406593A (zh) * | 2014-12-03 | 2015-03-11 | 广西民族大学 | 一种确定无人机航路最优路径的方法 |
CN109144102A (zh) * | 2018-09-19 | 2019-01-04 | 沈阳航空航天大学 | 一种基于改进蝙蝠算法的无人机航路规划方法 |
CN109742756A (zh) * | 2019-01-30 | 2019-05-10 | 云南电网有限责任公司电力科学研究院 | 超导储能辅助pss抑制低频振荡的参数调整方法 |
WO2019094729A1 (en) * | 2017-11-09 | 2019-05-16 | Strong Force Iot Portfolio 2016, Llc | Methods and systems for the industrial internet of things |
CN109947132A (zh) * | 2019-04-09 | 2019-06-28 | 浙江工业大学 | 基于rfid库存盘点的无人机三维路径规划方法 |
-
2019
- 2019-09-10 CN CN201910854519.9A patent/CN110632922B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104406593A (zh) * | 2014-12-03 | 2015-03-11 | 广西民族大学 | 一种确定无人机航路最优路径的方法 |
WO2019094729A1 (en) * | 2017-11-09 | 2019-05-16 | Strong Force Iot Portfolio 2016, Llc | Methods and systems for the industrial internet of things |
CN109144102A (zh) * | 2018-09-19 | 2019-01-04 | 沈阳航空航天大学 | 一种基于改进蝙蝠算法的无人机航路规划方法 |
CN109742756A (zh) * | 2019-01-30 | 2019-05-10 | 云南电网有限责任公司电力科学研究院 | 超导储能辅助pss抑制低频振荡的参数调整方法 |
CN109947132A (zh) * | 2019-04-09 | 2019-06-28 | 浙江工业大学 | 基于rfid库存盘点的无人机三维路径规划方法 |
Non-Patent Citations (4)
Title |
---|
An adaptive reinforcement learning-based bat algorithm for structural design problems;Meng xianbing etal;《INTERNATIONAL JOURNAL OF BIO-INSPIRED COMPUTATION》;20191231;第114-124页 * |
Mengjia Li ; Xiujie Liu ; Renhui Li ; Ran Zheng ; Wenchao Zhao.Fault Diagnosis of Transformer Based on Chaotic Bats Algorithm Optimizing Fuzzy Petri Net.《2018 2nd IEEE Advanced Information Management,Communicates,Electronic and Automation Control Conference (IMCEC)》.2018, * |
基于机器人群体避障学习的群智能算法的研究;范家琪;《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》;20190615;第I140-27页 * |
适用于小型智能车的行驶路况评价及自主避障控制研究;吕丹丹;《中国优秀博硕士学位论文全文数据库(硕士)工程科技Ⅱ辑》;20160715;第C034-142页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110632922A (zh) | 2019-12-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110632922B (zh) | 一种基于蝙蝠算法与强化学习的路径规划方法 | |
Jiang et al. | Path planning for intelligent robots based on deep Q-learning with experience replay and heuristic knowledge | |
CN108133258B (zh) | 一种混合全局优化方法 | |
CN110378439B (zh) | 基于Q-Learning算法的单机器人路径规划方法 | |
Wu et al. | Robot path planning based on artificial potential field with deterministic annealing | |
Gigras et al. | Artificial intelligence in robot path planning | |
Di Mario et al. | A comparison of PSO and reinforcement learning for multi-robot obstacle avoidance | |
Mohanty et al. | Application of deep Q-learning for wheel mobile robot navigation | |
Bai et al. | Design and Simulation of a Collision-free Path Planning Algorithm for Mobile Robots Based on Improved Ant Colony Optimization. | |
CN117970782B (zh) | 一种基于鱼鳞进化gsom改进的模糊pid控制方法 | |
Sood et al. | Meta-heuristic techniques for path planning: recent trends and advancements | |
Khlif et al. | Reinforcement learning with modified exploration strategy for mobile robot path planning | |
Gu et al. | An improved Q-Learning algorithm for path planning in maze environments | |
Zhou et al. | An indoor blind area-oriented autonomous robotic path planning approach using deep reinforcement learning | |
Zhou | Optimal values selection of Q-learning Parameters in Stochastic Mazes | |
Anas et al. | Comparison of deep Q-learning, Q-learning and SARSA reinforced learning for robot local navigation | |
Liu et al. | Her-pdqn: A reinforcement learning approach for uav navigation with hybrid action spaces and sparse rewards | |
CN117471919A (zh) | 一种基于改进鹈鹕优化算法的机器人路径规划方法 | |
Zhou et al. | Path planning of mobile robot in complex environment based on improved Q-learning algorithm | |
Duraisamy et al. | Genetic Algorithm Optimized Grey-Box Modelling and Fuzzy Logic Controller for Tail-Actuated Robotic Fish | |
Salmanpour et al. | Optimal path planning for mobile robot using Intelligent Water Drops algorithm | |
Yang et al. | PMDRL: Pareto-front-based multi-objective deep reinforcement learning | |
Duo et al. | A deep reinforcement learning based mapless navigation algorithm using continuous actions | |
Feng et al. | Efficient Navigation of a Robotic Fish Swimming Across the Vortical Flow Field | |
Neumann et al. | Efficient continuous-time reinforcement learning with adaptive state graphs |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |