CN117193378B - 基于改进ppo算法的多无人机路径规划方法 - Google Patents
基于改进ppo算法的多无人机路径规划方法 Download PDFInfo
- Publication number
- CN117193378B CN117193378B CN202311379378.2A CN202311379378A CN117193378B CN 117193378 B CN117193378 B CN 117193378B CN 202311379378 A CN202311379378 A CN 202311379378A CN 117193378 B CN117193378 B CN 117193378B
- Authority
- CN
- China
- Prior art keywords
- unmanned aerial
- aerial vehicle
- state
- state value
- policy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 66
- 238000000034 method Methods 0.000 title claims abstract description 41
- 230000009471 action Effects 0.000 claims abstract description 34
- 238000012549 training Methods 0.000 claims abstract description 17
- 230000008569 process Effects 0.000 claims abstract description 12
- 230000003993 interaction Effects 0.000 claims abstract description 6
- 230000006870 function Effects 0.000 claims description 38
- 230000006399 behavior Effects 0.000 claims description 23
- 230000008901 benefit Effects 0.000 claims description 8
- 230000001133 acceleration Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 6
- 230000002787 reinforcement Effects 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 238000013480 data collection Methods 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了基于改进PPO算法的多无人机路径规划方法,包括:建立多无人机路径规划模型,将多无人机路径规划问题描述为马尔科夫决策过程,并建立RB‑PPO算法的状态空间、动作空间、actor网络、critic网络及奖励函数;执行训练任务,判断是否达到策略更新条件,若没有达到,则初始化无人机的数量和状态,收集无人机与环境互动过程中获得的数据并将其添加到重放缓冲区R中,若达到,则从R中取出样本数据;根据从R中取出的数据,使用状态价值网络获得状态值V,使用V‑trace方法估计状态值v‑target,计算优势函数;更新策略网络;更新状态价值网络。本发明有效地解决PPO算法在多无人机路径规划中只能使用当前策略生成的数据进行更新的问题,从而显著提高了样本效率。
Description
技术领域
本发明属于无人机路径规划技术领域,具体涉及基于改进PPO算法的多无人机路径规划方法。
背景技术
随着科技的飞速发展与进步,无人机性能显著提高,近年来在各领域得到了广泛的运用。在无人机技术的运用中,自主导航是极具挑战的任务。无人机自主导航是指在无需人为干预的情况下,无人机通过内部系统自主完成航行、定位、避障和路径规划等任务。其中路径规划是指无人机在任务区域中从起点到终点探索出一条长度较短、平滑度较优且无碰撞的路径。
在无人机领域,路径规划算法有多种成熟的应用,主要分为传统规划算法、智能规划算法和强化学习算法。传统的规划算法包括Dijkstra算法、A*算法和人工势场法等。对于状态空间较大的复杂环境,智能路径规划方法备受关注,智能规划算法涵盖遗传算法、粒子群算法等。当无人机路径规划情况较为复杂时,经典的智能路径规划算法往往面临高时间复杂度和容易陷入局部最优的问题,而强化学习使用试错法进行探索,不需要先验知识,通过无人机与环境的交互获得奖励从而优化策略,无需大量人工调参且具有较好的适应性和鲁棒性。强化学习算法主要包括Q-Learning算法、DQN算法、DDPG算法以及PPO算法等。这些算法可以与深度学习结合,为无人机路径规划问题提供高效且智能的解决方案。其中PPO算法虽然可以进行多次的小批量更新,而不像标准的策略梯度方法那样每个数据样本只进行一次梯度更新,但它仍然是一种on-policy方法,因为它没有直接利用off-policy数据提高样本效率,在多无人机路径规划中PPO算法只能根据当前策略采样数据从而导致样本效率不高。
发明内容
本发明针对上述现有技术的不足,提供基于改进PPO算法的多无人机路径规划方法,解决多无人机路径规划中PPO算法样本效率较低的问题。
为实现上述技术目的,本发明采取的技术方案为:
基于改进PPO算法的多无人机路径规划方法,包括:
步骤1、建立基于深度强化学习的多无人机路径规划模型,将多无人机路径规划问题描述为马尔科夫决策过程,并建立RB-PPO(Proximal Policy Optimization withreplay buffer,RB-PPO)算法的状态空间、动作空间、策略网络actor、状态价值网络critic及奖励函数;
步骤2、基于步骤1执行训练任务,根据迭代次数判断是否达到策略更新条件,若没有达到,则随机初始化无人机的数量和状态,根据行为策略收集无人机与环境互动过程中获得的数据,并将其添加到重放缓冲区R中,若达到,则从R中取出样本数据;
步骤3、根据从R中取出的样本数据,使用状态价值网络获得状态值V,使用V-trace方法估计状态值v-target,根据V和v-target计算优势函数;
步骤4、基于优势函数,通过最大化RB-PPO目标函数更新策略网络;
步骤5、通过最小化V和v-target的均方误差更新状态价值网络;
步骤6、当无人机达到最大迭代次数且模型的奖励函数曲线收敛时,此时模型训练完成,模型中的策略网络输出无人机的动作,价值网络输出状态值,输入多个无人机的起始位置并运行训练好的模型,即可完成多无人机的路径规划。
为优化上述技术方案,采取的具体措施还包括:
上述的步骤1中,对于一个无人机,状态包括无人机所处位置与目的地的距离,与其他无人机的距离和其他无人机的位置,所有状态形成状态空间;所有的动作表示为固定坐标系中的速度,形成动作空间。
上述的步骤1中,actor网络和critic网络采用3层全连接神经网络,每一层均采用tanh激活函数;并采用到达奖励、碰撞奖励、加速度奖励以将无人机不同状态下的动作决策赋予奖励值。
上述的步骤3中,使用V-trace方法估计状态值v-target的公式如下:
vt=Vw(st)+δtV+γct(vt+1-Vw(st+1))
其中,st表示t时刻无人机的状态;
Vw(st)表示根据状态价值网络计算的状态价值;
vt表示t时刻v-target的值;
vt+1表示t+1时刻v-target的值;
γ表示衰减系数,为[0,1]中的任意数值;
δtV为关于状态价值V的函数,函数表示如下:δtV=ρt(rt+γVw(st+1)-Vw(st)),
其中ρt和ct是为了避免重要性权重发散,添加的上界;μ表示行为策略;πold表示当前策略;at表示t时刻无人机的动作;rt表示奖励。
上述的步骤3中,优势函数的计算公式如下:A(st,at)=rt+γvt+1-Vw(st)
rt表示奖励,vt+1表示j+1时刻v-target的值,Vw(st)表示t时刻根据状态价值网络得到的状态价值。
上述的步骤4中,RB-PPO目标函数的计算公式如下:
其中Fclip为基于策略之比的剪切函数,定义如下:
为RB-PPO算法的目标函数;
表示对于在策略μ下的状态s和采取的动作a的期望,意味着要对在策略μ下的状态和动作进行抽样,并计算表达式的期望值。其中/>P(st=s|s0,μ)表示在给定策略μ和初始状态s0的情况下,在时间步t,状态st等于s的条件概率;
表示目标策略与行为策略之比;
表示当前策略与行为策略之比;
优势函数表示在状态s下,动作a相对于平均而言的优势;
α>0是回滚力度的超参数;
μ(a|s)表示行为策略在状态s下采取动作a的概率;
πold(a|s)表示当前策略在状态s下采取动作a的概率;
π(a|s)表示目标策略在状态s下采取动作a的概率。
上述的步骤5中,使用步骤3中计算所得的数据,通过最小化V和v-target的均方误差更新状态价值网络。
本发明具有以下有益效果:
本发明提出的RB-PPO算法通过引入重放缓冲区,有效地解决PPO算法在多无人机路径规划中只能使用当前策略生成的数据进行更新的问题,从而显著提高了样本效率。
本发明使用off-policy数据提高样本效率且使用回滚操作帮助算法限制目标策略和行为策略的差异,使模型更早地达到稳定,在多无人机路径规划中获得更高的训练奖励。
附图说明
图1为本发明的流程图;
图2为本发明实验中两个无人机之间的相对位置定义图;
图3为本发明实验中碰撞奖励示意图;
图4为本发明用于4个人无人机路径规划的轨迹图;
图5为本发明与其他基于PPO改进的算法在本实验训练过程中奖励值对比;
图6为本发明与PPO算法在本实验训练过程中奖励值对比;
图7为本发明与PPO算法在本实验训练过程中时间步长对比。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本发明中的步骤虽然用标号进行了排列,但并不用于限定步骤的先后次序,除非明确说明了步骤的次序或者某步骤的执行需要其他步骤作为基础,否则步骤的相对次序是可以调整的。可以理解,本文中所使用的术语“和/或”涉及且涵盖相关联的所列项目中的一者或一者以上的任何和所有可能的组合。
基于改进PPO算法的多无人机路径规划方法,包括:
步骤1、开始执行训练任务,建立基于深度强化学习的多无人机路径规划模型,将多无人机路径规划问题描述为马尔科夫决策过程,并建立RB-PPO算法的状态空间、动作空间、策略网络actor、状态价值网络critic及奖励函数;
PPO算法的特点是可以进行多次的小批量更新,而不是像标准的策略梯度方法那样每个数据样本只进行一次梯度更新。本发明RB-PPO算法在PPO算法上进行了改进,增加了一个缓冲区R,在数据收集阶段,将行为策略收集的数据放入缓冲区中。
步骤2、基于步骤1执行训练任务,根据迭代次数判断是否达到策略更新条件,若没有达到,则随机初始化无人机的数量和状态,根据行为策略收集无人机与环境互动过程中获得的数据,并将其添加到重放缓冲区R中,若达到,则从R中取出样本数据;
步骤3、根据从R中取出的样本数据,使用状态价值网络获得状态值V,使用V-trace方法估计状态值v-target(V-trace的目的是根据采样到的数据与和当前状态价值网络来给出当前状态价值网络的一个更好的估计v-target),根据V和v-target计算优势函数;
步骤4、基于优势函数,通过最大化RB-PPO目标函数更新策略网络;
步骤5、通过最小化V和v-target的均方误差更新状态价值网络;
步骤6、当无人机达到最大迭代次数且模型的奖励函数曲线收敛时,此时模型训练完成,模型中的策略网络输出无人机的动作,价值网络输出状态值,输入多个无人机的起始位置并运行训练好的模型,即可完成多无人机的路径规划。
实施例中,步骤1中,设计RB-PPO算法的状态空间、动作空间、actor网络、critic网络及奖励函数。
本实施例是在二维坐标中任意给出多个无人机的起始位置,无人机可以相互不碰撞的到达指定位置。
对于一个无人机来说,状态包括无人机所处位置与目的地的距离,与其他无人机的距离和其他无人机的位置。
在实施例中,为了降低仿真模型的复杂性,所有的动作表示为固定坐标系中的速度。其中关于两个无人机之间的相对位置如图2所示,βij表示两个无人机之间的距离,αij表示从i看到j在运动方向的角位置,αji描述j的速度矢量与ij视线之间的夹角,αi表示无人机i运动方向和x轴的夹角,αD表示与目的地的夹角。
actor网络和critic网络采用3层全连接神经网络,每一层均采用tanh激活函数。
为了避免稀疏奖励,将无人机不同状态下的动作决策赋予奖励值,主要分为三种:到达奖励、碰撞奖励、加速度奖励。具体的:
到达奖励:给定一个目的地周围的区域,半径设置为R,一旦无人机进入这个区域即无人机当前的位置与目的地的欧式距离小于R,便获得到达奖励。
碰撞奖励:定义无人机i周围两个区域,一个区域是碰撞区域,另一个区域是可容忍区域,RC表示碰撞奖励,是一个负值。f是一个任意函数,用于两个区域之间的过渡。对于不同的无人机状态,碰撞奖励如图3。对于无人机i来说,j1与i的距离小于R1,进入了碰撞区域,所以碰撞奖励为RC,j2与i的距离大于R1小于R2进入了可容忍区域,有较小的碰撞奖励为RC.f(βij2)。j3与i的距离大于R2,碰撞奖励为0。
加速度奖励:加速度奖励RA是对无人机加速度绝对值随着时间进行积分并且取负值,定义公式如下:
RA=-∫(|a|)dt (1)
一个无人机的总奖励是上述三种奖励的加权和,权重可以根据行为进行确定和调整。因为每个无人机采用的策略使相同的所以整个系统的奖励等于所有无人机奖励的加和。
实施例中,步骤3中,由于使用了off-policy的数据,所以使用V-trace方法估计v-target(当行为策略和目标策略不一致,V-trace针对不同采样数据时的策略,设计不同重要性权重,纠正此误差)。
使用V-trace方法估计状态值v-target的公式如下:
vt=Vw(st)+δtV+γct(vt+1-Vw(st+1))
其中,st表示t时刻无人机的状态;
Vw(st)表示根据状态价值网络计算的状态价值;
vt表示t时刻v-target的值;
vt+1表示t+1时刻v-target的值;
γ表示衰减系数,为[0,1]中的任意数值;
δtV为关于状态价值V的函数,函数表示如下:δtV=ρt(rt+γVw(st+1)-Vw(st)),
其中ρt和ct是为了避免重要性权重发散,添加的上界;μ表示行为策略;πold表示当前策略;at表示t时刻无人机的动作;rt表示奖励。
实施例中,步骤3中,优势函数的计算公式如下:A(st,at)=rt+γvt+1-Vw(st)
rt表示奖励,vt+1表示t+1时刻v-target的值,Vw(st)表示t时刻根据状态价值网络得到的状态价值。
实施例中,步骤4中,RB-PPO目标函数的计算公式如下:
其中Fclip为基于策略之比的剪切函数,定义如下:
为RB-PPO算法的目标函数;
表示对于在策略μ下的状态s和采取的动作a的期望,意味着要对在策略μ下的状态和动作进行抽样,并计算表达式的期望值。其中/>P(st=s|s0,μ)表示在给定策略μ和初始状态s0的情况下,在时间步t,状态st等于s的条件概率。
表示目标策略与行为策略之比;
表示当前策略与行为策略之比;
优势函数表示在状态s下,动作a相对于平均而言的优势;
α>0是回滚力度的超参数;
μ(a|s)表示行为策略在状态s下采取动作a的概率;
πold(a|s)表示当前策略在状态s下采取动作a的概率;
π(a|s)表示目标策略在状态s下采取动作a的概率。
本发明RB-PPO算法使用回滚操作帮助算法限制目标策略和行为策略的差异。
实施例中,步骤5中,使用步骤3中计算所得的数据,通过最小化V和v-target的均方误差更新状态价值网络。
图4是RB-PPO算法对4个无人机进行路径规划的轨迹图,多台无人机可以从起点互相不碰撞(不碰撞是指在相同的时间步无人机不交互)的到达终点,且路径比较平滑没有过多的轨道急转弯,体现了RB-PPO算法在路径规划应用的可行性。
图5为本发明与其他基于PPO进行改进的算法在多无人机路径规划训练过程中奖励值对比,可以看出与其他方法相比本发明所提出的RB-PPO需要更少的时间步长达到收敛并且获得更高的奖励。
图6、图7为本发明与PPO算法在多无人机路径规划训练过程中奖励值和时间步长的对比。其中超参数设置如下:batch size为512,epochs为30000,优化器为Adam。由图7所示RB-PPO算法迭代5000次左右时收敛,PPO算法迭代10000左右次收敛,且RB-PPO算法的奖励值略高于PPO算法的奖励值。图7是训练过程中每次迭代中时间步长的数量,初始时时间步长的数量为100,在训练过程中,当无人机到达终点时当前的迭代结束,记录此时的时间步长,由此图可以看出与PPO算法相比RB-PPO算法提前完成训练。结合这两个图可以得出改进后的算法具有明显优于PPO的性能。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
Claims (4)
1.基于改进PPO算法的多无人机路径规划方法,其特征在于,包括:
步骤1、建立基于深度强化学习的多无人机路径规划模型,将多无人机路径规划问题描述为马尔科夫决策过程,并建立RB-PPO算法的状态空间、动作空间、策略网络actor、状态价值网络critic及奖励函数,所述RB-PPO算法在PPO算法上进行改进,增加一个重放缓冲区R,以在数据收集阶段,将行为策略收集的数据放入重放缓冲区R中;
步骤2、基于步骤1执行训练任务,根据迭代次数判断是否达到策略更新条件,若没有达到,则随机初始化无人机的数量和状态,根据行为策略收集无人机与环境互动过程中获得的数据,并将其添加到重放缓冲区R中,若达到,则从重放缓冲区R中取出样本数据;
步骤3、根据从重放缓冲区R中取出的样本数据,使用状态价值网络critic获得状态价值V,使用V-trace方法估计状态值v-target,根据状态价值V和状态值v-target计算优势函数;
使用V-trace方法估计状态值v-target的公式如下:
vt=Vw(st)+δtV+γct(vt+1-Vw(st+1))
其中,st表示t时刻无人机的状态;
Vw(st)表示t时刻根据状态价值网络critic计算的状态价值;
vt表示t时刻v-target的值;
vt+1表示t+1时刻v-target的值;
γ表示衰减系数,为[0,1]中的任意数值;
δtV为关于状态价值V的函数,函数表示如下:δtV=ρt(rt+γVw(st+1)-Vw(st)),
其中ρt和ct是为了避免重要性权重发散,添加的上界;μ表示行为策略;πold表示当前策略;at表示t时刻无人机的动作;rt表示奖励;
优势函数的计算公式如下:A(st,at)=rt+γvt+1-Vw(st);
步骤4、基于优势函数,通过最大化RB-PPO目标函数更新策略网络actor;
RB-PPO目标函数的计算公式如下:
其中Fclip为基于策略之比的剪切函数,定义如下:
为RB-PPO算法的目标函数;
表示对于在行为策略μ下的状态s和采取的动作a的期望,意味着要对在行为策略μ下的状态和动作进行抽样,并计算表达式的期望值,其中/>P(st=s|s0,μ)表示在行为策略μ和初始状态s0的情况下,在时间步t,状态st等于s的条件概率;
表示目标策略与行为策略之比;
表示当前策略与行为策略之比;
优势函数表示在状态s下,动作a相对于平均而言的优势;
α>0是回滚力度的超参数;
μ(a|s)表示行为策略在状态s下采取动作a的概率;
πold(a|s)表示当前策略在状态s下采取动作a的概率;
π(a|s)表示目标策略在状态s下采取动作a的概率;
步骤5、通过最小化状态价值V和状态值v-target的均方误差更新状态价值网络critic;
步骤6、当无人机达到最大迭代次数且模型的奖励函数曲线收敛时,此时模型训练完成,模型中的策略网络actor输出无人机的动作,状态价值网络critic输出状态价值,输入多个无人机的起始位置并运行训练好的模型,即可完成多无人机的路径规划。
2.根据权利要求1所述的基于改进PPO算法的多无人机路径规划方法,其特征在于,所述步骤1中,对于一个无人机,状态包括无人机所处位置与目的地的距离,与其他无人机的距离和其他无人机的位置,所有状态形成状态空间;所有的动作表示为固定坐标系中的速度,形成动作空间。
3.根据权利要求1所述的基于改进PPO算法的多无人机路径规划方法,其特征在于,所述步骤1中,actor策略网络和critic状态价值网络采用3层全连接神经网络,每一层均采用tanh激活函数;并采用到达奖励、碰撞奖励、加速度奖励以将无人机不同状态下的动作决策赋予奖励值。
4.根据权利要求1所述的基于改进PPO算法的多无人机路径规划方法,其特征在于,所述步骤5中,使用步骤3中计算所得的数据,通过最小化状态价值V和状态值v-target的均方误差更新状态价值网络critic。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311379378.2A CN117193378B (zh) | 2023-10-24 | 2023-10-24 | 基于改进ppo算法的多无人机路径规划方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311379378.2A CN117193378B (zh) | 2023-10-24 | 2023-10-24 | 基于改进ppo算法的多无人机路径规划方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117193378A CN117193378A (zh) | 2023-12-08 |
CN117193378B true CN117193378B (zh) | 2024-04-12 |
Family
ID=88994453
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311379378.2A Active CN117193378B (zh) | 2023-10-24 | 2023-10-24 | 基于改进ppo算法的多无人机路径规划方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117193378B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113110592A (zh) * | 2021-04-23 | 2021-07-13 | 南京大学 | 一种无人机避障与路径规划方法 |
CN115265547A (zh) * | 2022-08-23 | 2022-11-01 | 安徽大学 | 一种未知环境下基于强化学习的机器人主动导航方法 |
CN115696211A (zh) * | 2022-10-31 | 2023-02-03 | 重庆邮电大学 | 一种基于信息年龄的无人机轨迹自适应优化方法 |
CN115993831A (zh) * | 2023-03-23 | 2023-04-21 | 安徽大学 | 基于深度强化学习的机器人无目标网络的路径规划方法 |
CN116300909A (zh) * | 2023-03-01 | 2023-06-23 | 东南大学 | 一种基于信息预处理和强化学习的机器人避障导航方法 |
CN116542445A (zh) * | 2023-04-07 | 2023-08-04 | 沈阳工业大学 | 基于深度强化学习的装备制造车间智能调度方法和系统 |
CN116700327A (zh) * | 2023-05-29 | 2023-09-05 | 北京理工大学 | 一种基于连续动作优势函数学习的无人机轨迹规划方法 |
CN116847293A (zh) * | 2023-06-30 | 2023-10-03 | 南京信息工程大学 | 一种无人机辅助车联网下的联合缓存决策和轨迹优化方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210103286A1 (en) * | 2019-10-04 | 2021-04-08 | Hong Kong Applied Science And Technology Research Institute Co., Ltd. | Systems and methods for adaptive path planning |
-
2023
- 2023-10-24 CN CN202311379378.2A patent/CN117193378B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113110592A (zh) * | 2021-04-23 | 2021-07-13 | 南京大学 | 一种无人机避障与路径规划方法 |
CN115265547A (zh) * | 2022-08-23 | 2022-11-01 | 安徽大学 | 一种未知环境下基于强化学习的机器人主动导航方法 |
CN115696211A (zh) * | 2022-10-31 | 2023-02-03 | 重庆邮电大学 | 一种基于信息年龄的无人机轨迹自适应优化方法 |
CN116300909A (zh) * | 2023-03-01 | 2023-06-23 | 东南大学 | 一种基于信息预处理和强化学习的机器人避障导航方法 |
CN115993831A (zh) * | 2023-03-23 | 2023-04-21 | 安徽大学 | 基于深度强化学习的机器人无目标网络的路径规划方法 |
CN116542445A (zh) * | 2023-04-07 | 2023-08-04 | 沈阳工业大学 | 基于深度强化学习的装备制造车间智能调度方法和系统 |
CN116700327A (zh) * | 2023-05-29 | 2023-09-05 | 北京理工大学 | 一种基于连续动作优势函数学习的无人机轨迹规划方法 |
CN116847293A (zh) * | 2023-06-30 | 2023-10-03 | 南京信息工程大学 | 一种无人机辅助车联网下的联合缓存决策和轨迹优化方法 |
Non-Patent Citations (2)
Title |
---|
Efficient Exploration for Multi-Agent Reinforcement Learning via Transferable Successor Features;Wenzhang Liu等;IEEE/CAA JOURNAL OF AUTOMATICA SINICA;20220930;第9卷(第9期);第1673-1685页 * |
深度强化学习算法与应用研究现状综述;刘朝阳等;智能科学与技术学报;20201231;第2卷(第7期);第314-324页 * |
Also Published As
Publication number | Publication date |
---|---|
CN117193378A (zh) | 2023-12-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109945881B (zh) | 一种蚁群算法的移动机器人路径规划方法 | |
CN111142522B (zh) | 一种分层强化学习的智能体控制方法 | |
CN110806756B (zh) | 基于ddpg的无人机自主引导控制方法 | |
CN111413966A (zh) | 一种递进式模型预测无人驾驶规划跟踪协同控制方法 | |
CN111381600B (zh) | 一种基于粒子群算法的uuv路径规划方法 | |
CN113341958A (zh) | 一种混合经验的多智能体强化学习运动规划方法 | |
CN112947562A (zh) | 一种基于人工势场法和maddpg的多无人机运动规划方法 | |
CN109300144B (zh) | 一种融合社会力模型和卡尔曼滤波的行人轨迹预测方法 | |
CN110442129B (zh) | 一种多智能体编队的控制方法和系统 | |
CN112965471B (zh) | 一种考虑角速度约束和改进斥力场的人工势场路径规划方法 | |
CN115993831B (zh) | 基于深度强化学习的机器人无目标网络的路径规划方法 | |
CN111882047A (zh) | 一种基于强化学习与线性规划的快速空管防冲突方法 | |
Kim et al. | Adversarial actor-critic method for task and motion planning problems using planning experience | |
CN113962012A (zh) | 无人机对抗策略优化方法及装置 | |
CN113281999A (zh) | 一种基于强化学习和迁移学习的无人机自主飞行训练方法 | |
CN114089776B (zh) | 一种基于深度强化学习的无人机避障方法 | |
Han et al. | Multi-uav automatic dynamic obstacle avoidance with experience-shared a2c | |
CN117193378B (zh) | 基于改进ppo算法的多无人机路径规划方法 | |
Chen et al. | A deep multi-agent reinforcement learning framework for autonomous aerial navigation to grasping points on loads | |
CN110597067B (zh) | 一种多移动机器人的群集控制方法及系统 | |
Regier et al. | Improving navigation with the social force model by learning a neural network controller in pedestrian crowds | |
CN114815875B (zh) | 一种基于集合满射鸽群智能优化的无人机集群编队控制器调参方法 | |
CN116243727A (zh) | 一种渐进式深度强化学习的无人载具对抗与避障方法 | |
CN114527784A (zh) | 一种基于行为控制方法的无人机集群整体避障方法 | |
CN114386556A (zh) | 一种基于禁忌搜索与粒子群算法的目标源定位与避障方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |