CN117193378B

CN117193378B - 基于改进ppo算法的多无人机路径规划方法

Info

Publication number: CN117193378B
Application number: CN202311379378.2A
Authority: CN
Inventors: 苏延旭; 朱文雅; 孙长银
Original assignee: Anhui University
Current assignee: Anhui University
Priority date: 2023-10-24
Filing date: 2023-10-24
Publication date: 2024-04-12
Anticipated expiration: 2043-10-24
Also published as: CN117193378A

Abstract

本发明公开了基于改进PPO算法的多无人机路径规划方法，包括：建立多无人机路径规划模型，将多无人机路径规划问题描述为马尔科夫决策过程，并建立RB‑PPO算法的状态空间、动作空间、actor网络、critic网络及奖励函数；执行训练任务，判断是否达到策略更新条件，若没有达到，则初始化无人机的数量和状态，收集无人机与环境互动过程中获得的数据并将其添加到重放缓冲区R中，若达到，则从R中取出样本数据；根据从R中取出的数据，使用状态价值网络获得状态值V，使用V‑trace方法估计状态值v‑target，计算优势函数；更新策略网络；更新状态价值网络。本发明有效地解决PPO算法在多无人机路径规划中只能使用当前策略生成的数据进行更新的问题，从而显著提高了样本效率。

Description

基于改进PPO算法的多无人机路径规划方法

技术领域

本发明属于无人机路径规划技术领域，具体涉及基于改进PPO算法的多无人机路径规划方法。

背景技术

随着科技的飞速发展与进步，无人机性能显著提高，近年来在各领域得到了广泛的运用。在无人机技术的运用中，自主导航是极具挑战的任务。无人机自主导航是指在无需人为干预的情况下，无人机通过内部系统自主完成航行、定位、避障和路径规划等任务。其中路径规划是指无人机在任务区域中从起点到终点探索出一条长度较短、平滑度较优且无碰撞的路径。

在无人机领域，路径规划算法有多种成熟的应用，主要分为传统规划算法、智能规划算法和强化学习算法。传统的规划算法包括Dijkstra算法、A*算法和人工势场法等。对于状态空间较大的复杂环境，智能路径规划方法备受关注，智能规划算法涵盖遗传算法、粒子群算法等。当无人机路径规划情况较为复杂时，经典的智能路径规划算法往往面临高时间复杂度和容易陷入局部最优的问题，而强化学习使用试错法进行探索，不需要先验知识，通过无人机与环境的交互获得奖励从而优化策略，无需大量人工调参且具有较好的适应性和鲁棒性。强化学习算法主要包括Q-Learning算法、DQN算法、DDPG算法以及PPO算法等。这些算法可以与深度学习结合，为无人机路径规划问题提供高效且智能的解决方案。其中PPO算法虽然可以进行多次的小批量更新，而不像标准的策略梯度方法那样每个数据样本只进行一次梯度更新，但它仍然是一种on-policy方法，因为它没有直接利用off-policy数据提高样本效率，在多无人机路径规划中PPO算法只能根据当前策略采样数据从而导致样本效率不高。

发明内容

本发明针对上述现有技术的不足，提供基于改进PPO算法的多无人机路径规划方法，解决多无人机路径规划中PPO算法样本效率较低的问题。

为实现上述技术目的，本发明采取的技术方案为：

基于改进PPO算法的多无人机路径规划方法，包括：

步骤1、建立基于深度强化学习的多无人机路径规划模型，将多无人机路径规划问题描述为马尔科夫决策过程，并建立RB-PPO(Proximal Policy Optimization withreplay buffer,RB-PPO)算法的状态空间、动作空间、策略网络actor、状态价值网络critic及奖励函数；

步骤2、基于步骤1执行训练任务，根据迭代次数判断是否达到策略更新条件，若没有达到，则随机初始化无人机的数量和状态，根据行为策略收集无人机与环境互动过程中获得的数据，并将其添加到重放缓冲区R中，若达到，则从R中取出样本数据；

步骤3、根据从R中取出的样本数据，使用状态价值网络获得状态值V，使用V-trace方法估计状态值v-target，根据V和v-target计算优势函数；

步骤4、基于优势函数，通过最大化RB-PPO目标函数更新策略网络；

步骤5、通过最小化V和v-target的均方误差更新状态价值网络；

步骤6、当无人机达到最大迭代次数且模型的奖励函数曲线收敛时，此时模型训练完成，模型中的策略网络输出无人机的动作，价值网络输出状态值，输入多个无人机的起始位置并运行训练好的模型，即可完成多无人机的路径规划。

为优化上述技术方案，采取的具体措施还包括：

上述的步骤1中，对于一个无人机，状态包括无人机所处位置与目的地的距离，与其他无人机的距离和其他无人机的位置，所有状态形成状态空间；所有的动作表示为固定坐标系中的速度，形成动作空间。

上述的步骤1中，actor网络和critic网络采用3层全连接神经网络，每一层均采用tanh激活函数；并采用到达奖励、碰撞奖励、加速度奖励以将无人机不同状态下的动作决策赋予奖励值。

上述的步骤3中，使用V-trace方法估计状态值v-target的公式如下：

v_t＝V_w(s_t)+δ_tV+γc_t(v_t+1-V_w(s_t+1))

其中，s_t表示t时刻无人机的状态；

V_w(s_t)表示根据状态价值网络计算的状态价值；

v_t表示t时刻v-target的值；

v_t+1表示t+1时刻v-target的值；

γ表示衰减系数，为[0，1]中的任意数值；

δ_tV为关于状态价值V的函数，函数表示如下：δ_tV＝ρ_t(r_t+γV_w(s_t+1)-V_w(s_t))，

其中ρ_t和c_t是为了避免重要性权重发散，添加的上界；μ表示行为策略；π_old表示当前策略；a_t表示t时刻无人机的动作；r_t表示奖励。

上述的步骤3中，优势函数的计算公式如下：A(s_t,a_t)＝r_t+γv_t+1-V_w(s_t)

r_t表示奖励，v_t+1表示j+1时刻v-target的值，V_w(s_t)表示t时刻根据状态价值网络得到的状态价值。

上述的步骤4中，RB-PPO目标函数的计算公式如下：

其中F^clip为基于策略之比的剪切函数，定义如下：

为RB-PPO算法的目标函数；

表示对于在策略μ下的状态s和采取的动作a的期望，意味着要对在策略μ下的状态和动作进行抽样，并计算表达式的期望值。其中/>P(s_t＝s|s₀,μ)表示在给定策略μ和初始状态s₀的情况下，在时间步t，状态s_t等于_s的条件概率；

表示目标策略与行为策略之比；

表示当前策略与行为策略之比；

优势函数表示在状态_s下，动作_a相对于平均而言的优势；

α＞0是回滚力度的超参数；

μ(a|s)表示行为策略在状态_s下采取动作_a的概率；

π_old(a|s)表示当前策略在状态_s下采取动作_a的概率；

π(a|s)表示目标策略在状态_s下采取动作_a的概率。

上述的步骤5中，使用步骤3中计算所得的数据，通过最小化V和v-target的均方误差更新状态价值网络。

本发明具有以下有益效果：

本发明提出的RB-PPO算法通过引入重放缓冲区，有效地解决PPO算法在多无人机路径规划中只能使用当前策略生成的数据进行更新的问题，从而显著提高了样本效率。

本发明使用off-policy数据提高样本效率且使用回滚操作帮助算法限制目标策略和行为策略的差异，使模型更早地达到稳定，在多无人机路径规划中获得更高的训练奖励。

附图说明

图1为本发明的流程图；

图2为本发明实验中两个无人机之间的相对位置定义图；

图3为本发明实验中碰撞奖励示意图；

图4为本发明用于4个人无人机路径规划的轨迹图；

图5为本发明与其他基于PPO改进的算法在本实验训练过程中奖励值对比；

图6为本发明与PPO算法在本实验训练过程中奖励值对比；

图7为本发明与PPO算法在本实验训练过程中时间步长对比。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本发明中的步骤虽然用标号进行了排列，但并不用于限定步骤的先后次序，除非明确说明了步骤的次序或者某步骤的执行需要其他步骤作为基础，否则步骤的相对次序是可以调整的。可以理解，本文中所使用的术语“和/或”涉及且涵盖相关联的所列项目中的一者或一者以上的任何和所有可能的组合。

基于改进PPO算法的多无人机路径规划方法，包括：

步骤1、开始执行训练任务，建立基于深度强化学习的多无人机路径规划模型，将多无人机路径规划问题描述为马尔科夫决策过程，并建立RB-PPO算法的状态空间、动作空间、策略网络actor、状态价值网络critic及奖励函数；

PPO算法的特点是可以进行多次的小批量更新，而不是像标准的策略梯度方法那样每个数据样本只进行一次梯度更新。本发明RB-PPO算法在PPO算法上进行了改进，增加了一个缓冲区R，在数据收集阶段，将行为策略收集的数据放入缓冲区中。

步骤3、根据从R中取出的样本数据，使用状态价值网络获得状态值V，使用V-trace方法估计状态值v-target(V-trace的目的是根据采样到的数据与和当前状态价值网络来给出当前状态价值网络的一个更好的估计v-target)，根据V和v-target计算优势函数；

步骤5、通过最小化V和v-target的均方误差更新状态价值网络；

实施例中，步骤1中，设计RB-PPO算法的状态空间、动作空间、actor网络、critic网络及奖励函数。

本实施例是在二维坐标中任意给出多个无人机的起始位置，无人机可以相互不碰撞的到达指定位置。

对于一个无人机来说，状态包括无人机所处位置与目的地的距离，与其他无人机的距离和其他无人机的位置。

在实施例中，为了降低仿真模型的复杂性，所有的动作表示为固定坐标系中的速度。其中关于两个无人机之间的相对位置如图2所示，β_ij表示两个无人机之间的距离，α_ij表示从i看到j在运动方向的角位置，α_ji描述j的速度矢量与ij视线之间的夹角，α_i表示无人机i运动方向和x轴的夹角，α_D表示与目的地的夹角。

actor网络和critic网络采用3层全连接神经网络，每一层均采用tanh激活函数。

为了避免稀疏奖励，将无人机不同状态下的动作决策赋予奖励值，主要分为三种：到达奖励、碰撞奖励、加速度奖励。具体的：

到达奖励：给定一个目的地周围的区域，半径设置为R，一旦无人机进入这个区域即无人机当前的位置与目的地的欧式距离小于R，便获得到达奖励。

碰撞奖励：定义无人机i周围两个区域，一个区域是碰撞区域，另一个区域是可容忍区域，R_C表示碰撞奖励，是一个负值。f是一个任意函数，用于两个区域之间的过渡。对于不同的无人机状态，碰撞奖励如图3。对于无人机i来说，j₁与i的距离小于R₁,进入了碰撞区域，所以碰撞奖励为R_C，j₂与i的距离大于R₁小于R₂进入了可容忍区域，有较小的碰撞奖励为R_C.f(β_ij2)。j₃与i的距离大于R₂，碰撞奖励为0。

加速度奖励：加速度奖励R_A是对无人机加速度绝对值随着时间进行积分并且取负值，定义公式如下：

R_A＝-∫(|a|)dt (1)

一个无人机的总奖励是上述三种奖励的加权和，权重可以根据行为进行确定和调整。因为每个无人机采用的策略使相同的所以整个系统的奖励等于所有无人机奖励的加和。

实施例中，步骤3中，由于使用了off-policy的数据，所以使用V-trace方法估计v-target(当行为策略和目标策略不一致，V-trace针对不同采样数据时的策略，设计不同重要性权重，纠正此误差)。

使用V-trace方法估计状态值v-target的公式如下：

v_t＝V_w(s_t)+δ_tV+γc_t(v_t+1-V_w(s_t+1))

其中，s_t表示t时刻无人机的状态；

V_w(s_t)表示根据状态价值网络计算的状态价值；

v_t表示t时刻v-target的值；

v_t+1表示t+1时刻v-target的值；

γ表示衰减系数，为[0，1]中的任意数值；

实施例中，步骤3中，优势函数的计算公式如下：A(s_t,a_t)＝r_t+γv_t+1-V_w(s_t)

r_t表示奖励，v_t+1表示t+1时刻v-target的值，V_w(s_t)表示t时刻根据状态价值网络得到的状态价值。

实施例中，步骤4中，RB-PPO目标函数的计算公式如下：

其中F^clip为基于策略之比的剪切函数，定义如下：

为RB-PPO算法的目标函数；

表示对于在策略μ下的状态s和采取的动作a的期望，意味着要对在策略μ下的状态和动作进行抽样，并计算表达式的期望值。其中/>P(s_t＝s|s₀,μ)表示在给定策略μ和初始状态s₀的情况下，在时间步t，状态s_t等于_s的条件概率。

表示目标策略与行为策略之比；

表示当前策略与行为策略之比；

优势函数表示在状态_s下，动作_a相对于平均而言的优势；

α＞0是回滚力度的超参数；

μ(a|s)表示行为策略在状态_s下采取动作a的概率；

π_old(a|s)表示当前策略在状态s下采取动作a的概率；

π(a|s)表示目标策略在状态s下采取动作a的概率。

本发明RB-PPO算法使用回滚操作帮助算法限制目标策略和行为策略的差异。

实施例中，步骤5中，使用步骤3中计算所得的数据，通过最小化V和v-target的均方误差更新状态价值网络。

图4是RB-PPO算法对4个无人机进行路径规划的轨迹图，多台无人机可以从起点互相不碰撞(不碰撞是指在相同的时间步无人机不交互)的到达终点，且路径比较平滑没有过多的轨道急转弯，体现了RB-PPO算法在路径规划应用的可行性。

图5为本发明与其他基于PPO进行改进的算法在多无人机路径规划训练过程中奖励值对比，可以看出与其他方法相比本发明所提出的RB-PPO需要更少的时间步长达到收敛并且获得更高的奖励。

图6、图7为本发明与PPO算法在多无人机路径规划训练过程中奖励值和时间步长的对比。其中超参数设置如下：batch size为512，epochs为30000，优化器为Adam。由图7所示RB-PPO算法迭代5000次左右时收敛，PPO算法迭代10000左右次收敛，且RB-PPO算法的奖励值略高于PPO算法的奖励值。图7是训练过程中每次迭代中时间步长的数量，初始时时间步长的数量为100，在训练过程中，当无人机到达终点时当前的迭代结束，记录此时的时间步长，由此图可以看出与PPO算法相比RB-PPO算法提前完成训练。结合这两个图可以得出改进后的算法具有明显优于PPO的性能。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.基于改进PPO算法的多无人机路径规划方法，其特征在于，包括：

步骤1、建立基于深度强化学习的多无人机路径规划模型，将多无人机路径规划问题描述为马尔科夫决策过程，并建立RB-PPO算法的状态空间、动作空间、策略网络actor、状态价值网络critic及奖励函数，所述RB-PPO算法在PPO算法上进行改进，增加一个重放缓冲区R，以在数据收集阶段，将行为策略收集的数据放入重放缓冲区R中；

步骤2、基于步骤1执行训练任务，根据迭代次数判断是否达到策略更新条件，若没有达到，则随机初始化无人机的数量和状态，根据行为策略收集无人机与环境互动过程中获得的数据，并将其添加到重放缓冲区R中，若达到，则从重放缓冲区R中取出样本数据；

步骤3、根据从重放缓冲区R中取出的样本数据，使用状态价值网络critic获得状态价值V，使用V-trace方法估计状态值v-target，根据状态价值V和状态值v-target计算优势函数；

使用V-trace方法估计状态值v-target的公式如下：

v_t＝V_w(s_t)+δ_tV+γc_t(v_t+1-V_w(s_t+1))

其中，s_t表示t时刻无人机的状态；

V_w(s_t)表示t时刻根据状态价值网络critic计算的状态价值；

v_t表示t时刻v-target的值；

v_t+1表示t+1时刻v-target的值；

γ表示衰减系数，为[0，1]中的任意数值；

其中ρ_t和c_t是为了避免重要性权重发散，添加的上界；μ表示行为策略；π_old表示当前策略；a_t表示t时刻无人机的动作；r_t表示奖励；

优势函数的计算公式如下：A(s_t,a_t)＝r_t+γv_t+1-V_w(s_t)；

步骤4、基于优势函数，通过最大化RB-PPO目标函数更新策略网络actor；

RB-PPO目标函数的计算公式如下：

其中F^clip为基于策略之比的剪切函数，定义如下：

为RB-PPO算法的目标函数；

表示对于在行为策略μ下的状态s和采取的动作a的期望，意味着要对在行为策略μ下的状态和动作进行抽样，并计算表达式的期望值，其中/>P(s_t＝s|s₀,μ)表示在行为策略μ和初始状态s₀的情况下，在时间步t，状态s_t等于s的条件概率；

表示目标策略与行为策略之比；

表示当前策略与行为策略之比；

优势函数表示在状态s下，动作a相对于平均而言的优势；

α＞0是回滚力度的超参数；

μ(a|s)表示行为策略在状态s下采取动作a的概率；

π_old(a|s)表示当前策略在状态s下采取动作a的概率；

π(a|s)表示目标策略在状态s下采取动作a的概率；

步骤5、通过最小化状态价值V和状态值v-target的均方误差更新状态价值网络critic；

步骤6、当无人机达到最大迭代次数且模型的奖励函数曲线收敛时，此时模型训练完成，模型中的策略网络actor输出无人机的动作，状态价值网络critic输出状态价值，输入多个无人机的起始位置并运行训练好的模型，即可完成多无人机的路径规划。

2.根据权利要求1所述的基于改进PPO算法的多无人机路径规划方法，其特征在于，所述步骤1中，对于一个无人机，状态包括无人机所处位置与目的地的距离，与其他无人机的距离和其他无人机的位置，所有状态形成状态空间；所有的动作表示为固定坐标系中的速度，形成动作空间。

3.根据权利要求1所述的基于改进PPO算法的多无人机路径规划方法，其特征在于，所述步骤1中，actor策略网络和critic状态价值网络采用3层全连接神经网络，每一层均采用tanh激活函数；并采用到达奖励、碰撞奖励、加速度奖励以将无人机不同状态下的动作决策赋予奖励值。

4.根据权利要求1所述的基于改进PPO算法的多无人机路径规划方法，其特征在于，所述步骤5中，使用步骤3中计算所得的数据，通过最小化状态价值V和状态值v-target的均方误差更新状态价值网络critic。