CN116700327A

CN116700327A - 一种基于连续动作优势函数学习的无人机轨迹规划方法

Info

Publication number: CN116700327A
Application number: CN202310612411.5A
Authority: CN
Inventors: 孙健; 李卓; 赵若男; 吴蔚然; 王钢; 陈杰
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2023-05-29
Filing date: 2023-05-29
Publication date: 2023-09-05

Abstract

本发明公开了一种基于连续动作优势函数学习的无人机轨迹规划方法，属于机器人智能决策与控制领域；首先构建无人机轨迹规划的马尔科夫决策过程模型，分别得到无人机轨迹规划的状态变量，控制变量，转移模型，损失函数的表达式；然后建立策略网络和评价网络；再通过连续动作优势函数学习在无人机每前进一步后训练更新策略网络和评价网络，直至二者收敛；最终得到用于无人机轨迹规划的策略网络。本发明在无人机动力学模型与所处环境完全未知的情况下实现无人机的轨迹规划，使其以最短时间抵达预定目标，具有很高的实用价值。

Description

一种基于连续动作优势函数学习的无人机轨迹规划方法

技术领域

本发明涉及一种基于连续优势函数学习的无人机轨迹规划方法，属于机器人智能决策与控制技术领域。

背景技术

随着社会的发展和科技的进步，无人机在军用和民用场景中的应用日益丰富。但现有无人机大多仍以预编程或遥控模式工作，需要人在环路控制，限制了无人机的应用范围。无人机的任务步骤包括三项：环境感知、轨迹规划、底层控制，其中轨迹规划的智能性是体现无人机智能性的关键步骤。

无人机常用的轨迹规划方法大致可分为三大类：基于图搜索、基于随机采样和基于优化问题求解。基于图搜索的典型方法包括Dijkstra算法和A*算法等，其基本步骤是将无人机工作空间的地图构建为一个包括节点和边的图，然后进行路径搜索，即更新一个访问节点的序列，循环“移除节点、扩展节点、塞入节点”三个步骤，直至抵达终点。基于随机采样的典型方法包括单查询的概率路图算法(Probabilistic Road Map,PRM)、快速随机扩展树算法(Rapidly-exploring Random Tree,RRT)等，该类方法不需要遍历无人机工作空间的整个地图，而是在状态空间中均匀随机采样，从而构建一个连通图并检测碰撞等，直到初始点和终止点都出现在图中。与基于图搜索的方法相比，基于随机采样的方法规划效率更高。

实际应用中，无人记得轨迹规划需要考虑其动力学、能量消耗、外部威胁等多重约束及不同目标。而以上两种方法几乎未考虑无人机的动力学约束，而仅偏重于无人机的路径规划。针对此问题，现有研究常采用基于优化方法中的最优控制进行解析或数值求解。但对于具有非线性、耦合和不确定动力学的无人机，基于优化求解的方法也面临诸多挑战。为了应对这一挑战，近年来无模型强化学习(RL)得到了广泛的发展，这是一种不需要无人机动力学先验知识的通用决策框架。通过无人机与环境之间的交互，可以学习到最优策略，而RL算法可以分为值函数法、策略法和演员-评论家法三类。

Q学习算法及其扩展，深度Q学习算法，是值函数型强化学习(RL)算法中的典型代表，其从值函数中推导出策略。此外，值函数型强化学习算法主要应用于具有小且离散动作空间的马尔科夫决策过程(Markov Decision Process,MDP)。然而，在现实世界中的场景中，需要使用离散化技术，从而使得学习最优策略变得困难。相比之下，策略型强化学习算法不需要值函数，可以直接学习连续策略。然而，这些算法可能效率低下且难以实施，尤其是在使用难以处理的策略梯度时。结合这两种类型的算法，演员-评论家强化学习算法可以克服它们的缺点，其中演员估计在给定状态下采取的策略，评论家近似值函数以评估当前策略。

用于连续动作空间的演员-评论家强化学习算法大致可分为两类：基于TD误差的方法和基于策略梯度的方法。基于TD误差的方法，如DDPG、TD3、SAC等主要通过贝尔曼方程更新得到最优动作-值函数估计。该类方法样本效率较高，但会引入偏差。基于策略梯度的方法，如TRPO、PPO等，往往采用蒙特卡罗方法估计值函数以降低偏差，因而具有更好的收敛性保证，但会牺牲一定的样本效率。

无人机时间最小轨迹规划问题具有较大的挑战性。在该任务中，无人机的动力学模型具有其非线性、耦合和不确定的动力学性质。对于该问题，使用优化问题进行数值求解需要极大的计算量，在强化学习框架下则具有奖励稀疏的难点，因此有待进一步研究解决。

发明内容

有鉴于此，本发明的目的是提供一种基于连续动作优势函数学习的无人机轨迹规划方法，不依赖无人机动力学模型，仅以无人机位置及目标位置作为神经网络输入，以无人机角速度的控制指令为输出，训练得到无人机轨迹规划策略网络，使无人机在最短时间内抵达预定目标位置。

一种基于连续动作优势函数学习的无人机轨迹规划方法，包括：

步骤1)、构建无人机的最短时间轨迹优化问题，包括确定目标函数和约束条件：

1-1)确定目标函数；

无人机的最短时间轨迹优化问题的目标函数J的表达式为：

其中，表示求均值算子，r_k表示无人机的奖励函数，k表示状态转移的第k步，k_f为终点步数，u_k≥1表示步数k≥1的无人机控制输入序列，γ表示对未来损失的权重的衰减因子，0<γ<1；

1-2)无人机的轨迹优化问题的约束条件的表达式为：

s_k+1＝g(s_k,a_k)，k＝1,…,k_f，k_f为终点步数；

其中，s_k和s_k+1分别为无人机在第k步和第k+1步的状态向量，a_k表示第k步的控制变量，函数g(·,·)表示无人机的动力学模型，即转移模型；

步骤2)、根据步骤1)构建的无人机的最短时间轨迹优化问题，建立无人机轨迹规划的马尔科夫决策过程模型；

马尔科夫决策过程模型由一个四元组表示，即状态变量、控制变量、转移模型、损失函数，构建的具体步骤如下：

2-1)确定状态变量；

在无人机所在高度建立平面直角坐标系，以其初始位置为原点，状态变量s_k表达式为：

s_k＝[ρ_k，θ_k，ψ_k，f(p_k，k)]^T

其中，p_k＝(ρ_k，θ_k，ψ_k)表示无人机在当前第k步的球坐标位置，f(P_k，k)表示无人机在当前第k步所获知的障碍信息表示；

2-2)确定控制变量；

控制变量表达式为无人机的航向角速度a_k＝[ω_k，φ_k]^T，即(θ_k，ψ_k)随时间的变化率；

2-3)转移模型的表达式为：

s_k+1＝g(s_k，a_k)；

该转移模型表示在给定当前k步状态变量与控制变量，返回下一时刻的状态变量；

2-4)确定损失函数；

损失函数用于评价无人机状态s_k下执行控制变量a_k的效果，表达式为：

其中，ρ，λ分别表示各项的权重系数；

Δ_d(k)＝||(x_k-x_r，y_k-y_r，z_k-z_r)′||-||(x_k-1-x_r，y_k-1-y_r，z_k-1-z_r)′||，

r_s(k)＝1/||(x_k-x_o，y_k-y_o，z_k-z_o)′||

其中，“′”表示转置；(x_k，y_k，z_k)为无人机当前球坐标位置p_k在平面直角坐标系下的表示，(x_r，y_r，z_r)为直角坐标系下无人机的目标位置；(x_o，y_o，z_o)为直角坐标系下的障碍坐标，当无人机靠近至障碍一定范围内，指示函数取值1；设奖励量rk为负的损失函数，即r_k＝-c(s_k，a_k)；

步骤3)、设计强化学习求解算法并训练规划策略；

3-1)构建包括评价网络和策略网络的强化学习神经网络；

评价网络与策略网络共享一个两层的全连接网络，采用ReLU激活函数；两层全连接网络之后分出两个分支，其中一个分支连接单层全连接网络，连同两层全连接网络构成评价网络，该单层全连接网络采用Identity激活函数；另一个分支也连接单层全连接网络，连同两层全连接网络构成策略网络，该单层全连接网络采用Tanh激活函数；

评价网络：使用ω_s，ω_c参数化评价网络V(s_k|ω_s，ω_c)，ω_s表示与策略网络共享的权重参数，ω_c表示评价网络独有的权重参数；评价网络V(s_k|ω_s，ω_c)的输入为状态变量s_k，输出为累计奖励量，累计奖励量的函数表达式如下：

策略网络：采用ω_s，ω_a参数化一个策略网络ω_s表示与评价网络共享的权重参数；ω_a表示策略网络独有的权重参数。策略网络的输入为状态变量s_k，直接输出为动作均值μ(s_k|ω_s，ω_a)和协方差矩阵L(s_k|ω_s，ω_a)，由此构造控制变量a_k，表示为：

3-2)更新评价网络的方法是最小化如下贝尔曼残差：

其中，ω_s，ω_a，ω_c分别为共享层参数、策略网络参数和评价网络参数。D为存储历史数据(s_k，a_k，c(s_k，a_k)，s_k+1)的回放记忆；(s_k，a_k)～D表示s_k，a_k为D中提取的数据；C(ω_s，ω_a，ω_c)表示与目标神经网络的TD误差表达式：

C(ω_s，ω_a，ω_c)＝r_k+1+γV′(s_k+1|ω_s，ω_c)-V(s_k|ω_s，ω_c)-A(s_k，a_k|ω_s，ω_c)

Y(s_k，a_k)＝L^-1(s_k|ω_s，ω_c)(a_k-μ(s_k|ω_s，ω_a))

其中，目标神经网络与当前的强化学习神经网络结构相同，其参数更新较当前网络有延迟，评价网络和策略网络也对应有自己的目标网络；V′(s_k+1|ω_s，ω_c)为目标评价网络输出的累计奖励量；A(s_k，a_k|ω_s，ω_c)表示无人机在当前状态下采取当前动作相较于其他动作的优势函数估计，采用二次型的形式近似，Y(s_k，a_k)是优势函数A(s_k，a_k|ω_s，ω_c)计算过程的中间变量，V(s_k|ω_s，ω_c)由评价网络输出得到；

步骤4)、得到无人机最短时间轨迹规划的具体步骤如下：

4-1)参数设置；

设置评价网络和策略网络的最大训练次数M，每次训练的最大更新步数T，经验回放抽取的训练集大小N，目标神经网络的追踪比率β，评价网络与策略网络的同步更新学习率为α，衰减因子为γ；

4-2)初始化；

共享部分层数的评价网络和策略网络的权重参数初始值均为0；将初始化后的策略网络记为当前策略网络将初始化后的评价网络记为当前评价网络V(s_k|ω_s，ω_c)；

设空的经验队列集合D；

4-3)迭代开始，令初始化迭代次数为m＝1；

4-4)初始化时刻为k＝0，初始化无人机当前位置，、障碍位置和目标位置；

4-5)使用当前策略网络生成k时刻控制变量；输入控制变量a_k与状态s_k，无人机通过转移模型返回下一时刻状态变量s_k+1，利用奖励函数计算该步转移的奖励r_k+1；

4-6)将步骤4-4)至4-5)得到的数据记为一个经验样本d_k＝(s_k，a_k，r_k+1，s_k+1)，存入经验队列D；

4-7)统计经验队列D中的经验样本个数设为N_D并判定：若N_D≤N，则转到步骤4-5)；若N_R＞N，则进入步骤4-8)；

4-8)从经验队列D中随机抽取N个经验样本d₁，d₂，...，d_N；利用每个经验样本计算一个C(ω_s，ω_a，ω_c)的值，第i个值定义为C_i(ω_s，ω_a，ω_c)；

4-9)使用

更新评价网络和策略网络的权重参数ω_s，ω_a，ω_c；

使用更新目标神经网络的权重参数/>使用m+1更新训练次数m；

并将更新后的评价网络及策略网络记为新的评价网络及新的策略网络；

4-10)判定：若k＞T或无人机当前状态满足设定的终止条件，则进入步骤4-11)，否则返回步骤4-5)，并使用k+1更新步数k；

4-11)进行判定：若m＜M，则重新返回步骤4-4)，无人机再一次进行初始化并开始新一次的轨迹规划任务；否则迭代结束，将迭代终止时的当前策略网络作为最终的策略网络，记为/>将状态变量输入最终策略/>输出控制变量得到无人机最短时间轨迹。

较佳的，所述4-10)中，设定的终止条件为无人机到达期望位置的距离小于设定阈值ξ_p。

本发明具有如下有益效果：

1)本发明提出一种基于连续动作优势函数学习的无人机轨迹规划方法，属于机器人智能决策与控制领域。首先构建无人机轨迹规划的马尔科夫决策过程模型，分别得到无人机轨迹规划的状态变量，控制变量，转移模型，损失函数的表达式；然后建立策略网络和评价网络；再通过连续动作优势函数学习在无人机每前进一步后训练更新策略网络和评价网络，直至二者收敛；最终得到用于无人机轨迹规划的策略网络。本发明在无人机动力学模型与所处环境完全未知的情况下实现无人机的轨迹规划，使其以最短时间抵达预定目标，具有很高的实用价值。

2)本发明在无人机模型未知的条件下实现轨迹规划。策略梯度更新方法通过无人机轨迹及传感信息的采样数据，自主学习出最优的评价网络与策略网络，该过程中不需要无人机模型的任何假设与参数，仅在马尔可夫决策过程的建模时对根据所需目标进行奖励函数设计。

3)本发明的方法将确定性策略梯度理论与人工神经网络相结合，设计了共享层数的评价网络和策略网络。评价网络用于拟合强化学习中的值函数(V函数)，策略网络在给定状态生成相应的控制策略。利用神经网络的非线性拟合能力，使得在无人机模型及复杂的障碍环境未知的情况下，仍可学习到理想的轨迹规划策略。本发明通过二次型的优势函数估计及Dueling架构，很好的解决了连续动作空间极值难以求解的问题。

4)本发明的方法的可拓展性强。本发明的方法针对宽泛的无人机目标跟踪、轨迹跟踪任务设计轨迹规划方法，对实施环境不存在先验假设，只需要重新设定状态变量、控制输入以及损失函数，即可拓展于无人机在不同环境的轨迹规划任务。

附图说明

图1为本发明实施例中无人机三维平面内模型示意图。

图2为本发明实施例中本发明共享评价策略网络示意图。

图3为本发明实施例中连续动作优势函数学习架构示意图。

图4(a)、4(b)、4(c)、4(d)分别为本发明实施例中连续动作优势函数学习强化学习算法在4种通用测试环境中的学习情况示意图。

图5(a)、5(b)、5(c)分别为本发明实施例中深度连续动作优势函数学习强化学习算法在轨迹规划环境中的平均累积奖励、平均完成时间以及贝尔曼损失的变化示意图。

图6(a)、6(b)、6(c)、6(d)分别为本发明实施例中无人机在四个不同目标点的规划轨迹示意图。

具体实施方式

下面结合附图并举实施例，对本发明进行详细描述。

本发明提出的一种基于连续动作优势函数学习的无人机轨迹规划方法，该方法无需无人机动力学模型，只需要无人机与环境不断交互即可训练得轨迹规划策略，包括以下步骤：

步骤1)、构建无人机的最短时间轨迹优化问题；

无人机的最短时间轨迹优化问题中包括确定目标函数和约束条件。

1-1)确定目标函数；

无人机的最短时间轨迹优化问题的目标函数J的表达式为：

其中，表示求均值算子，r_k表示无人机的奖励函数，k表示状态转移的第k步，k_f为终点步数，u_k≥1表示步数k≥1的无人机控制输入序列，γ表示对未来损失的权重的衰减因子，0＜γ＜1；

1-2)确定约束条件；

无人机的轨迹优化问题的约束条件的表达式为：

s_k+1＝g(s_k，a_k)，k＝1，...，k_f，k_f为终点步数；

其中，s_k和s_k+1分别为无人机在第k步和第k+1步的状态向量，a_k表示第k步的控制变量，函数g(·，·)表示无人机的动力学模型，即转移模型。

马尔科夫决策过程模型由一个四元组表示，即状态变量、控制变量、转移模型、损失函数；构建的具体步骤如下：

2-1)确定状态变量；

本发明面向无人机最短时间轨迹规划任务，故在无人机所在高度建立平面直角坐标系，以其初始位置为原点，状态变量s_k表达式为：

s_k＝[ρ_k，θ_k，ψ_k，f(p_k，k)]^T

2-2)确定控制变量；

2-3)确定转移模型；

转移模型的表达式为：

s_k+1＝g(s_k，a_k)，

2-4)确定损失函数；

其中，ρ，λ分别表示各项的权重系数；

r_s(k)＝1/||(x_k-x_o，y_k-y_o，z_k-z_o)′||

其中，“′”表示转置；(x_k，y_k，z_k)为无人机当前球坐标位置p_k在上述平面直角坐标系下的表示，(x_r，y_r，z_r)为直角坐标系下无人机的目标位置；(x_o，y_o，z_o)为直角坐标系下的障碍坐标，当无人机靠近至障碍一定范围内，指示函数取值1。设奖励量rk为负的损失函数，即r_k＝--c(s_k，a_k)；

步骤3)、设计强化学习求解算法并训练规划策略；

3-1)构建包括评价网络和策略网络的强化学习神经网络；

3-2)更新评价网络的方法是最小化如下贝尔曼残差：

Y(s_k，a_k)＝L^-1(s_k|ω_s，ω_c)(a_k-μ(s_k|ω_s，ω_a))

其中，目标神经网络与当前的强化学习神经网络结构相同，其参数更新较当前网络有延迟，评价网络和策略网络也对应有自已的目标网络；V′(s_k+1|ω_s，ω_c)为目标评价网络输出的累计奖励量。A(s_k，a_k|ω_s，ω_c)表示无人机在当前状态下采取当前动作相较于其他动作的优势函数估计，采用二次型的形式近似，Y(s_k，a_k)是优势函数A(s_k，a_k|ω_s，ω_c)计算过程的中间变量，V(s_k|ω_s，ω_c)由评价网络输出得到；

步骤4)、得到无人机最短时间轨迹规划的具体步骤如下：

4-1)参数设置；

令评价网络和策略网络的最大训练次数M＝100000，每次训练的最大更新步数T＝1000，经验回放抽取的训练集大小N＝80，目标神经网络的追踪比率β＝0.995，评价网络与策略网络的同步更新学习率为α＝0.001，衰减因子为γ＝0.99；

4-2)初始化；

设空的经验队列集合D，并设置集合大小为100万；

4-3)迭代开始，令初始化迭代次数为m＝1；

4-4)初始化时刻为k＝0，初始化无人机当前位置p_k，、障碍位置p_o和目标位置p_r；

4-6)将步骤4-4)至4-5)得到的数据记为一个经验样本d_k＝(s_k，a_k，rk₊₁，s_k+1)，存入经验队列D；

4-9)使用

更新评价网络和策略网络的权重参数ω_s，ω_a，ω_c；

使用更新目标神经网络的权重参数/>使用m+1更新训练次数m；

4-10)判定：若k＞T或无人机当前状态满足终止条件||p(k)-p_d||≤ξ_p，即无人机到达期望位置的距离小于阈值ξ_p，则进入步骤4-11)，否则返回步骤4-5)，并使用k+1更新步数k；

综上所述，以上仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于连续动作优势函数学习的无人机轨迹规划方法，其特征在于，包括：

1-1)确定目标函数；

无人机的最短时间轨迹优化问题的目标函数J的表达式为：

1-2)无人机的轨迹优化问题的约束条件的表达式为：

s_k+1＝g(s_k,a_k)，k＝1,…,k_f，k_f为终点步数；

2-1)确定状态变量；

s_k＝[ρ_k,θ_k,ψ_k,f(p_k,k)]^T

其中，p_k＝(ρ_k,θ_k,ψ_k)表示无人机在当前第k步的球坐标位置，f(p_k,k)表示无人机在当前第k步所获知的障碍信息表示；

2-2)确定控制变量；

控制变量表达式为无人机的航向角速度a_k＝[ω_k,φ_k]^T，即(θ_k,ψ_k)随时间的变化率；

2-3)转移模型的表达式为：

s_k+1＝g(s_k,a_k)；

2-4)确定损失函数；

其中，ρ,λ分别表示各项的权重系数；

Δ_d(k)＝‖(x_k-x_r,y_k-y_r,z_k-z_r)′‖-‖(x_k-1-x_r,y_k-1-y_r,z_k-1-z_r)′‖，

r_s(k)＝1/‖(x_k-x_o,y_k-y_o,z_k-z_o)′‖

其中，“′”表示转置；(x_k,y_k,z_k)为无人机当前球坐标位置p_k在平面直角坐标系下的表示，(x_r,y_r,z_r)为直角坐标系下无人机的目标位置；(x_o,y_o,z_o)为直角坐标系下的障碍坐标，当无人机靠近至障碍一定范围内，指示函数取值1；设奖励量r_k为负的损失函数，即r_k＝-c(s_k,a_k)；

步骤3)、设计强化学习求解算法并训练规划策略；

3-1)构建包括评价网络和策略网络的强化学习神经网络；

评价网络：使用ω_s,ω_c参数化评价网络V(s_k|ω_s,ω_c)，ω_s表示与策略网络共享的权重参数，ω_c表示评价网络独有的权重参数；评价网络V(s_k|ω_s,ω_c)的输入为状态变量s_k，输出为累计奖励量，累计奖励量的函数表达式如下：

策略网络：采用ω_s,ω_a参数化一个策略网络ω_s表示与评价网络共享的权重参数；ω_a表示策略网络独有的权重参数。策略网络的输入为状态变量s_k，直接输出为动作均值μ(s_k|ω_s,ω_a)和协方差矩阵L(s_k|ω_s,ω_a)，由此构造控制变量a_k，表示为：

3-2)更新评价网络的方法是最小化如下贝尔曼残差：

其中，ω_s,ω_a,ω_c分别为共享层参数、策略网络参数和评价网络参数。D为存储历史数据(s_k,a_k,c(s_k,a_k),s_k+1)的回放记忆；(s_k,a_k)～D表示s_k,a_k为D中提取的数据；C(ω_s,ω_a,ω_c)表示与目标神经网络的TD误差表达式：

C(ω_s,ω_a,ω_c)＝r_k+1+γV′(s_k+1|ω_s,ω_c)-V(s_k|ω_s,ω_c)-A(s_k,a_k|ω_s,ω_c)

Y(s_k,a_k)＝L^-1(s_k|ω_s,ω_c)(a_k-μ(s_k|ω_s,ω_a))

其中，目标神经网络与当前的强化学习神经网络结构相同，其参数更新较当前网络有延迟，评价网络和策略网络也对应有自己的目标网络；V′(s_k+1|ω_s,ω_c)为目标评价网络输出的累计奖励量；A(s_k,a_k|ω_s,ω_c)表示无人机在当前状态下采取当前动作相较于其他动作的优势函数估计，采用二次型的形式近似，Y(s_k,a_k)是优势函数A(s_k,a_k|ω_s,ω_c)计算过程的中间变量，V(s_k|ω_s,ω_c)由评价网络输出得到；

步骤4)、得到无人机最短时间轨迹规划的具体步骤如下：

4-1)参数设置；

4-2)初始化；

共享部分层数的评价网络和策略网络的权重参数初始值均为0；将初始化后的策略网络记为当前策略网络将初始化后的评价网络记为当前评价网络V(s_k|ω_s,ω_c)；

设空的经验队列集合D；

4-3)迭代开始，令初始化迭代次数为m＝1；

4-4)初始化时刻为k＝0，初始化无人机当前位置,、障碍位置和目标位置；

4-6)将步骤4-4)至4-5)得到的数据记为一个经验样本d_k＝(s_k,a_k,r_k+1,s_k+1)，存入经验队列D；

4-7)统计经验队列D中的经验样本个数设为N_D并判定：若N_D≤N，则转到步骤4-5)；若N_R>N，则进入步骤4-8)；

4-8)从经验队列D中随机抽取N个经验样本d₁,d₂,…,d_n；利用每个经验样本计算一个C(ω_s,ω_a,ω_c)的值，第i个值定义为C_i(ω_s,ω_a,ω_c)；

4-9)使用

更新评价网络和策略网络的权重参数ω_s,ω_a,ω_c；

使用更新目标神经网络的权重参数/>使用m+1更新训练次数m；

4-10)判定：若k>T或无人机当前状态满足设定的终止条件，则进入步骤4-11)，否则返回步骤4-5)，并使用k+1更新步数k；

4-11)进行判定：若m<M，则重新返回步骤4-4)，无人机再一次进行初始化并开始新一次的轨迹规划任务；否则迭代结束，将迭代终止时的当前策略网络作为最终的策略网络，记为/>将状态变量输入最终策略/>输出控制变量得到无人机最短时间轨迹。

2.如权利要求1所述的一种基于连续动作优势函数学习的无人机轨迹规划方法，其特征在于，所述4-10)中，设定的终止条件为无人机到达期望位置的距离小于设定阈值ξ_p。