CN116974299A

CN116974299A - 基于延迟经验优先回放机制的强化学习无人机航迹规划方法

Info

Publication number: CN116974299A
Application number: CN202311004197.1A
Authority: CN
Inventors: 龙腾; 钟建鑫; 孙景亮; 李俊志; 李承恩
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2023-08-10
Filing date: 2023-08-10
Publication date: 2023-10-31

Abstract

本发明公开的一种基于延迟经验优先回放机制的强化学习航迹规划方法，属于航迹规划技术领域。本发明实现方法为：考虑无人机动力学、飞行性能、地形和威胁约束构造无人机避障航迹规划问题模型，并以此设计航迹规划问题的强化学习状态‑动作‑奖励三要素；构建基于最大化熵策略的局部航迹规划训练与应用框架，通过“离线训练‑在线规划”分层机制降低局部信息驱动下航迹规划的计算耗时；结合非稀疏设计引导奖励函数，利用局部信息引导无人机逐渐趋近目标。引入策略延迟更新机制与优先经验回放机制，在网络参数的训练过程中，分阶段训练以加快强化学习训练收敛速度。本发明能够提升强化学习训练过程中的训练速度与稳定性，实现毫秒级在线航迹规划。

Description

基于延迟经验优先回放机制的强化学习无人机航迹规划方法

技术领域

本发明公开一种基于延迟经验优先回放机制的强化学习航迹规划方法，属于航迹规划技术领域。

背景技术

无人航迹规划是提升无人机在复杂战场环境的任务成功率和生存率的关键技术之一，其通过考虑无人机性能约束、飞行任务约束、地形、威胁等因素，设计满意或最优的无人机航迹，引导无人机完成给定的飞行任务。然而在实际应用场景中，复杂、高动态的战场环境使无人机难以感知全局态势，对在线航迹规划计算实时性提出了新的高度，要求无人机在秒级甚至毫秒级完成航迹在线规划，这增加未知环境中无人机航迹规划失败的风险，进而降低了无人机执行任务的成功率，难以满足日益复杂的实际战场作战任务需求。

发明内容

本发明的主要目的是提供一种基于延迟经验优先回放机制的强化学习航迹规划方法，面对实际作战环境下无人机全局态势未知，从“离线训练-在线规划”的强化学习训练与应用框架出发，将无人机航迹规划问题转化为马尔科夫过程，将问题解析为强化学习动作、状态、奖励三要素，针对训练过程中训练不稳定、训练速度慢的问题，引入延时更新方法与优先经验回放机制，加快强化学习训练收敛速度，提升强化学习航迹规划方法的在密集障碍环境内的规划成功率，并实现毫秒级航迹规划，提升动态场景下无人机航迹规划时效性。

本发明的目的是通过下述技术方案实现的：

本发明公开的一种基于延迟经验优先回放机制的强化学习航迹规划方法，针对无人机集群在复杂战场环境中难以获取全局态势的问题，考虑无人机动力学、飞行性能、地形和威胁约束构造无人机避障航迹规划问题模型，并以此设计航迹规划问题的强化学习状态-动作-奖励三要素。构建基于最大化熵策略的局部航迹规划训练与应用框架，通过“离线训练-在线规划”的分层机制降低局部信息驱动下航迹规划的计算耗时。结合非稀疏思想设计引导奖励函数，利用局部信息引导无人机逐渐趋近目标，缓解稀疏奖励下的强化学习训练收敛慢、航迹规划策略可行性差的问题。针对强化学习训练过程中训练不稳定、训练速度慢的问题，引入策略延迟更新机制与优先经验回放机制，在网络参数的训练过程中，分阶段训练，以加快强化学习训练收敛速度，并使得训练过程更加稳定。本发明能够提升强化学习训练过程中的训练速度与稳定性，实现毫秒级在线航迹规划。

本发明公开的一种基于延迟经验优先回放机制的强化学习航迹规划方法，包括如下步骤：

步骤一：初始化无人机飞行性能参数信息、航迹约束信息和任务环境信息。

获得无人机飞行性能参数信息、航迹约束信息和任务环境信息；所述的无人机飞行性能参数信息包括无人机飞行速度、最大转弯角和最小航迹段长度；所述的航迹约束信息包括无人机的飞行起点位置、目标点位置、无人机与障碍物间的安全距离；所述的任务环境信息包括禁飞区的位置、半径。

步骤二：考虑无人机性能约束与任务环境约束，构造无人机避障航迹规划问题模型。从“离线训练-在线规划”的强化学习训练与应用框架出发，将无人机航迹规划问题转化为马尔科夫决策过程，将无人机航迹规划问题解析为强化学习动作、状态、奖励三要素，当无人机与环境交互时，记录每一时刻的当前状态、当前动作、执行动作后的奖励以及下一时刻的状态并将其组成为一个四元组经验，便于后续步骤三利用四元组经验对强化学习策略网络与价值网络进行网络参数的更新；基于优先经验回放池提高对所述四元组经验的利用率；结合优先回放机制构建最大熵策略深度强化学习网络模型；建立基于优先经验回放机制的最大化熵策略深度强化学习网络模型，即建立适用于强化学习无人机避障航迹规划问题模型。

所述无人机性能约束包括最小航迹段长度约束、最大爬升/俯冲约束和最大转弯角约束。所述无人机任务环境约束包括地形约束和禁飞区约束。

构造无人机避障航迹规划问题模型，并以此设计航迹规划问题的强化学习状态-动作-奖励三要素。

步骤2.1：根据无人机性能约束、任务环境约束和无人机局部避障方法，构建如公式(1)所示的无人机的运动学模型为

其中p(t)＝(x_t,y_t,z_t)是无人机在时间t的位置信息，θ_t是t时刻的航向角，是t时刻的俯仰角，/>是t时刻的航向角控制量，/>是t时刻的俯仰角控制量，V是无人机的速度，δ_t为时间步长。

①最小航迹段长度约束：考虑无人机机动性能约束，无人机在开始机动之前必须保证一个最短的直飞距离，为减小导航误差，在远距离飞行任务中，无人机尽量避免频繁的机动转弯。当最小航迹段长度为l_min时，航迹段长度约束表示为

l_i≥l_min,i＝1,2,...,n-1 (2)

②最大爬升/俯冲约束：考虑无人机机动性能约束、重力和发动机推力的影响，在垂直平面内，无人机的爬升/俯冲机动存在最大限制。当爬升/俯冲角的最大限制为ψ_max时，该约束如式(3)表示

ψ_i≤ψ_max,i＝1,2,...,n-1 (3)

③最大转弯角约束：考虑无人机机动性能约束和飞行任务需求，根据无人机的机动能力确定最大转弯范围，无人机只能在预先设定的转弯范围内机动，以保证航迹合理可行。当最大转弯角为φ_max时，则有

φ_i≤φ_max,i＝1,2,...,n-1 (4)

④地形约束：为保证地形不会对执行任务的无人机造成威胁，无人机需要与地面保持一定的相对安全高度。当最小相对安全高度h_min时，地形约束表示为：

z(t)-H(t)≥h_min (5)

其中H(t)为t时刻时，无人机正下方的地形高度。

⑤禁飞区约束，将各类障碍和威胁统一为圆柱体禁飞区，则禁飞区约束表示为

||p(t)-o_i(t)||≥r_safe+r_i,i＝1,2,...,M (6)

其中o_i表示为禁飞区i的位置，r_safe为无人机的安全半径，r_i为禁飞区i的威胁半径。

步骤2.2：基于强化学习的航迹规划的无人机状态包括无人机自身的位置信息、障碍信息以及与目标区域的相关信息。将禁飞区简化为圆柱体区域，无人机和禁飞区i在时间t的相对位置记为相应的禁飞区半径为r_i；与目标半径为r_g，得到无人机的状态要素为

基于无人机的运动学模型，无人机的动作为

无人机奖励要素需要综合考虑无人机的约束，奖励由下式给出

其中为目标引导奖励，/>为碰撞惩罚，/>为角度指令惩罚，/>为路程惩罚。

在无人机接近目标或到达目标后会得到奖励，通过给予无人机如公式(10)所示的引导奖励，引导无人机快速朝目标靠近

根据公式(11)对无人机与禁飞区或地面相对距离进行惩罚设置，通过碰撞惩罚将在航迹规划中约束无人机与禁飞区的距离保持在安全距离内，同时约束无人机与地面的相对距离始终大于最小距离

根据公式(12)对无人机航向角控制量和偏航角控制量进行惩罚设置，通过角度指令惩罚将约束无人机尽量以较小的控制量进行航迹规划

据公式(13)对无人机的航迹规划时的总路程进行惩罚设置，通过路程惩罚约束航迹规划时的路程总长度尽可能小，以提升规划航迹的最优性。

步骤2.3：将优先经验回放机制引入最大化熵策略的深度强化学习网络模型，最大化熵策略深度强化学习网络模型训练时从优先回放经验池中提取经验指导策略网络和价值网络更新，并得到每一个四元组经验的对价值网络目标函数计算时的时间差分误差，从而在更新网络的同时更新四元组经验的回放权重，即实现基于优先经验回放机制的使用最大化熵策略的深度强化学习网络模型的建立，同时明确基于优先经验回放机制的使用最大化熵策略的深度强化学习网络模型参数更新方法。

所述基于优先经验回放机制的使用最大化熵策略的深度强化学习网络模型主要由优先经验回放池和使用最大化熵策略的深度强化学习网络模型组成。

建立优先经验回放池。当无人机与环境交互时，会形成一个四元组{(s_t,a_t,r(s_t,a_t),s_t+1)}，其中包括当前状态、当前动作、执行动作后的奖励以及下一时刻的状态，并将其存入优先经验回放池中。每个新的四元组都会被赋予一个初始化的回放权重p_i。回放权重在初始化时如公式(14)所示设置为目前已有最大的权重，提升尚未被抽取的经验被抽取的概率，从而提高对经验的利用效率：

每个四元组被抽取的概率P(i)都和其回放权重有关，为

其中指数χ为使用经验优先的程度，如果χ＝0，则表示放弃经验优先，每一个经验的拥有相同的被抽取的概率。对经验回放池中的样本进行优先级排序，使得优先选择对当前策略的学习更为重要的样本进行训练，从而提高航迹规划算法训练的效率和性能；优先经验回放机制将改变抽样的分布，需要使用重要性采样比例的方式进行弥补。其需要与使用优先经验回放经验池的深度强化学习算法进行有机结合。

基于优先经验回放机制的使用最大化熵策略的深度强化学习网络模型主要由两个同结构而参数分别为θ₁和θ₂的价值网络、一个网络参数为φ的策略网络、一个优先经验回放经验池以及两个网络参数为/>与/>目标价值网络组成。目标价值网络初始参数与对应的价值网络完全相同，在后续更新中使用软更新机制更新，以减小特殊情况下价值网络的不稳定性问题

其中τ为需要设定的软更新系数。

价值网络和策略网络的结构均为人工神经网络结构。价值网络更新时，价值网络参数的更新转变为一个基于最大化熵策略的优化问题，其目标函数为

其中表示括号内的式子的期望，经验(s_t,a_t,s_t+1)是从经验池/>中抽取的，t+1时刻的动作a_t+1是由策略网络π_θ中预测得知的。优化时使用梯度下降法更新

其中λ是步长，表示对目标函数J_Q(θ_k)关于网络参数θ_k的梯度，由于优先回放经验机制会改变抽取经验的分布，使用重要性采样比例的方法进行补偿，在计算梯度时需要乘上重要性采样权重

其中N为从经验池中抽取的经验的总数，ω_j为重要性采样权重。

策略网络参数的更新也是一个优化问题

其中利用重参数化的方法，将策略网络进行了拆分，其会根据当前状态与标准正态采样的噪声ε_t输出动作a_t

f_φ(·)是由策略网络参数构成的函数，π_φ(a_t|s_t)为s_t状态下a_t动作输出的概率。通过重参数化的方法，目标函数变为

其更新同样使用梯度下降法实现

其中梯度计算同样需要使用重要性采样

其中α为温度系数，需要预先设定初始值，后续温度系数α与策略网络参数一起利用梯度下降法更新

其中目标函数的梯度由下式给出

其中是一个与动作维度相关的常数，取/>

根据式(17)(19)(21)(25)(27)实现基于优先经验回放机制的使用最大化熵策略的深度强化学习网络模型的建立，同时明确基于优先经验回放机制的使用最大化熵策略的深度强化学习网络模型参数更新方法。

步骤三：在步骤二中所建立的基于优先经验回放机制的最大化熵策略深度强化学习网络模型的基础上，引入“离线训练-在线规划”的强化学习训练与应用框架，进行无人机航迹规划。利用神经网络构建价值网络、策略网络和相应的目标网络，并使用重参数化方法构建策略网络，以实现策略网络梯度的快速求解，构建基础的基于最大熵策略的局部航迹规划策略与应用框架。引入优先经验回放与延迟策略更新机制，提升训练过程的稳定性与训练速度。引入分阶段训练方法，共分三个阶段对网络参数的训练，得到充分训练的策略网络和价值网络。

分阶段训练方法是通过依次修改环境奖励的方式将网络参数的训练分成三个阶段。在第一阶段，在训练的过程中仅考虑目标引导奖励和路程惩罚，基于目标抵达奖励和趋近目标奖励，通过对策略的迭代训练使得无人机策略学会飞向目标区域。在第二阶段，将碰撞惩罚引入奖励函数，在第二阶段考虑目标奖励、路程惩罚和碰撞惩罚，通过训练将对威胁的规避行为引导到无人机的行为中。第三阶段，为了引导无人机尽快接近目标区域，并避免较大的机动，将角度指令惩罚项引入奖励函数。因此第一阶段开始前需要初始化所有的网络参数，后续的阶段都要继承前一阶段训练的网络，在改变环境奖励函数的情况下进行新一阶段的训练。

引入延时更新方法与优先经验回放机制，加快强化学习训练收敛速度，采用分阶段训练的方法，逐步提升无人机的探索能力。训练过程中，无人机与环境不断交互，获取四元组经验并存于优先经验回放池中，根据获取的经验指导强化学习价值网络参数与策略网络参数的更新，得到训练后的价值网络与策略网络。

步骤三具体实现方法为：

步骤3.1：初始化两个同结构的价值网络参数θ₁和θ₂，初始化一个策略网络参数φ，以及一个优先经验回放经验池目标价值网络参数/>与/>初始化由对应的价值网络赋值得到。初始化总迭代次数，选择梯度下降更新优化器，确定每次与环境交互的最大次数，确定每次更新网络次数。

步骤3.2：明确当前训练阶段，确定当前阶段的奖励函数，确定当前阶段最大的迭代次数，开始本阶段的训练。

步骤3.3：重置当前的无人机状态与环境，无人机与环境进行交互。每次交互都得到一次经验，将其储存在优先经验回放池中。在与环境交互时如果无人机到达目标区域或者交互次数达到最大次数，进入步骤3.4。

步骤3.3的具体实现方法如下：

步骤3.3.1：随机一个带有禁飞区与地形的环境，并重置无人机状态为s₀。

步骤3.3.2：策略网络在当前策略网络参数下，根据当前的环境s_t，得到当前的动作a_t，并与环境交互得到下一时刻的状态s_t+1。

步骤3.3.3：将本次得到的经验储存为一个四元组{(s_t,a_t,r(s_t,a_t),s_t+1)}，存入经验优先回放池中，并给其初始化一个回放权重。

步骤3.3.4：不断循环步骤3.3.1到3.3.3，直到无人机到达目标区域或者达到交互最大次数。

步骤3.4：根据新采集到的数据大小决定更新价值网络的次数，通过反向梯度传播更新价值网络，并同时更新从经验池中抽取的数据的权重，以及对应的目标价值网络。

步骤3.4的具体实现方法如下：

步骤3.4.1：根据每一个四元组经验的对应的权重，从优先回放经验池中抽取一定批量的经验。

步骤3.4.2：利用梯度下降法更新一次两个价值网络参数θ₁和θ₂。

步骤3.4.3：更新已经被使用过的经验的权重，其通过计算式(19)得到的时间差分误差δ_i更新。

p_i＝|δ_i|+ε (28)

步骤3.4.4：使用软更新方法更新一次目标价值网络。

步骤3.4.5：引入延迟策略更新机制，不断更新，直至更新次数N_up满足

其中，N_new新得到的经验数，B_k是每次更新抽取的经验数。

步骤3.5：更新策略网络参数φ，并且更新其中的温度系数，重复一定次数。

步骤3.5的具体实现方法如下：

步骤3.5.1：从优先回放经验池中抽取批量经验，使用梯度下降法更新策略网络参数。

步骤3.5.2：使用梯度下降更新温度系数。

步骤3.5.3：将3.4.1和3.4.2重复预定次数。

步骤3.6：重复步骤3.2-3.5，直至训练出较为稳定的网络参数θ和φ为止。

步骤四：通过步骤三，得到稳定的策略网络与价值网络后，进行在线航迹规划。策略网络根据无人机当前的状态给出无人机航向角和偏航角控制量，无人机执行动作并得到下一时刻的状态，重复迭代上述在线航迹规划过程，实现滚动无人机航迹滚动规划，利用策略网络计算快、高鲁棒的优点，提升强化学习航迹规划在密集障碍环境内的规划成功率，并实现毫秒级航迹规划，提升动态场景下无人机航迹规划实时性。

步骤4.1：初始化目标环境以及无人机位置。得到无人机初始状态s₀。

步骤4.2：将状态传输给无噪声的重参数化后的策略网络f_φ(0；s_t)，得到s_t状态下的最优动作a_t。

步骤4.3：执行动作a_t，无人机受控运动，得到t+1时刻的状态s_t+1。

步骤4.4：重复步骤4.1到步骤4.3实现滚动无人机航迹滚动规划，直至无人机到达目标区域。

有益效果：

1、本发明公开的一种基于延迟经验优先回放机制的强化学习无人机航迹规划方法，针对复杂作战环境下无人机全局态势未知、高动态战场环境下对计算实时性的高要求，建立延迟经验优先回放机制的强化学习航迹规划模型，在考虑运动学等多种约束的情况下，构建利用“离线训练-在线规划”强化学习训练与应用框架，将无人机航迹规划问题转化为马尔科夫决策过程，将无人机航迹规划问题解析为强化学习动作、状态、奖励三要素，当无人机与环境交互时，记录每一时刻的当前状态、当前动作、执行动作后的奖励以及下一时刻的状态并将其组成为一个四元组经验，便于利用四元组经验对强化学习策略网络与价值网络进行网络参数的更新；基于优先经验回放池提高对所述四元组经验的利用率；结合优先回放机制构建最大熵策略深度强化学习网络模型；建立基于优先经验回放机制的最大化熵策略深度强化学习网络模型，即建立适用于强化学习无人机避障航迹规划问题模型；策略网络根据无人机当前的状态给出无人机航向角和偏航角控制量，无人机执行动作并得到下一时刻的状态，重复迭代上述在线航迹规划过程，实现滚动无人机航迹滚动规划，利用策略网络计算快、高鲁棒的优点，提升强化学习航迹规划在密集障碍环境内的规划成功率，并实现毫秒级航迹规划，提升动态场景下无人机航迹规划实时性。

2、本发明公开的一种基于延迟经验优先回放机制的强化学习无人机航迹规划方法，将优先经验回放机制与最大化熵深度强化学习算法结合，并设计延迟经验更新机制，使得强化学习策略网络在充分训练后的价值网络指导下更新，提高经验利用效率，通过采用分阶段训练的方式，依次修改环境奖励的方式将网络参数的训练分成三个阶段，得到充分训练的策略网络和价值网络，提升训练过程中强化学习网络参数收敛速度。

附图说明

图1为本发明公开的一种基于延迟经验优先回放机制的强化学习无人机航迹规划方法的流程图；

图2为无人机状态定义示意图；

图3为解耦策略网络结构示意图；

图4为基于延迟经验优先回放机制的强化学习无人机航迹规划路径结果；

图5为实施例1中规划路径结果中无人机与障碍之间的最小距离。

具体实施方式

为了更好的说明本发明的目的与优点，下面通过无人机航迹规划实例，结合附图与表格对本发明做进一步说明。

实施例1：

仿真硬件为Intel Core i5-12600KF CPU 3.70GHz，16G内存，3060Ti 8G显卡。仿真环境为python，使用的深度学习框架为tensorflow 2。无人机在10000m×10000m×3000m的三维环境中执行任务。无人机与障碍间的安全距离为200m。

本实施例公开的基于延迟经验优先回放机制的强化学习无人机航迹规划方法，具体实现步骤如下：

步骤一：获得无人机飞行性能参数信息、航迹约束信息和任务环境信息。

表1禁飞区信息

禁飞区信息	位置(km)	半径(km)	禁飞区信息	位置(km)	半径(km)
						禁飞区1	(5.0,5.0)	0.75	禁飞区10	(8.3,1.5)	1
禁飞区2	(2.0,1.6)	0.5	禁飞区11	(6.8,9.0)	0.75
						禁飞区3	(2.6,3.2)	0.7	禁飞区12	(3.4,0.8)	0.625
禁飞区4	(4.8,2.8)	1	禁飞区13	(3.5,8.2)	0.975
						禁飞区5	(5.5,7.2)	0.65	禁飞区14	(1.0,7.9)	0.825
禁飞区6	(7.0,5.4)	0.82	禁飞区15	(0.8,3.5)	0.8
						禁飞区7	(2.5,6.0)	0.65	禁飞区16	(0.8,5.5)	0.7
禁飞区8	(7.0,6.0)	0.6	禁飞区17	(9.5,8.2)	0.5
						禁飞区9	(8.2,9.0)	0.5

设定无人机的飞行速度为500m/s，最大转弯角为60°，最小航迹段长度l_min＝1500m。无人机的飞行起点为(0.5,0.5,1.4)km,目标区域为(9.5,9.5,2.3)km，目标区域覆盖半径为200m。任务环境中禁飞区的位置、半径如表1所列。

步骤二：建立全局态势未知的无人机航迹规划模型，如式(23)-(37)所示。

步骤2.1：无人机运动学模型

航迹段长度约束：

l_i≥500m,i＝1,2,...,n-1 (31)

最大爬升/俯冲约束：

ψ_i≤60°,i＝1,2,...,n-1 (32)

最大转弯角约束：

φ_i≤60°,i＝1,2,...,n-1 (33)

最小相对安全高度约束：

z(t)-H(t)≥200m (34)

禁飞区约束：

||p(t)-o_i(t)||≥200m+r_i,i＝1,2,...,M (35)

步骤2.2：基于强化学习航迹规划的状态-动作-奖励三要素

无人机的状态要素为：

这需要结合无人机当前位置实时解算，由于全局态势未知，仅考虑搜索范围内离无人机最近的四个障碍，此时状态要素为24维向量。

无人机的动作要素为一个二维的列向量，其由后续搭建的策略网络输出：

无人机的奖励要素为：

其中r_arrival＝5，于是引导奖励为：

碰撞时的惩罚项r_collision＝-8，于是碰撞惩罚为：

角度指令惩罚

路程惩罚

步骤2.3：建立优先经验回放池

经验回访池的存储结构为二叉树，存储上限为10⁶个经验。每个新经验存入是的回放权重为

每个四元组经验被抽取的概率为

其中指数χ＝0.6

(4)基于优先经验回放机制的使用最大化熵策略的深度强化学习网络模型

初始化参数为θ₁和θ₂的网络，两个网络均为一个含有3个有64个神经元隐藏层的人工神经网络，激活函数均为Relu。输入为状态和对应的动作，输出层为一个线性层。策略网络如图三所示。其输入为当前的状态，经过一个隐藏层后提取环境特征后，分别传入两个的神经网络中去，由这两个神经网络分别输出解耦的俯仰角指令和航向角指令，其中的隐藏层均为64个神经元、激活函数为Relu的全连接层。

目标价值网络的初始化通过复制完全相同的对应的价值网络实现，其在后续更新中使用软更新机制更新

其中τ＝0.99。

价值网络、策略网络和温度系数的更新均使用梯度下降法实现，价值网络的梯度方向为：

策略网络的梯度方向为：

温度系数初始值为α＝0.2，参数温度系数的梯度方向为：

选择Adam优化器进行优化，初始学习率均为3×10^-4。

构建基于最大熵策略的局部航迹规划策略与应用框架，通过“离线训练-在线规划”的分层机制实现无人机航迹规划。利用神经网络构建价值网络、策略网络以及相应的目标网络，并重参数化策略网络，实现梯度的可求解，构建基础的基于最大熵策略的局部航迹规划策略与应用框架。引入优先经验回放与延迟策略更新机制，提升训练过程的稳定性与训练速度。最后引入分阶段训练方法，共分三个阶段对网络参数的训练，并最终得到充分训练的策略网络参数和价值网络参数。

其中分阶段训练方法是通过依次修改环境奖励的方式将网络参数的训练分成三个阶段。在第一阶段，在训练的过程中仅考虑目标引导奖励和路程惩罚，基于目标抵达奖励和趋近目标奖励，通过对策略的迭代训练使得无人机策略学会飞向目标区域。在第二阶段，将碰撞惩罚引入奖励函数，在这一阶段考虑目标奖励、路程惩罚和碰撞惩罚，通过训练将对威胁的规避行为引导到无人机的行为中。第三阶段，为了引导无人机尽快接近目标区域，并避免较大的机动，将角度指令惩罚项引入奖励函数。因此第一阶段开始前需要初始化所有的网络参数，后续的阶段都要继承前一阶段训练的网络，在改变环境奖励函数的情况下进行新一阶段的训练。

步骤三具体实现方法为：

步骤3.1：建立步骤二中的基于优先经验回放机制的使用最大化熵策略的深度强化学习网络模型。每个阶段的迭代次数分别为1×10⁴，2×10⁴和2×10⁴，所有的网络参数优化器均为Adam，每轮无人机与环境交互的最大次数为200次，每轮更新网络参数次数为200次。

步骤3.3：重置当前的无人机状态与环境，无人机与环境进行交互。每次交互都得到一次经验，将其储存在优先经验回放池中。在与环境交互时如果无人机到达目标区域或者交互次数达到最大次数，就进入步骤3.4。

步骤3.3的具体实现方法如下：

步骤3.4的具体实现方法如下：

步骤3.4.1：根据每一个四元组经验的对应的权重，从优先回放经验池中抽取128个四元组经验。

步骤3.4.3：更新已经被使用过的经验的权重，其通过计算式(46)得到的时间差分误差δ_i更新，其中ε＝0.01：

p_i＝|δ_i|+ε (49)

步骤3.4.4：使用软更新方法更新一次目标价值网络。

其中，N_new新得到的经验数，B_k是每次更新抽取的经验数，这边取N_up＝2。

步骤3.5：更新策略网络参数φ，并且更新其中的温度系数，重复2次。

步骤3.5的具体实现方法如下：

步骤3.5.1：从优先回放经验池中抽取128个四元组经验，使用优化器更新策略网络参数

步骤3.5.2：使用优化器更新温度系数

步骤3.5.3：将3.4.1和3.4.2重复一定次数。

步骤四：经过离线训练得到稳定的策略网络与价值网络后，进行滚动航迹规划，直至到达目的地。

步骤4.4：重复步骤4.1到步骤4.3直至无人机到达目标区域。

基于延迟经验优先回放机制的强化学习无人机航迹规划路径如图4所示，整个规划过程耗时74ms，单步规划耗时3.1ms，实现了毫秒级规划，规划路径与障碍的最小距离如图5所示，该图说明采用动态MPC避障方法的避障器具有较好的局部避障性能。综上所述，结果表明该方法能够生成可靠的无人机群实时协同路径。

根据前述的无人机航迹规划实例仿真结果与分析可见，本实施例所述的指定航程航迹规划方法能够为无人机在全局态势未知的情况下快速生成单步航迹规划，航迹生成速度具有极高的效率，因此本发明具有很强的工程实用性，并且能够实现预期的发明目的。

以上的具体描述，是对发明的目的、技术方案和有益效果的进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施实例，仅用于解释本发明，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于延迟经验优先回放机制的强化学习航迹规划方法，其特征在于：包括如下步骤，

步骤一：初始化无人机飞行性能参数信息、航迹约束信息和任务环境信息；

获得无人机飞行性能参数信息、航迹约束信息和任务环境信息；所述的无人机飞行性能参数信息包括无人机飞行速度、最大转弯角和最小航迹段长度；所述的航迹约束信息包括无人机的飞行起点位置、目标点位置、无人机与障碍物间的安全距离；所述的任务环境信息包括禁飞区的位置、半径；

步骤二：考虑无人机性能约束与任务环境约束，构造无人机避障航迹规划问题模型；从“离线训练-在线规划”的强化学习训练与应用框架出发，将无人机航迹规划问题转化为马尔科夫决策过程，将无人机航迹规划问题解析为强化学习动作、状态、奖励三要素，当无人机与环境交互时，记录每一时刻的当前状态、当前动作、执行动作后的奖励以及下一时刻的状态并将其组成为一个四元组经验，便于后续步骤三利用四元组经验对强化学习策略网络与价值网络进行网络参数的更新；基于优先经验回放池提高对所述四元组经验的利用率；结合优先回放机制构建最大熵策略深度强化学习网络模型；建立基于优先经验回放机制的最大化熵策略深度强化学习网络模型，即建立适用于强化学习无人机避障航迹规划问题模型；

所述无人机性能约束包括最小航迹段长度约束、最大爬升/俯冲约束和最大转弯角约束；所述无人机任务环境约束包括地形约束和禁飞区约束；

步骤三：在步骤二中所建立的基于优先经验回放机制的最大化熵策略深度强化学习网络模型的基础上，引入“离线训练-在线规划”的强化学习训练与应用框架，进行无人机航迹规划；利用神经网络构建价值网络、策略网络和相应的目标网络，并使用重参数化方法构建策略网络，以实现策略网络梯度的快速求解，构建基础的基于最大熵策略的局部航迹规划策略与应用框架；引入优先经验回放与延迟策略更新机制，提升训练过程的稳定性与训练速度；引入分阶段训练方法，共分三个阶段对网络参数的训练，得到充分训练的策略网络和价值网络；

步骤四：通过步骤三，得到稳定的策略网络与价值网络后，进行在线航迹规划；策略网络根据无人机当前的状态给出无人机航向角和偏航角控制量，无人机执行动作并得到下一时刻的状态，重复迭代上述在线航迹规划过程，实现滚动无人机航迹滚动规划，提升动态场景下无人机航迹规划实时性。

2.如权利要求1所述的一种基于延迟经验优先回放机制的强化学习航迹规划方法，其特征在于：步骤二实现方法为，

其中p(t)＝(x_t,y_t,z_t)是无人机在时间t的位置信息，θ_t是t时刻的航向角，是t时刻的俯仰角，/>是t时刻的航向角控制量，/>是t时刻的俯仰角控制量，V是无人机的速度，δ_t为时间步长；

①最小航迹段长度约束：考虑无人机机动性能约束，无人机在开始机动之前必须保证一个最短的直飞距离，为减小导航误差，在远距离飞行任务中，无人机尽量避免频繁的机动转弯；当最小航迹段长度为l_min时，航迹段长度约束表示为

l_i≥l_min,i＝1,2,...,n-1 (2)

②最大爬升/俯冲约束：考虑无人机机动性能约束、重力和发动机推力的影响，在垂直平面内，无人机的爬升/俯冲机动存在最大限制；当爬升/俯冲角的最大限制为ψ_max时，该约束如式(3)表示

③最大转弯角约束：考虑无人机机动性能约束和飞行任务需求，根据无人机的机动能力确定最大转弯范围，无人机只能在预先设定的转弯范围内机动，以保证航迹合理可行；当最大转弯角为φ_max时，则有

φ_i≤φ_max,i＝1,2,...,n-1 (4)

④地形约束：为保证地形不会对执行任务的无人机造成威胁，无人机需要与地面保持一定的相对安全高度；当最小相对安全高度h_min时，地形约束表示为：

z(t)-H(t)≥h_min (5)

其中H(t)为t时刻时，无人机正下方的地形高度；

||p(t)-o_i(t)||≥r_safe+r_i,i＝1,2,...,M (6)

其中o_i表示为禁飞区i的位置，r_safe为无人机的安全半径，r_i为禁飞区i的威胁半径；

步骤2.2：基于强化学习的航迹规划的无人机状态包括无人机自身的位置信息、障碍信息以及与目标区域的相关信息；将禁飞区简化为圆柱体区域，无人机和禁飞区i在时间t的相对位置记为相应的禁飞区半径为r_i；与目标半径为r_g，得到无人机的状态要素为

基于无人机的运动学模型，无人机的动作为

其中为目标引导奖励，/>为碰撞惩罚，/>为角度指令惩罚，/>为路程惩罚；

据公式(13)对无人机的航迹规划时的总路程进行惩罚设置，通过路程惩罚约束航迹规划时的路程总长度尽可能小，以提升规划航迹的最优性；

步骤2.3：将优先经验回放机制引入最大化熵策略的深度强化学习网络模型，最大化熵策略深度强化学习网络模型训练时从优先回放经验池中提取经验指导策略网络和价值网络更新，并得到每一个四元组经验的对价值网络目标函数计算时的时间差分误差，从而在更新网络的同时更新四元组经验的回放权重，即实现基于优先经验回放机制的使用最大化熵策略的深度强化学习网络模型的建立，同时明确基于优先经验回放机制的使用最大化熵策略的深度强化学习网络模型参数更新方法；

所述基于优先经验回放机制的使用最大化熵策略的深度强化学习网络模型主要由优先经验回放池和使用最大化熵策略的深度强化学习网络模型组成；

建立优先经验回放池；当无人机与环境交互时，会形成一个四元组{(s_t,a_t,r(s_t,a_t),s_t+1)}，其中包括当前状态、当前动作、执行动作后的奖励以及下一时刻的状态，并将其存入优先经验回放池中；每个新的四元组都会被赋予一个初始化的回放权重p_i；回放权重在初始化时如公式(14)所示设置为目前已有最大的权重，提升尚未被抽取的经验被抽取的概率，从而提高对经验的利用效率：

每个四元组被抽取的概率P(i)都和其回放权重有关，为

其中指数χ为使用经验优先的程度，如果χ＝0，则表示放弃经验优先，每一个经验的拥有相同的被抽取的概率；对经验回放池中的样本进行优先级排序，使得优先选择对当前策略的学习更为重要的样本进行训练，从而提高航迹规划算法训练的效率和性能；优先经验回放机制将改变抽样的分布，需要使用重要性采样比例的方式进行弥补；其需要与使用优先经验回放经验池的深度强化学习算法进行有机结合；

基于优先经验回放机制的使用最大化熵策略的深度强化学习网络模型主要由两个同结构而参数分别为θ₁和θ₂的价值网络、一个网络参数为φ的策略网络、一个优先经验回放经验池以及两个网络参数为/>与/>目标价值网络组成；目标价值网络初始参数与对应的价值网络完全相同，在后续更新中使用软更新机制更新，以减小特殊情况下价值网络的不稳定性问题

其中τ为需要设定的软更新系数；

价值网络和策略网络的结构均为人工神经网络结构；价值网络更新时，价值网络参数的更新转变为一个基于最大化熵策略的优化问题，其目标函数为

其中表示括号内的式子的期望，经验(s_t,a_t,s_t+1)是从经验池/>中抽取的，t+1时刻的动作a_t+1是由策略网络π_θ中预测得知的；优化时使用梯度下降法更新

其中N为从经验池中抽取的经验的总数，ω_j为重要性采样权重；

策略网络参数的更新也是一个优化问题

f_φ(·)是由策略网络参数构成的函数，π_φ(a_t|s_t)为s_t状态下a_t动作输出的概率；通过重参数化的方法，目标函数变为

其更新同样使用梯度下降法实现

其中梯度计算同样需要使用重要性采样

其中目标函数的梯度由下式给出

其中是一个与动作维度相关的常数，取/>

3.如权利要求2所述的一种基于延迟经验优先回放机制的强化学习航迹规划方法，其特征在于：步骤三中，

分阶段训练方法是通过依次修改环境奖励的方式将网络参数的训练分成三个阶段；在第一阶段，在训练的过程中仅考虑目标引导奖励和路程惩罚，基于目标抵达奖励和趋近目标奖励，通过对策略的迭代训练使得无人机策略学会飞向目标区域；在第二阶段，将碰撞惩罚引入奖励函数，在第二阶段考虑目标奖励、路程惩罚和碰撞惩罚，通过训练将对威胁的规避行为引导到无人机的行为中；第三阶段，为了引导无人机尽快接近目标区域，并避免较大的机动，将角度指令惩罚项引入奖励函数；因此第一阶段开始前需要初始化所有的网络参数，后续的阶段都要继承前一阶段训练的网络，在改变环境奖励函数的情况下进行新一阶段的训练；

引入延时更新方法与优先经验回放机制，加快强化学习训练收敛速度，采用分阶段训练的方法，逐步提升无人机的探索能力；训练过程中，无人机与环境不断交互，获取四元组经验并存于优先经验回放池中，根据获取的经验指导强化学习价值网络参数与策略网络参数的更新，得到训练后的价值网络与策略网络。

4.如权利要求3所述的一种基于延迟经验优先回放机制的强化学习航迹规划方法，其特征在于：步骤三实现方法为，

步骤3.1：初始化两个同结构的价值网络参数θ₁和θ₂，初始化一个策略网络参数φ，以及一个优先经验回放经验池目标价值网络参数/>与/>初始化由对应的价值网络赋值得到；初始化总迭代次数，选择梯度下降更新优化器，确定每次与环境交互的最大次数，确定每次更新网络次数；

步骤3.2：明确当前训练阶段，确定当前阶段的奖励函数，确定当前阶段最大的迭代次数，开始本阶段的训练；

步骤3.3：重置当前的无人机状态与环境，无人机与环境进行交互；每次交互都得到一次经验，将其储存在优先经验回放池中；在与环境交互时如果无人机到达目标区域或者交互次数达到最大次数，进入步骤3.4；

步骤3.3的具体实现方法如下：

步骤3.3.1：随机一个带有禁飞区与地形的环境，并重置无人机状态为s₀；

步骤3.3.2：策略网络在当前策略网络参数下，根据当前的环境s_t，得到当前的动作a_t，并与环境交互得到下一时刻的状态s_t+1；

步骤3.3.3：将本次得到的经验储存为一个四元组{(s_t,a_t,r(s_t,a_t),s_t+1)}，存入经验优先回放池中，并给其初始化一个回放权重；

步骤3.3.4：不断循环步骤3.3.1到3.3.3，直到无人机到达目标区域或者达到交互最大次数；

步骤3.4：根据新采集到的数据大小决定更新价值网络的次数，通过反向梯度传播更新价值网络，并同时更新从经验池中抽取的数据的权重，以及对应的目标价值网络；

步骤3.4的具体实现方法如下：

步骤3.4.1：根据每一个四元组经验的对应的权重，从优先回放经验池中抽取一定批量的经验；

步骤3.4.2：利用梯度下降法更新一次两个价值网络参数θ₁和θ₂；

步骤3.4.3：更新已经被使用过的经验的权重，其通过计算式(19)得到的时间差分误差δ_i更新；

p_i＝|δ_i|+ε (28)

步骤3.4.4：使用软更新方法更新一次目标价值网络；

其中，N_new新得到的经验数，B_k是每次更新抽取的经验数；

步骤3.5：更新策略网络参数φ，并且更新其中的温度系数，重复一定次数；

步骤3.5的具体实现方法如下：

步骤3.5.1：从优先回放经验池中抽取批量经验，使用梯度下降法更新策略网络参数；

步骤3.5.2：使用梯度下降更新温度系数；

步骤3.5.3：将3.4.1和3.4.2重复预定次数；

步骤3.6：重复步骤3.2至3.5，直至训练出较为稳定的网络参数θ和φ为止。

5.如权利要求4所述的一种基于延迟经验优先回放机制的强化学习航迹规划方法，其特征在于：步骤四实现方法为，

步骤4.1：初始化目标环境以及无人机位置；得到无人机初始状态s₀；

步骤4.2：将状态传输给无噪声的重参数化后的策略网络f_φ(0；s_t)，得到s_t状态下的最优动作a_t；

步骤4.3：执行动作a_t，无人机受控运动，得到t+1时刻的状态s_t+1；