CN112198870B

CN112198870B - 基于ddqn的无人机自主引导机动决策方法

Info

Publication number: CN112198870B
Application number: CN202010481676.2A
Authority: CN
Inventors: 张堃; 李珂; 时昊天; 张振冲; 刘泽坤
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2020-06-01
Filing date: 2020-06-01
Publication date: 2022-09-02
Anticipated expiration: 2040-06-01
Also published as: CN112198870A

Abstract

本发明提供了一种基于DDQN的无人机自主引导机动决策方法，基于优先级采样双深度Q学习算法与马尔可夫决策过程相结合的无人机自主引导机动决策方法，引入双Q学习算法改进深度Q学习算法的迭代方式，提高训练效率，采用优先级采样方法促进算法快速收敛，更好地利用历史数据的多样性；无人机可根据外界飞行环境状态实现自主引导机动决策，完成固定目标点下的自主引导机动决策，有效地提高了无人机飞行的自主性。本发明消除DQN算法存在的过拟合问题，极大地提高了无人机自主引导机动决策方法的离线训练效率，增强了无人机在飞行过程中的自主性，提高了无人机执行任务的效率。

Description

基于DDQN的无人机自主引导机动决策方法

技术领域

本发明涉及飞行机动决策和人工智能领域，具体涉及一种机动决策方法。

背景技术

随着电子技术与无人机技术近年来的快速发展，无人机性能迅速提升，各种新功能层出不穷。其中，如何提升无人机飞行的自主性能、避免人为操作失误，逐渐成为各国研究人员重点关注的研究方向。在传统的方法中，无人机向一个特定位置飞行时，需要预先规划飞行航路，然后无人机飞行员根据预定航路操纵无人机飞行。目前，一些导航控制方法被用于代替实现无人机的操纵者。通常，传统的方法基于博弈论、影响图、动态贝叶斯网络、近似动态规划、专家系统和进化算法等实现。然而，博弈论和影响图需要建立一个清晰、完整的问题模型，实现的过程相当复杂；动态贝叶斯网络需要完全理解问题，在面对未知条件时适应性低；近似动态规划要求必须完整建立问题的状态转移概率模型；专家系统要求研究人员必须建立一个完美的决策规则库；进化算法在解决在线求解问题时效率很低。近年来，由于电子技术的快速进步与人工智能技术的成熟化应用，多种多样的人工智能算法已经被逐渐应用于控制决策领域。有学者提出了深度Q学习算法(Deep Q-LearningNetwork，DQN)，将深度学习理论引入强化学习的实现中，采用深度神经网络拟合状态动作值函数，极大地提高了强化学习算法在解决工程问题上的可实践性。但是，深度Q学习算法(Deep Q-Learning， DQN)本身存在对状态动作值的过拟合问题。

发明内容

为了克服现有技术的不足，本发明提供一种基于优先级采样双深度Q学习算法(Prioritized Experience Replay Double DQN，PER-DDQN)与马尔可夫决策过程相结合的无人机自主引导机动决策方法，引入双Q学习算法(Double Q-Learning)改进深度Q学习算法的迭代方式，提高训练效率，采用优先级采样方法促进算法快速收敛，更好地利用历史数据的多样性；无人机可根据外界飞行环境状态实现自主引导机动决策，完成固定目标点下的自主引导机动决策，有效地提高了无人机飞行的自主性。

本发明解决其技术问题所采用的技术方案包括以下步骤：

1)建立无人机三自由度运动模型

式中，N_x、N_y分别为无人机在飞机坐标系中的切向过载和法向过载，v为无人机速度，θ为无人机航迹倾斜角，ψ_c为无人机航迹偏转角，γ_c为速度倾斜角，x、y和z为无人机在地理坐标系中的三向坐标，m为无人机质量，g为重力加速度；

2)采用马尔可夫决策过程理论建立无人机飞行仿真训练环境，以X_UAV＝(x,y,z)为无人机位置，X_TGT＝(x,y,z)为目标点位置，ψ_c为无人机航迹偏转角，ψ_T为目标点相对无人机的方位，D_T为目标点与无人机的距离；

无人机飞行状态空间定义为S＝{D_T,ψ_T,ψ_c}，式中，

为无人机与目标位置的距离，ψ_T∈[-π,π]为目标点相对无人机的方位，ψ_c为无人机航迹偏转角，

X_UAV为无人机位置，X_TGT为目标点位置，

为N方向的单位向量，

为目标点相对无人机的距离矢量，

为无人机与目标位置的距离；

无人机飞行动作空间定义为A(s)＝{a₀,a₁,…,a_n}，式中，a_i代表第i种机动，五种机动分别为平飞、右转、左转、轻微右转和轻微左转；基于基本操纵库建立包含5种机动的飞行动作空间；

根据任务目标

设计无人机飞行评价函数

式中，

为仿真第k步无人机与目标点之间的距离，D_min为无人机完成任务时与目标点的最短距离，

和

分别代表仿真第k步和第k+1步无人机与目标点的距离，T_s为仿真步长，

为无人机最大速度；建立如下任务终止回报函数：

当任务成功完成时，回报为1.0，否则为0.0；

3)基于深度神经网络生成无人机自主引导机动决策网络，基于优先级采样设计训练样本集生成方法；

3.1)、构建无人机自主引导机动决策网络；根据马尔可夫决策过程理论的定义，训练目标如下：

式(1)中，v(s,π)为效用函数，采用马尔可夫决策过程理论中的未来报酬折扣模型实现，未来报酬折扣模型效用函数定义如下：

式中，γ∈(0,1)为未来报酬折扣参数，

为前状态s_t∈S下使用策略π的报酬期望；状态动作值函数Q(s,a)的更新目标为效用函数v(s,π)的期望，如式(3)所示：

式(3)中，

为使用策略π的效用函数的期望；

采用深度神经网络构建状态动作值函数网络Q(s,a；θ)与目标网络Q(s,a；θ^-)，网络输入层神经元数目为无人机飞行状态空间维度，网络输出层为无人机飞行动作空间维数，目标网络Q(s,a；θ^-)结构与Q(s,a；θ)相同；根据

选择最优机动决策，其中，s_t∈S为当前环境状态，a_t∈A(s)为机动决策结果；每过C个训练周期，将Q(s,a；θ)的参数赋值给Q(s,a；θ^-)；

3.2)、基于优先级经验回放(Prioritized Experience Replay)构建经验集采样，经验集D定义如下：

D＝{s,a,r,s′} (4)

式(4)中，s为当前环境状态，a为当前状态下的最优动作，r为环境返回的回报， s′为环境采用a后的状态；在训练过程中，根据公式(4)的定义将每一时刻所产生的信息生成样本存入经验集D中，经验样本的采样概率为：

式(5)中，P(i)为第i个样本的采样概率，p_i为第i个样本的优先度，α∈[0,1]为优先级采样应用程度，表示在样本采样时优先级采样方法的应用程度；样本优先度的计算公式如下：

p_i＝|δ_i|+ε (6)

式(14)中，δ_i为样本的时序差分误差(TD-error)，为避免p_i为0，引入一个极小值修正量ε∈(0,0.1)，δ_i通过式(7)计算：

为消除优先级采样方法带来的训练样本集的偏差，引入重要性采样权重如下所示：

式中，ω_i为使用第i条样本训练时的重要性采样权重，用于消除因使用优先级采样所产生的训练集分布均值与随机采样方法的误差，N为经验集容量，P(i)为第i条样本的被采样概率，β∈[0,1]为重要性采样权重应用程度，表示该权重在实际训练中所产生的影响；为了训练的稳定性，根据

对ω_i进行归一化处理，简化后的重要性权重计算公式为：

β从初值β₀∈[0,1)开始逐渐增大到1.0；

3.3)、基于Double Q-Learning算法设计Q(s,a；θ^-)与Q(s,a；θ)的参数训练方程；根据Double Q-Learning算法定义，得到Q(s,a)的迭代公式，如式(10)所示：

式中，α^s为参数更新步长，r为状态s下采用动作a的报酬，γ∈[0,1]为未来报酬折扣参数；在训练过程中，首先根据优先级采样方法获取k组训练样本，则网络Q(s,a；θ) 的优化目标定义为：

式中，(s_i,a_i,r_i,s′_i)为第i组样本，分别为状态s_i，决策动作a_i，回报r_i和下一时刻状态s′_i，结合重要性采样权重，Q(s,a；θ)网络的参数更新量Θ通过式(12)累积得到：

式中，δ_j为第j个样本的时序差分误差(TD-error)，根据式(7)计算得到；

4)、对评价网络Q(s,a；θ)进行训练；

4.1)、载入训练样本集大小k，网络训练步长η，训练周期K，经验集容量N，指数α和β，目标网络参数更新周期C，单周期最长仿真步数T，仿真总数M，初始化经验集D，评价网络Q(s,a；θ)和目标网络Q(s,a；θ^-)；

4.2)、完成M周期训练，每周期进行T步，每过K步进行一次网络训练；算法在每个决策时刻依次完成观察环境状态、选择最优动作、观察动作执行后的环境状态并获取环境反馈的报酬流程；

4.3)、在每次训练时，进行k次采样，每次采样时完成以下步骤：

(1)根据式(5)完成第j个训练样本的采样；

(2)根据式(9)计算第j个训练样本对应的重要性采样权重ω_j；

(3)根据式(7)计算第j个训练样本的时间差分误差δ_j；

(4)更新第j个训练样本在经验集D中的有限度，令p_j＝|δ_j|；

(5)根据式(12)累积网络Q(s,a；θ)的参数向量的更新量；

4.4)、根据参数更新量Θ，使用适应性矩估计算法(Adaptive MomentEstimation， Adam)对网络Q(s,a；θ)的参数进行优化，每过C步更新目标网络Q(s,a；θ^-)的参数θ^-； Adam优化算法是一种替代随机梯度下降法的一阶优化算法，Adam通过计算梯度的一阶矩估计和二阶矩估计，针对不同训练情况生成独立的自适应性学习率；首先，计算网络梯度，如式(13)所示：

式中，g_t为网络Q(s,a；θ)在第t步优化时的梯度；然后，计算梯度的一阶矩估计：

m_t＝β₁·m_t-1+(1-β₁)·g_t (14)

式中，m_t为梯度的一阶矩估计，β₁为一阶矩估计的指数衰减率，m_t-1为梯度的一阶矩估计的历史值，根据式(15)计算梯度的二阶矩估计：

式中，v_t为梯度的二阶矩估计，β₂为二阶矩估计的指数衰减率，v_t-1为梯度的二阶矩估计的历史值；然后修正一阶矩估计的偏差：

式中，

为一阶矩估计修正量，再修正二阶矩估计的偏差：

式中，

为二阶矩估计修正量；最后，计算网络参数更新量：

式中，Δθ为参数更新量，η为学习率，ε∈(0,0.1]为极小值量，重复上述计算过程，直至网络收敛；

5)当训练结束后，Q(s,a；θ^-)为训练结果，在进行测试或应用时，通过观察环境状态s_t∈S，获取当前最优机动策略

本发明的有益效果是：引入Double Q-Learning算法消除DQN算法存在的过拟合问题，采用优先级采样方法代替均匀采样方法，极大地提高了无人机自主引导机动决策方法的离线训练效率。同时，由于深度强化学习方法的应用，本发明增强了无人机在飞行过程中的自主性，提高了无人机执行任务的效率。

附图说明

图1是马尔可夫决策过程理论模型示意图；

图2是固定目标点相对无人机位置描述图；

图3是PER-DDQN算法框架图；

图4是状态动作值函数Q(s,a)的网络结构示意图。

具体实施方式

本发明基于人工智能技术，提出了基于PER-DDQN的无人机自主引导机动决策方法，基于马尔可夫决策过程理论构建无人机自主引导机动决策模型，进而生成算法仿真训练环境，从而根据环境反馈生成无人机机动决策量，引导及控制无人机的飞行机动方式。该方法能够提高无人机自主引导机动决策算法的训练效率，提升无人机自主引导飞行能力。本发明能够实现无人机自主引导机动决策，安全快速地从起点飞向终点。

本发明采用如下技术方案：

1)建立无人机三自由度运动模型

2)采用马尔可夫决策过程理论建立无人机飞行仿真训练环境，如图1所示为马尔可夫决策过程模型。如图2所示为目标点相对无人机的状态描述，图中，N为正北方向，E为正东方向，以X_UAV＝(x,y,z)为无人机位置，X_TGT＝(x,y,z)为目标点位置，ψ_c为无人机航迹偏转角，ψ_T为目标点相对无人机的方位，D_T为目标点与无人机的距离；

无人机飞行状态空间定义为S{D_T,ψ_T,ψ_c}，式中，

X_UAV为无人机位置，X_TGT为目标点位置，

为N方向的单位向量，

为目标点相对无人机的距离矢量，

为无人机与目标位置的距离；

无人机飞行动作空间定义为A(s)＝{a₀,a₁,…,a_n}，a_i代表第i种机动。基于基本操纵库建立包含5种机动的飞行动作空间，如表1所示为无人机飞行动作库机动定义。表中，N_x为无人机在飞机坐标系中的切向过载，N_y为飞机坐标系中的法向过载，γ_c为速度倾斜角，五种机动分别为平飞、右转、左转、轻微右转和轻微左转。

表1无人机飞行动作库定义

根据任务目标

设计无人机飞行评价函数

式中，

和

为无人机最大速度；建立如下任务终止回报函数：

当任务成功完成时，回报为1.0，否则为0.0；

3)、基于深度神经网络生成无人机自主引导机动决策网络，基于优先级采样设计训练样本集生成方法。如图3所示为PER-DDQN算法结构图。

3.1)、构建无人机自主引导机动决策网络。根据马尔可夫决策过程理论的定义，训练目标如下：

式中，v(s_，π)为效用函数，采用马尔可夫决策过程理论中的未来报酬折扣模型实现，如式(2)所示为未来报酬折扣模型效用函数定义。

式中，γ∈(0,1)为未来报酬折扣参数，

为前状态s_t∈S下使用策略π的报酬期望。因此，状态动作值函数Q(s,a)的更新目标为效用函数v(s,π)的期望，如式(3)所示。

式中，

为使用策略π的效用函数的期望。根据深度学习理论，采用深度神经网络构建状态动作值函数网络Q(s,a；θ)与目标网络Q(s,a；θ^-)，如图4所示为 Q(s,a；θ)网络结构。网络输入层神经元数目为无人机飞行状态空间维度，网络输出层为无人机飞行动作空间维数。此外，目标网络Q(s,a；θ^-)结构与Q(s,a；θ)相同。在训练过程中，最优机动决策

s_t∈S为当前环境状态，a_t∈A(s)为机动决策结果。除此之外，每过C个训练周期，将Q(s,a；θ)的参数赋值给Q(s,a；θ^-)。

3.2)、基于优先级经验回放(Prioritized Experience Replay)构建经验集采样，经验集D定义为：

D＝{s,a,r,s′} (4)

式中，s为当前环境状态，a为当前状态下的最优动作，r为环境返回的回报，s′为环境采用a后的状态。在训练过程中，根据上述定义将每一时刻所产生的信息生成样本存入经验集D中，经验样本的采样概率为：

式中，P(i)为第i个样本的采样概率，p_i为第i个样本的优先度，α∈[0,1]为优先级采样应用程度，表示在样本采样时优先级采样方法的应用程度。样本优先度的计算公式如下：

p_i＝|δ_i|+ε (6)

式中，δ_i为样本的时序差分误差(TD-error)，为避免p_i为0，引入一个极小值修正量ε∈(0,0.1)。δ_i可以通过式(7)计算：

为消除优先级采样方法带来的训练样本集的偏差，引入重要性采样权重：

式中，ω_i为使用第i条样本训练时的重要性采样权重，该变量用于消除因使用优先级采样所产生的训练集分布均值与随机采样方法的误差，N为经验集容量，P(i)为第i条样本的被采样概率，β∈[0,1]为重要性采样权重应用程度，表示该权重在实际训练中所产生的影响。为了训练的稳定性，还需要根据

对ω_i进行归一化处理，简化后的重要性权重计算公式为：

在训练初期，由于训练样本集的偏差较小可以忽略，β从初值β₀∈[0,1)开始逐渐增大到1.0。

3.3)、基于Double Q-Learning算法设计Q(s,a；θ^-)与Q(s,a；θ)的参数训练方程，根据Double Q-Learning算法定义，得到Q(s,a)的迭代公式，如式(10)所示：

式中，α^s为参数更新步长，r为状态s下采用动作a的报酬，γ∈[0,1]为未来报酬折扣参数。进而，在训练过程中，首先根据优先级采样方法获取k组训练样本，则网络Q(s,a；θ)的优化目标定义为：

式中，(s_i,a_i,r_i,s′_i)为第i组样本，分别为状态s_i，决策动作a_i，回报r_i和下一时刻状态s′_i。结合重要性采样权重，Q(s,a；θ)网络的参数更新量Θ通过式(12)累积得到。

式中，δ_j为第j个样本的时序差分误差(TD-error)，根据式(7)计算得到。

4)、对评价网络Q(s,a；θ)进行训练。

4.1)、载入训练样本集大小k，网络训练步长η，训练周期K，经验集容量N，指数αandβ，目标网络参数更新周期C，单周期最长仿真步数T，仿真总数M。初始化经验集D，评价网络Q(s,a；θ)和目标网络Q(s,a；θ^-)。

4.2)、完成M周期训练，每周期进行T步，每过K步进行一次网络训练。算法在每个决策时刻依次完成观察环境状态、选择最优动作、观察动作执行后的环境状态并获取环境反馈的报酬等流程。

(1)根据式(5)完成第j个训练样本的采样；

(2)根据式(9)计算第j个训练样本对应的重要性采样权重ω_j；

(3)根据式(7)计算第j个训练样本的时间差分误差δ_j；

(4)更新第j个训练样本在经验集D中的有限度，令p_j＝|δ_j|；

(5)根据式(12)累积网络Q(s,a；θ)的参数向量的更新量。

4.4、根据参数更新量Θ，使用适应性矩估计算法(Adaptive Moment Estimation，Adam)对网络Q(s,a；θ)的参数进行优化，每过C步更新目标网络Q(s,a；θ-)的参数θ^-。 Adam优化算法是一种替代随机梯度下降法的一阶优化算法，Adam通过计算梯度的一阶矩估计和二阶矩估计，针对不同训练情况生成独立的自适应性学习率。首先，计算网络梯度，如式(13)所示。

式中，g_t为网络Q(s,a；θ)在第t步优化时的梯度。然后，计算梯度的一阶矩估计：

m_t＝β₁·m_t-1+(1-β₁)·g_t (14)

式中，m_t为梯度的一阶矩估计，β₁为一阶矩估计的指数衰减率，m_t-1为梯度的一阶矩估计的历史值。根据式(15)计算梯度的二阶矩估计：

式中，v_t为梯度的二阶矩估计，β₂为二阶矩估计的指数衰减率，v_t-1为梯度的二阶矩估计的历史值。然后修正一阶矩估计的偏差：

式中，

为一阶矩估计修正量。再修正二阶矩估计的偏差，如式(17)所示：

式中，

为二阶矩估计修正量。最后，计算网络参数更新量，如式(18)所示。

式中，Δθ为参数更新量，η为学习率，ε∈(0,0.1]为极小值量，重复上述计算过程，直至网络收敛。

5)、当训练结束后，Q(s,a；θ^-)为训练结果，在进行测试或应用时，通过观察环境状态s_t∈S，获取当前最优机动策略

a_t为当前最优机动策略。

下面对本发明的具体实施方式进行描述，以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是，在以下的描述中，当已知功能和设计的详细描述也许会淡化本发明的主要内容时，这些描述在这里将被忽略。

1)、建立无人机运动模型后，根据实际无人机的生产规格设置无人机模型的部分参数和约束条件，包括了无人机重量m，最小、最大飞行速度(本实例中考虑设为 [200m/s,400m/s])，最大爬升角、最大俯冲角(本实例中考虑限制在[-60°,70°]中)，最大转弯半径(本实例中考虑设为1km)。在仿真时，无人机速度应大于最小飞行速度，小于最大飞行速度，无人机航迹倾斜角应被限制在最大爬升角和最大俯冲角之间，无人机航迹偏转角应满足最大转弯半径的约束。

2)、建立无人机飞行仿真训练环境。如图1所示为马尔可夫决策过程模型。根据马尔可夫决策过程模型定义，设计无人机飞行状态空间、无人机飞行动作空间及无人机飞行评价函数。如图2所示为目标点相对无人机的状态描述图，图中，N为正北方向，E为正东方向，X_UAV＝(x,y,z)为无人机位置，X_TGT＝(x,y,z)为目标点位置，ψ_c为无人机航迹偏转角，ψ_T为目标点相对无人机的方位，D_T为目标点与无人机的距离。

2.1)、如式(20)所示为无人机飞行状态空间定义。

S＝{D_T,ψ_T,ψ_c} (20)

式中，

为无人机与目标位置的距离，

根据飞行区域大小进行设置， ψ_T∈[-π,π]为目标点相对无人机的方位，ψ_c∈[0,2π)为无人机航迹偏转角。如式(21)所示为D_T和ψ_T的计算公式。

式中，X_UAV＝(x,y,z)为无人机位置，X_TGT＝(x,y,z)为目标点位置，

为N方向的单位向量，

为目标点相对无人机的距离矢量，

为无人机与目标位置的距离。

2.2)、如式(22)所示为无人机飞行动作空间定义。

A(s)＝{a₀,a₁,…,a_n} (22)

式中，a_i代表第i种机动。基于基本操纵库建立包含5种机动的飞行动作空间，如表1所示为无人机飞行动作库机动定义。表中，N_x为无人机在飞机坐标系中的切向过载，N_y为飞机坐标系中的法向过载，γ_c为速度倾斜角，

为无人机最大法向过载，五种机动分别为平飞、右转、左转、轻微右转和轻微左转。

2.3、根据任务目标设计无人机飞行评价函数，如式(23)所示为任务目标，即任务成功完成条件。

式中，

为仿真第k步无人机与目标点之间的距离，D_min为无人机完成任务时与目标点的最短距离。无人机飞行评价函数。

式中，

和

分别代表仿真第k步和第k+1步无人机与目标点的距离，T_s∈(0,1] 为仿真步长，

为无人机最大速度。为增强任务完成结果影响，建立任务终止回报函数，当任务成功完成时，回报为1.0，否则为0.0，任务终止回报函数定义为：

3.1)、构建无人机自主引导机动决策网络，即状态动作值函数网络Q(s,a；θ)，如图4所示为Q(s,a；θ)网络结构。如表2所示为网络的具体参数设置，输入层神经元数目为 3，输出层数目为5，包括4层隐层，每层的神经元数目与激活函数类型见表2中所示。

表2评估网络Q(s,a；θ)具体参数

如表3所示为网络输入参数的范围，在数据输入网络前，需要对各维参数进行归一化处理。

表3网络输入数据范围

3.2、基于优先级经验回放(Prioritized Experience Replay)构建历史经验集，如式 (4)所示为经验集D定义。

D＝{s,a,r,s′} (4)

式中，s为当前环境状态，a为当前状态下的最优动作，r为环境返回的回报，s′为环境采用a后的状态。在训练过程中，根据上述定义将每一时刻所产生的信息生成样本存入经验集D中。如式(5)所示为经验样本的采样概率。

式中，P(i)为第i个样本的采样概率，p_i为第i个样本的优先度，α∈[0,1](本实例中考虑设为0.5～0.7)为优先级采样应用程度，表示在样本采样时优先级采样方法的应用程度。如式(6)所示为样本优先度的计算公式。

p_i＝|δ_i|+ε (6)

式中，δ_i为样本的时序差分误差(TD-error)，为避免p_i为0，引入一个极小值ε＞0(本实例中考虑设为0.01～0.1)。δ_i通过式(7)计算：

为消除优先级采样方法带来的训练样本集的偏差，引入重要性采样权重，如式(8)所示：

式中，ω_i为使用第i条样本训练时的重要性采样权重，该变量用于消除因使用优先级采样所产生的训练集分布均值与随机采样方法的误差，N为经验集容量，P(i)为第i条样本的被采样概率，β∈[0,1](本实例中考虑设为1.0)为重要性采样权重应用程度，表示该权重在实际训练中所产生的影响。为了训练的稳定性，还需要根据

对ω_i进行归一化处理，简化后的重要性权重计算公式为：

如表4所示为算法仿真训练过程中部分参数设置。无人机飞行区域为 50km×50km，无人机仿真步长为1.0s，在训练过程中，单周期内最多仿真步数为 T＝1000，总仿真周期数为M＝10000，经验集容量为N＝10000，训练样本集大小 k＝32，优先级采样应用程度α＝0.6，重要性采样参数应用程度初始值β₀＝0.4，训练过程中增量β_inc＝0.0001，直至增长为1。

表4算法仿真训练时部分参数设置

参数	值
		飞行区域	50km×50km
仿真步长	1.0s
		最大仿真步数	1000
最大仿真周期数	10000
		经验集容量	10000
训练样本集大小	32
		α	0.6
β0	0.4
		βinc	0.0001

3.3)、基于Double Q-Learning算法设计Q(s,a；θ)与Q(s,a；θ^-)的参数训练方程。如式(12)所示为网络参数优化累积公式。

δ_j的计算公式为：

4、对网络Q(s,a；θ)的训练。

4.1、载入训练样本集大小k，网络训练步长η，训练周期K，经验集容量N，指数 α，β₀和β_inc，目标网络参数更新周期C，单周期最长仿真步数T，仿真总数M。初始化经验集D，网络Q(s,a；θ)和目标网络Q(s,a；θ^-)。

4.2、完成M周期训练，每周期进行T步，每过K(本实例中考虑设为10～100) 步进行一次网络训练。算法在每个决策时刻依次完成观察环境状态、选择最优动作、观察动作执行后的环境状态并获取环境反馈的报酬等流程。

4.3、在每次训练时，进行k次采样，每次采样时完成以下步骤：

(1)根据式(5)完成第j个训练样本的采样；

(2)根据式(9)计算第j个训练样本对应的重要性采样权重ω_j；

(3)根据式(7)计算第j个训练样本的时间差分误差δ_j；

(4)更新第j个训练样本在经验集D中的有限度，令p_j＝|δ_j|；

(5)根据式(12)累积网络Q(s,a；θ)的参数向量的更新量。

4.4、根据参数更新量Θ，使用Adam算法对网络Q(s,a；θ)的参数进行优化，每过 C(本实例中考虑设为5～10)步更新目标网络Q(s,a；θ^-)的参数θ^-。Adam算法中所涉及参数：一阶矩估计的指数衰减率β₁＝0.9，二阶矩估计的指数衰减率β₂＝0.999，学习率η＝0.001，极小值ε＝10^-8。

5、当训练结束后，则Q(s,a；θ^-)网络为训练结果，根据式

直接用于无人机自主引导过程中的机动决策。

本发明提出了无人机自主引导机动决策算法，显著提高了算法的训练效率。采用本发明中所设计的方法，训练结果具有一定的泛化能力，无人机可以实现自主地从起点飞到终点，增强了无人机在执行任务过程中的自主性，提高了无人机执行任务的效率。

Claims

1.一种基于DDQN的无人机自主引导机动决策方法，其特征在于包括下述步骤：

1)建立无人机三自由度运动模型

式中，N_x、N_y分别为无人机在飞机坐标系中的切向过载和法向过载，v为无人机速度，θ为无人机航迹倾斜角，ψ_c为无人机航迹偏转角，γ_c为速度倾斜角，x、y和z为无人机在地理坐标系中的位置坐标，m为无人机质量，g为重力加速度；

无人机飞行状态空间定义为S＝{D_T,ψ_T,ψ_c}，式中，

X_UAV为无人机位置，X_TGT为目标点位置，

为N方向的单位向量，

为目标点相对无人机的距离矢量，

为无人机与目标位置的距离；

根据任务目标

设计无人机飞行评价函数

式中，

和

为无人机最大速度；建立如下任务终止回报函数：

当任务成功完成时，回报为1.0，否则为0.0；

式中，γ∈(0,1)为未来报酬折扣参数，

式(3)中，

为使用策略π的效用函数的期望；

采用深度神经网络构建状态动作值函数网络Q(s,a；θ)与目标网络Q(s,a；θ^-)，网络输入层神经元数目为无人机飞行状态空间维度，网络输出层为无人机飞行动作空间维数，目标网络Q(s,a；θ-)结构与Q(s,a；θ)相同；根据

D＝{s,a,r,s′} (4)

式(4)中，s为当前环境状态，a为当前状态下的最优动作，r为环境返回的回报，s′为环境采用a后的状态；在训练过程中，根据公式(4)的定义将每一时刻所产生的信息生成样本存入经验集D中，经验样本的采样概率为：

p_i＝|δ_i|+ε_p (6)

式(14)中，δ_i为样本的时序差分误差(TD-error)，为避免p_i为0，引入一个极小值修正量ε_p∈(0,0.1)，δ_i通过式(7)计算：

对ω_i进行归一化处理，简化后的重要性权重计算公式为：

β从初值β₀∈[0,1)开始逐渐增大到1.0；

式中，α^s为参数更新步长，r为状态s下采用动作a的报酬，γ∈[0,1]为未来报酬折扣参数；在训练过程中，首先根据优先级采样方法获取k组训练样本，则网络Q(s,a；θ)的优化目标定义为：

式中，(s_i,a_i,r_i,s_i′)为第i组样本，分别为状态s_i，决策动作a_i，回报r_i和下一时刻状态s_i′，结合重要性采样权重，Q(s,a；θ)网络的参数更新量Θ通过式(12)累积得到：

4)、对评价网络Q(s,a；θ)进行训练；

(1)根据式(5)完成第j个训练样本的采样；

(2)根据式(9)计算第j个训练样本对应的重要性采样权重ω_j；

(3)根据式(7)计算第j个训练样本的时间差分误差δ_j；

(4)更新第j个训练样本在经验集D中的有限度，令p_j＝|δ_j|；

(5)根据式(12)累积网络Q(s,a；θ)的参数向量的更新量；

4.4)、根据参数更新量Θ，使用适应性矩估计算法(Adaptive Moment Estimation，Adam)对网络Q(s,a；θ)的参数进行优化，每过C步更新目标网络Q(s,a；θ^-)的参数θ^-；Adam优化算法是一种替代随机梯度下降法的一阶优化算法，Adam通过计算梯度的一阶矩估计和二阶矩估计，针对不同训练情况生成独立的自适应性学习率；首先，计算网络梯度，如式(13)所示：

m_t＝β₁·m_t-1+(1-β₁)·g_t (14)

式中，

为一阶矩估计修正量，再修正二阶矩估计的偏差：

式中，

为二阶矩估计修正量；最后，计算网络参数更新量：

式中，Δθ为参数更新量，η为学习率，ε_a∈(0,0.1]为极小值量，重复上述计算过程，直至网络收敛；