CN116501086A

CN116501086A - 一种基于强化学习的飞行器自主规避决策方法

Info

Publication number: CN116501086A
Application number: CN202310474890.9A
Authority: CN
Inventors: 窦立谦; 任梦圆; 张秀云; 唐艺璠; 张睿隆
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2023-04-27
Filing date: 2023-04-27
Publication date: 2023-07-28
Anticipated expiration: 2043-04-27
Also published as: CN116501086B

Abstract

本发明公开了一种基于强化学习的飞行器自主规避决策方法，S1、建立自主规避决策博弈模型；S2、威胁目标轨迹预测网络；S3、飞行器自主规避决策算法；S4、验证算法的有效性。本发明采用上述步骤的一种基于强化学习的飞行器自主规避决策方法，该自主规避方法考虑了预测信息，设计了基于深度长短期记忆神经网络的轨迹预测算法，实现对威胁目标未来轨迹的预测，结合双延迟深度确定性策略梯度算法强化学习算法设计了具有连续动作空间的深度强化学习系统，有效提升了决策模型的收敛速度。

Description

一种基于强化学习的飞行器自主规避决策方法

技术领域

本发明涉及飞行器自主规避决策技术领域，特别是涉及一种基于强化学习的飞行器自主规避决策方法。

背景技术

高超声速飞行器通常具有经济性、高效性、安全性、强机动性等特点。随着现代信息技术和空间技术的发展，高超声速飞行器已逐渐成为未来空间攻防对抗、应对潜在空间冲突、维护国家安全等方面必不可缺的战略装备，是世界各国航空航天系统的重要研究方向。然而，随着飞行器任务与飞行环境的日益复杂，飞行器在执行任务过程中存在诸多不可预知的威胁或障碍，如雷达探测系统及其他飞行器的跟踪、拦截等。因此，研究飞行器自主规避决策方法，对保障飞行器的高效安全飞行，增强飞行器自主能力具有十分重要的意义。

目前飞行器自主机动决策的方法主要分为基于数学模型的传统方法和基于强化学习的人工智能方法。基于数学模型的传统方法包含微分对策法、影响图法、矩阵对策法等。然而，基于数学模型的理论方法进行飞行器规避决策设计时，均建立在离线规划数学模型的基础上，在实际复杂的博弈环境中，由于无法获得威胁目标的参数信息，飞行器无法在短时间内推导出威胁目标的弹道和制导方式，因此无法自主应对威胁目标的实时跟踪和拦截。

随着人工智能的发展，基于强化学习的人工智能方法可用于求解无模型非线性规划问题，具有求解速度比传统数学算法快的优势，逐渐成为飞行器自主决策领域的研究重点。然而，当前的决策理论研究大多集中在无人机等无人系统上，针对飞行器自主规避决策技术的研究还较少。

发明内容

本发明的目的是提供一种基于强化学习的飞行器自主规避决策方法，实现了飞行器的自主规避决策，有利于提高飞行器对潜在威胁的成功规避概率，保障飞行器的安全性。

为实现上述目的，本发明提供了一种基于强化学习的飞行器自主规避决策方法，S1、建立自主规避决策博弈模型：根据飞行器运动特性设计连续动作空间及状态空间，以完成规避任务为目标，综合全局环境的约束条件，考虑飞行器与威胁目标的相对位置以及与任务目标点的距离建立奖惩机制，设定最大化飞行器的总收益作为该博弈模型的性能指标函数；

S2、威胁目标轨迹预测网络：综合考虑飞行器与威胁目标行为之间的耦合性，设计两层LSTM网络学习特征间的长期依赖关系，采用通过时间的反向传播算法训练预测网络，预测威胁目标的未来轨迹；

S3、飞行器自主规避决策算法：设计基于双延迟深度确定性策略梯度算法的飞行器决策算法求解S1中自主规避决策模型的最优奖励函数值，结合S2中的预测信息，通过迭代更新飞行器决策网络与飞行器评价网络的权值，获得自主规避决策博弈模型的求解策略，实现飞行器自主规避决策；

S4、验证算法的有效性：基于“Python-Unity”交互模式搭建飞行器自主规避决策的虚拟仿真交互平台，验证飞行器自主规避算法的有效性。

优选的，S1中，将飞行器面向威胁目标的规避任务转化为博弈问题，并基于飞行器运动模型，建立面向飞行器规避任务的自主规避决策博弈模型，自主规避决策博弈模型包含六个基本要素：即参与者，状态空间，动作空间，折扣因子，状态转移函数以及奖励函数。

优选的，S1.1、参与者：飞行器和威胁目标；

S1.2、状态空间：考虑规避任务需求，将飞行器的状态信息、威胁目标的状态信息以及对威胁目标的预测信息作为飞行器面向规避任务的状态；

S1.3、动作空间：动作空间为飞行器攻角，倾侧角和推力；

S1.4、折扣因子：设定折扣因子为γ，γ∈[0,1]表示未来累积回报收益值相对于当前决策的重要程度；

S1.5、状态转移函数：将飞行器的运动学方程作为自主规避决策博弈模型的状态转移函数；

S1.6、奖励函数：为了减小飞行器自主规避决策行为对后续任务的影响，设置任务目标点以限制飞行器采取不合理的规避决策，考虑参与者双方相对位置、飞行器与任务目标点的距离建立奖惩机制，设定单步决策立即回报收益值和博弈模型的性能指标函数。

优选的，S2中，将飞行器与威胁目标的历史轨迹作为输入，通过数据处理、特征提取以及双层LSTM的时序分析，输出威胁目标的下一时刻动作。

优选的，S3中，S3.1、飞行器决策网络中最大化博弈过程的总收益；

S3.2、优化飞行器决策网络的权值；

S3.3、优化飞行器评价网络的权值；

S3.4、迭代更新飞行器决策网络和飞行器评价网络的权值。

优选的，S4中，飞行器每次与虚拟仿真交互平台的交互过程中，将当前时刻的状态信息、决策动作、单步决策立即回报收益值、以及下一时刻的状态信息以集合的方式存入到经验数据库当中。

因此，本发明采用上述步骤的一种基于强化学习的飞行器自主规避决策方法，其有益效果为：

1、本发明设计提出的自主规避方法考虑了威胁目标的行为对飞行器决策的影响，设计了基于深度长短期记忆神经网络(Long Short-Term Memory，LSTM)的轨迹预测算法，实现对威胁目标未来轨迹的预测，结合双延迟深度确定性策略梯度算法(Twin DelayedDeep Deterministic policy gradient algorithm，TD3)强化学习算法设计了具有连续动作空间的深度强化学习系统，有效提升了决策模型的收敛速度；

2、针对飞行器面临的飞行安全问题，给出了飞行器规避机动场景的任务描述，基于马尔可夫决策过程理论构建了面向飞行器规避任务的博弈模型；

3、考虑威胁目标的行为对飞行器决策的影响，综合考虑飞行器与威胁目标行为之间的耦合性，设计基于深度长短期记忆神经网络的轨迹预测算法，实现对威胁目标未来轨迹的预测；

4、基于预测信息与博弈模型，结合双延迟深度确定性策略梯度算法设计了飞行器决策算法，该决策方法依据神经网络的拟合能力具有很好的自主性，实现了飞行器的自主规避决策，有利于提高飞行器对潜在威胁的成功规避概率，保障飞行器的安全性；

5、通过仿真训练实现了飞行器的自主规避，有效提高了飞行器对潜在威胁的成功规避概率，增强了飞行器的自主性与安全性，对飞行器自主规避技术研究具有一定的参考价值。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1是基于强化学习的飞行器自主规避决策方法结构图；

图2是预测网络与决策算法网络图；

图3是威胁目标轨迹预测仿真结果；

图4是奖励值变化曲线；

图5是飞行器自主规避决策仿真结果；

图6是飞行器控制量变化；

图7是威胁目标的过载变化。

具体实施方式

以下通过附图和实施例对本发明的技术方案作进一步说明。

除非另外定义，本发明使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。本发明中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。

实施例1

S1、基于马尔可夫决策过程理论将飞行器面向威胁目标的规避任务转化为博弈问题，并依据飞行器运动模型，综合考虑飞行器的机动能力和博弈双方的状态信息，建立面向飞行器规避任务的博弈模型，设计该博弈模型的性能指标函数。

S1中，自主规避决策博弈模型包含六个基本要素：即参与者，状态空间，动作空间，折扣因子，状态转移函数以及奖励函数。

S1.1、参与者：设定飞行器为T，威胁目标为M。

S1.2、状态空间：考虑规避任务需求，将飞行器的状态信息、威胁目标的状态信息以及对威胁目标的预测信息作为飞行器面向规避任务的状态，设定状态空间为S，

其中，x_T,y_T,z_T为飞行器的位置信息，v_T,θ_T,为飞行器的速度、航迹角和航向角；x_M,y_M,z_M为威胁目标的位置信息，v_M,θ_M,/>为威胁目标的速度、航迹角、航向角；对威胁目标的预测信息。

S1.3、动作空间：动作空间为飞行器攻角，倾侧角和推力，设定动作空间为A，

a＝[α,β,F]∈A

其中，α为飞行器攻角，β为倾侧角，F为推力。

S1.4、折扣因子：设定折扣因子为γ，γ∈[0,1]表示未来累积回报收益值相对于当前决策的重要程度，此处折扣因子γ＝0.9。

S1.5、状态转移函数：将飞行器的运动学方程作为自主规避决策博弈模型的状态转移函数，设定状态转移函数为P，

其中，x_T,y_T,z_T为地面坐标系下飞行器的位置信息，v_T,θ_T,为飞行器的速度、航迹角和航向角，α为飞行器攻角，β为倾侧角，F为推力，σ为飞行器侧滑角，X、Y、Z分别为飞行器所受阻力、升力、侧向力。

假设威胁目标采用三维比例导引制导率接近飞行器，

其中，k₁、k₂为比例导引系数，r_los为威胁目标与飞行器的视距，表示视距变化率，/>表示视线高低角变化率，/>表示视线方位角变化率，n₁为威胁目标的垂直面控制量，n₂为威胁目标的水平面控制量；

得到威胁目标的运动学方程为：

其中，x_M,y_M,z_M为威胁目标的位置信息，v_M,θ_M,为威胁目标的速度、航迹角、航向角，g为重力加速度值。

S1.6、奖励函数：为了减小飞行器自主规避决策行为对后续任务的影响，本发明设置任务目标点以限制飞行器采取不合理的规避决策，考虑博弈双方相对位置、与目标点的相对位置建立奖惩机制。设定单步决策立即回报收益值为r，最大化飞行器的总收益为Q。

其中，d_T为飞行器与威胁目标的距离，ρ_A为威胁目标的威胁半径，d_end为飞行器与任务目标点的距离。

可知，飞行器距离威胁目标越近，则单步决策立即回报收益值越小；飞行器距离任务目标点越近，单步决策立即回报收益值越大。

为了实现飞行器的自主规避决策，设计以最大化飞行器的总收益Q为博弈过程的性能指标，优化目标为得到的Q越大。

其中，Q为飞行器在完整博弈π过程中获得的总收益，r_t为t时刻飞行器获得的立即回报收益值。

S2中，如图2所示，针对威胁目标设置基于LSTM的预测网络。其中，输入为飞行器与威胁目标的历史轨迹，通过数据处理、特征提取以及双层LSTM的时序分析，输出威胁目标的下一时刻动作。

采用均方差函数作为LSTM训练过程的损失函数，采用通过时间的反向传播算法确定网络参数，由此实现对威胁目标未来信息的精准预测。

其中，n为每一回合中训练过程批量样本的个数，i∈[1,n]代表该批量样本中第i个样本，P_i表示神经网络输出的预测值，O_i为真实值。

S3中，如图2所示，本发明采用双延迟深度确定性策略梯度算法(Twin DelayedDeep Deterministic policy gradient algorithm，TD3)求解优化策略，以实现最大化飞行器的总收益。

S3.1、飞行器决策网络中最大化博弈过程的总收益

由于S2中通过改变网络参数实现优化，因此可将S1.6中Q的表达式描述为如下式所示，设定基于神经网络拟合的飞行器的总收益为

其中，为决策网络的权值，s_t为t时刻飞行器与威胁目标的状态信息，a_t为t时刻飞行器采取的决策动作，π(a_t|s_t)表示在状态s_t下依据当前网络参数/>输出动作值为a_t的概率，r_t表示t时刻飞行器获得的立即回报收益值。

S3.2、优化飞行器决策网络的权值

飞行器决策网络通过最小化梯度优化该决策网络的权值，本发明基于贝尔曼方程与梯度下降方法梯度将/>进行如下表示：

其中，为梯度计算符号，Q^π(s_t,a_t,ε)为飞行器评价网络输出的估计Q值，ε为飞行器评价网络的权值。

S3.3、更新飞行器评价网络的权值

设置两个评价网络：飞行器评价网络1和飞行器评价网络2。利用均方差函数作为损失函数更新评价网络的权值参数，其目标是使Q^π(s_t，a_t，ε)近似Q^π(s_t，a_t)，使得L(ε)获得最小值，飞行器评价网络1、飞行器评价网络2均以最小化L(ε)为目标进行更新。

L(ε)＝E[(Q^π(s_t，a_t，ε)-Q^π(s_t，a_t))²]

其中，Q^π(s_t，a_t)表示真实值，可根据时间差分算法近似表示，Q^π(s_t，a_t，ε)为飞行器评价网络输出的估计Q值。

选择两个评价网络中最小的输出的估计Q值进行下式计算，

Q(s_t，a_t)＝r_t+γmin(Q₁(s′_t，a′_t)，Q₂(s′_t，a′_t)}

其中，s′_t，a′_t为飞行器下一时刻的状态与动作，Q₁(s′_t，a′_t)为飞行器评价网络1针对下一时刻状态估计的Q值，Q₂(s′_t，a′_t)为飞行器评价网络2针对下一时刻状态估计的Q值，r_t表示t时刻飞行器获得的立即回报收益值。

最终，通过梯度下降方法最小化梯度更新飞行器评价网络权值，

其中，Q^π(s_t，a_t)表示真实值，Q^π(s_t，a_t，ε)为飞行器评价网络输出的估计Q值。

S3.4、迭代更新飞行器决策网络和飞行器评价网络的权值

使用软更新方法更新目标决策网络和目标评价网络1以及目标评价网络2的参数，

ε₁′←τε₁+(1-τ)ε₁′

ε₂′←τε₂+(1-τ)ε₂′

其中，为目标决策网络的权值，19是飞行器决策网络的权值，ε₁′为目标评价网络1的权值，ε₂′为目标评价网络2的权值，ε₁为飞行器评价网络1的权值，ε₂为飞行器评价网络2的权值，τ为软更新系数。

S4中，飞行器每次与虚拟仿真交互平台的交互过程中，将当前时刻的状态信息、决策动作、单步决策立即回报收益值、以及下一时刻的状态信息以集合的方式存入到经验数据库当中。

在强化学习训练环节中，需要从经验数据库中提取数据，采用随机经验回放机制训练飞行器决策网络与评价网络。

实施例2

首先将飞行器的运动模型搭载在虚拟仿真交互平台中，并进行了仿真交互实验，主要仿真过程如下：

(1)参数设置

1)仿真场景参数设置：飞行器初始位置为，初始速度为1500m/s，威胁目标初始位置为，初始速度为1500m/s，威胁半径为100m，设置任务目标点位置为[2km,0,12km]。

2)预测算法参数设置：

预测网络特征提取层节点数：64；

预测网络LSTM层节点数：128；

预测网络输出节点数：3；

训练批量大小：512。

3)决策算法参数设置：

飞行器决策网络与飞行器评价网络学习率：1×10^-3；

目标决策网络与目标评价网络的软更新率为：τ＝5×10^-3；

飞行器决策网络与目标决策网络全连接神经网络隐藏节点数：128；

飞行器决策网络与目标决策网络全连接神经网络输出节点数：3；

飞行器决策网络与目标决策网络激活函数(全连接层)：tanh；

飞行器评价网络与目标评价网络全连接神经网络隐藏节点数：128；

飞行器评价网络与目标评价网络全连接神经网络输出节点数：3；

飞行器评价网络与目标评价网络激活函数(全连接层)：relu；

训练批量大小：512。

(2)结果分析

在上述给定的条件下，获得的仿真结果如图3-图7所示。

图3为利用本发明提出的基于LSTM的威胁目标轨迹预测方法的仿真结果，可以看出，预测网络对未来时刻的预测轨迹与真实轨迹的趋势一致且偏差较小。

图4为采用决策算法在训练过程的奖励值变化图，本发明对比了考虑预测信息的决策算法与未考虑预测信息的决策算法的奖励值变化曲线。可以看出，网络在150回合后学会规避决策，而考虑预测信息的决策算法收敛速度更快。这说明提前感知对方态势对飞行器实现规避决策具有指导作用，这也与一般战场经验相符。

图5给出了飞行器自主规避决策的仿真结果，以时间为横坐标，分别以威胁目标的位置信息为纵坐标，通过与无机动和随机机动决策对比，可以看出本发明所设计的飞行器自主规避决策算法可以实现自主规避。

图6为飞行器自主规避过程的控制量输出。

图7为该过程中威胁目标的过载变化，可以看出，飞行器在接近威胁目标时通过拉大过载自主规避威胁，并且在规避过程中有效消耗了威胁目标的过载量。

最后应说明的是：以上实施例仅用以说明本发明的技术方案而非对其进行限制，尽管参照较佳实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对本发明的技术方案进行修改或者等同替换，而这些修改或者等同替换亦不能使修改后的技术方案脱离本发明技术方案的精神和范围。

Claims

1.一种基于强化学习的飞行器自主规避决策方法，其特征在于：

S1、建立自主规避决策博弈模型：根据飞行器运动特性设计连续动作空间及状态空间，以完成规避任务为目标，综合全局环境的约束条件，考虑飞行器与威胁目标的相对位置以及与任务目标点的距离建立奖惩机制，设定最大化飞行器的总收益作为该博弈模型的性能指标函数；

2.根据权利要求1所述的一种基于强化学习的飞行器自主规避决策方法，其特征在于：S1中，将飞行器面向威胁目标的规避任务转化为博弈问题，并基于飞行器运动模型，建立面向飞行器规避任务的自主规避决策博弈模型，自主规避决策博弈模型包含六个基本要素：即参与者，状态空间，动作空间，折扣因子，状态转移函数以及奖励函数。

3.根据权利要求2所述的一种基于强化学习的飞行器自主规避决策方法，其特征在于：S1.1、参与者：飞行器和威胁目标；

S1.3、动作空间：动作空间为飞行器攻角，倾侧角和推力；

4.根据权利要求1所述的一种基于强化学习的飞行器自主规避决策方法，其特征在于：S2中，将飞行器与威胁目标的历史轨迹作为输入，通过数据处理、特征提取以及双层LSTM的时序分析，输出威胁目标的下一时刻动作。

5.根据权利要求1所述的一种基于强化学习的飞行器自主规避决策方法，其特征在于：S3中，S3.1、飞行器决策网络中最大化博弈过程的总收益；

S3.2、优化飞行器决策网络的权值；

S3.3、优化飞行器评价网络的权值；

S3.4、迭代更新飞行器决策网络和飞行器评价网络的权值。

6.根据权利要求1所述的一种基于强化学习的飞行器自主规避决策方法，其特征在于：S4中，飞行器每次与虚拟仿真交互平台的交互过程中，将当前时刻的状态信息、决策动作、单步决策立即回报收益值、以及下一时刻的状态信息以集合的方式存入到经验数据库当中。