CN115688268A

CN115688268A - 一种飞行器近距空战态势评估自适应权重设计方法

Info

Publication number: CN115688268A
Application number: CN202211259349.8A
Authority: CN
Inventors: 周攀; 黄江涛; 章胜; 马创; 舒博文
Original assignee: Institute of Aerospace Technology of China Aerodynamics Research and Development Center
Current assignee: Institute of Aerospace Technology of China Aerodynamics Research and Development Center
Priority date: 2022-10-14
Filing date: 2022-10-14
Publication date: 2023-02-03

Abstract

本发明属于无人飞行器智能空战自主决策领域，公开了一种基于深度强化学习的无人机智能空战自主决策自适应权重调整方法。其技术方案要点是：通过给出飞行器智能空战机动决策模型中的自主决策机设计，然后给出空战态势评估方法，然后根据自适应权重算法重构态势权重，最后得出飞行器近距空战自主决策流程。该方法将基于深度强化学习的智能空战自主决策态势评估分为两部分加以实现，相较于以往固定权重态势评估方法，采用动态权重态势评估方法的飞行器近距空战自主决策模型训练过程更加稳定，最终训练得到的近距空战自主决策模型训练过程更加稳定，同时具有更好的决策能力，有利于工程应用。

Description

一种飞行器近距空战态势评估自适应权重设计方法

技术领域

本发明涉及无人航空飞行器智能空战自主决策技术领域，更具体地说，它涉及一种飞行器近距空战态势评估自适应权重设计方法。

背景技术

随着材料、集成传感技术和通信技术等学科的发展，无人机技术及其作战效能得到了显著的提升。与传统有人飞机相比，无人作战飞行器(Unmanned Combat Air Vehicle,UCAV)具有成本低、可承受过载大、安全风险系数小、续航时间长、特征信号弱等优点，因此UCAV被广泛的应用于战争中并发挥着越来越重要的作用。目前，战场上无人机的机动决策主要依赖于地面控制，而无人机与地面指挥中心的通信易受敌方电磁波和天气的干扰，难以适应复杂多变的战场环境。因此，想要充分发挥无人机的战场优势，实现高强度的空战对抗，无人机必须脱离地面控制，实现自主决策。

现有的无人机空战自主决策方法大致可以分为基于博弈理论的方法、基于优化理论的方法和基于人工智能的方法。其中，基于人工智能的方法包括基于规则的专家系统、基于深度学习的行为克隆和基于深度强化学习的自博弈对抗。自从2016年DeepMind研制的围棋博弈系统AlphaGo以4：1的比分击败了当时的世界冠军李世石之后，深度强化学习就被应用在各种控制决策问题中。在深度强化学习中，智能体的学习目标是从环境中获得尽可能多的奖励，因此可以认为奖励函数决定了智能体的收敛方向。在近距空战格斗的态势评估中，需要综合考虑攻击角度优势奖励函数、速度优势奖励函数、高度优势奖励函数和距离优势奖励函数。最终奖励由这四部分奖励组合而成。目前开展的研究中大多采取固定权重的方法计算总奖励，这种态势计算方法会导致空战态势缺乏连续性以及算法收敛性波动较大等问题。

发明内容

针对基于深度强化学习方法的无人机空战自主决策问题，本发明提出了一种飞行器近距空战态势评估自适应权重设计方法。

为了实现上述目的，本发明提供如下技术方案：一种飞行器近距空战态势评估自适应权重设计方法，包括如下步骤：

S1、构建空战环境模型；

S2、构建智能空战自主决策机模型；

S3、构建自主决策机训练模型；

S4、构建空战态势奖励函数模型和设计自适应权重算法。

进一步的，步骤S1的构建空战环境模型的方法：空战对抗双方为两架性能参数完全相同的飞机，其中任一飞机由智能体控制，另一飞机由专家系统进行控制，这两架飞机的动力学和运动学方程分别为

其中，v为UCAV的速度，T为发动机推力，α为迎角，L为升力，D为空气阻力，m为UCAV的质量，g为当地重力加速度，μ为速度滚转角，γ为航迹倾角，ψ为航迹偏角，x、y、z分别为UCAV在地面坐标系三个坐标轴上的坐。

通过上述设置，采用自适应权重方法训练得到的智能体在与不同目标进行近距空战仿真时具有更好的表现。

进一步的，步骤S2中构建智能空战自主决策机模型的方法：采用深度学习中的深度神经网络作为自主决策机模型，自主决策机接收战场态势信息，输出飞机的决策指令。

进一步的，步骤S3中构建自主决策机训练模型的方法：采用双延迟确定性策略梯度算法作为自主决策机训练算法。

进一步的，步骤S4中构建空战态势奖励函数模型的方法：奖励函数由攻击角度态势奖励函数、距离态势奖励函数、速度优势函数和高度态势奖励函数四部分组成。

进一步的，攻击角度态势奖励函数如下：

其中，R_R(x_R,y_R,z_R)和

分别是智能体飞机的位置坐标和速度矢量，R_B(x_B,y_B,z_B)和

分别是目标飞机的位置坐标和速度矢量，R_RB＝R_B-R_R指从红机到蓝机的连线，

和

分别是红机的攻击角和蓝机的逃逸角；

速度态势奖励函数如下：

当v_opt＞1.5v_B时，

当v_opt≤1.5v_B时，

其中，v_opt是最佳空战速度，文中v_opt＝200m/s；

高度态势奖励函数如下：

其中，H_R是红机的高度，H_B是蓝机的高度，H_opt是最佳空战高度，文中H_opt＝6000m，

是红机速度在竖直方向上的分量，V_opt是最佳空战速度，H₀是一个常数参量，用来调整高度奖励函数的梯度；

距离态势奖励函数如下：

其中，d＝R_RB是双方飞机之间的距离，D_opt是最佳空战距离，D₀是一个常数参量，用来调整距离优势奖励函数的梯度，文中D_opt＝200m，D₀＝2000m。

进一步的，步骤S4中自适应权重算法的设计方法：将攻击角度奖励、速度奖励、高度奖励和距离奖励对应的权重分为固定权重ω和动态权重f(R)两部分，总权重W由这两部分之积ω*f(R)决定，在动态权重f(R)中，f(·)是一个权重函数，文中选取f(x)＝e^-x作为权重函数，R是态势奖励，具体实施步骤为：

1)计算当前态势奖励

R_V、R_H和R_D；

2)根据态势奖励

R_V、R_H和R_D计算对应的动态权重

f(R_V)、f(R_H)和f(R_D)；

3)根据对权重进行归一化处理；

4)计算总权重：

与现有技术相比，本技术方案的有益效果：

在采用固定权重态势函数对智能体策略进行评价时，因角度优势奖励函数、速度优势奖励函数、高度优势奖励函数和距离优势奖励函数四种态势奖励函数在总权重中对应的权重不相同，因此会导致智能体在训练过程中追求权重最大的某个态势奖，忽略其余态势奖励的情况，最终会导致训练过程波动性较大，甚至难以收敛的问题。因此为了保证智能体训练过程的稳定性以及最终智能体的性能，必须建立基于动态权重的态势奖励评价体系。

本方案构建了一种可以准确评价智能体策略并能够引导智能体向最优策略收敛的自适应权重评价体系。同时本方案以近距空战数值模拟为基础，通过引入深度强化学习实现无人机近距空战自主决策，在此基础上建立了一种自适应权重评价体系，构建的自适应权重评价模型具有适用性强，态势评估精确，算法收敛稳定性高等特点，可用于无人机近距空战自主决策模型训练中的态势评价。

附图说明

图1是本发明一种飞行器近距空战态势评估自适应权重设计方法的流程图；

图2是本实施例中空战态势奖励结构图；

图3是本实施例中智能空战自主决策机模型图；

图4是本实施例中采用自适应权重设计方法训练时候的总回报收敛曲线；

图5是本实施例中采用固定权重设计方法训练时候的总回报收敛曲线；

图6是本实施例中采用自适应权重设计方法训练得到的智能体与直线运动目标对抗仿真结果图；

图7是本实施例中采用固定权重设计方法训练得到的智能体与直线运动目标对抗仿真结果图；

图8是本实施例中采用自适应权重设计方法训练得到的智能体与专家系统对抗仿真结果图；

图9是本实施例中采用固定权重设计方法训练得到的智能体与专家系统对抗仿真结果图；

图10是本实施例中采用自适应权重设计方法训练得到的智能体与采用固定权重设计方法训练得到的智能体对抗仿真结果图；

图11是本实施例中采用自适应权重设计方法训练得到的智能体与采用固定权重设计方法训练得到的智能体某次对抗仿真过程中获得的奖励曲线。

具体实施方式

为了方便本领域的人理解，下面结合实例与附图对本发明做进一步的说明；实施方式和实例只是本发明的特例，不作为对本发明的绝对限制。

实施例：

一种飞行器近距空战态势评估自适应权重设计方法，包括如下步骤：

S1、构建空战环境模型：空战对抗双方为两架性能参数完全相同的飞机，其中任一飞机由智能体控制，另一飞机由专家系统进行控制，这两架飞机的动力学和运动学方程分别为

S2、构建智能空战自主决策机模型：采用深度学习中的深度神经网络作为自主决策机模型，自主决策机接收战场态势信息，输出飞机的决策指令。

S3、构建自主决策机训练模型：采用双延迟确定性策略梯度算法作为自主决策机训练算法。

S4、构建空战态势奖励函数模型和设计自适应权重算法。

其中奖励函数由攻击角度态势奖励函数、距离态势奖励函数、速度优势函数和高度态势奖励函数四部分组成。

攻击角度态势奖励函数如下：

其中，R_R(x_R,y_R,z_R)和

分别是智能体飞机的位置坐标和速度矢量，R_B(x_B,y_B,z_B)和

和

分别是红机的攻击角和蓝机的逃逸角；

速度态势奖励函数如下：

当v_opt＞1.5v_B时，

当v_opt≤1.5v_B时，

其中，v_opt是最佳空战速度，文中v_opt＝200m/s；

高度态势奖励函数如下：

距离态势奖励函数如下：

自适应权重算法的设计方法：将攻击角度奖励、速度奖励、高度奖励和距离奖励对应的权重分为固定权重ω和动态权重f(R)两部分，总权重W由这两部分之积ω*f(R)决定，在动态权重f(R)中，f(·)是一个权重函数，文中选取f(x)＝e^-x作为权重函数，R是态势奖励，具体实施步骤为：

5)计算当前态势奖励

R_V、R_H和R_D；

6)根据态势奖励

R_V、R_H和R_D计算对应的动态权重

f(R_V)、f(R_H)和f(R_D)；

7)根据对权重进行归一化处理；

8)计算总权重：

通过对比固定权重方法和本自适应权重设计方法训练得到的智能体在空战仿真中的表现来进一步对本发明详细说明，具体实现方法如下：

首先建立飞行器近距空战环境模型，采用迎角、侧滑角和滚转角作为飞行器的控制指令，根据飞行器接受的控制指令和在空间中的位置，计算飞行器受到的外力，进而根据动力学和运动学模型解算飞行器的状态信息。其中飞行器的动力学和运动学模型如下所示：

其中，v为速度，T为发动机推力，α为迎角，D为空气阻力，m为飞行器质量，g为当地重力加速度，γ为航迹倾角，L为升力，μ为滚转角，ψ为航向角，x、y、z分别为三个方向的坐标。

完成以上空战环境建模后，下一步构建基于深度神经网络的无人机近距空战自主决策机模型，称其为Actor网络。Actor网络的作用是接收战场态势信息，输出UCAV的控制指令。Actor网络的输入参数包括智能体的位置信息R_r、对抗双方的相对位置R_RB、智能体的速度信息V_r和对抗双方的相对速度V_RB共13个参数，输出信息为UCAV的控制指令[α,μ,δ]。Actor网络由一个输入层，一个输出层和5个隐藏层组成，其中输入层包含13个神经元，输出层包含3个神经元，每个隐藏层分别包含256个神经元。神经元的激活函数采用ReLU函数。其具体结构如图3所示。

下一步建立智能空战自主决策机训练模型，采用深度强化学习中的双延迟策略梯度算法对建立的模型进行训练。如图2所示，智能体的奖励函数包括攻击角度优势、距离优势、速度优势和高度优势四部分。分别采用固定权重方法和本自适应权重设计方法进行训练，图1给出了自适应权重设计方法的具体操作流程。

如图4所示，采用自适应权重设计方法训练的智能体在经历了6万个训练步数后达到稳定，且训练过程较为平稳。如图5所示，采用固定权重方法训练的智能体在经历了8万个训练步数后达到稳定，且训练过程波动较大。

接下来分别在以下三种情况下进行测试：1)追击直线运动目标；2)与专家系统进行对抗；3)两种智能体进行空战对抗。

图6和图7分别给出了采用自适应权重设计方法和固定权重方法训练得到的智能体在与直线运动目标对抗时的仿真结果。由仿真结果可知在追击直线运动的目标时，采用自适应权重设计方法训练得到的智能体胜率和所需时间均优于采用固定权重训练得到的智能体。

图8和图9分别给出了采用自适应权重设计方法和固定权重方法训练得到的智能体在与专家系统对抗时的仿真结果。由仿真结果可知在追击直线运动的目标时，采用自适应权重设计方法训练得到的智能体胜率和所需时间均优于采用固定权重训练得到的智能体。

图10给出了不同训练阶段的采用固定权重训练得到的智能体与采用自适应权重设计方法训练得到的智能体进行空战对抗的仿真对抗结果。己方飞机由采用自适应权重设计方法训练得到的智能体控制，目标飞机由采用固定权重训练得到的智能体。由仿真结果可知，当采用两种权重方式进行训练的智能体性能稳定之后，基于自适应权重设计方法训练得到的智能体以大约5:1的优势完胜基于固定权重训练得到的智能体，且在相同的态势评价体系中，前者的态势奖励比后者高出约24％。

图11给出了某次仿真对抗过程中采用固定权重训练得到的智能体与采用自适应权重设计方法训练得到的智能体获得的态势奖励。

以上所述的仅是本发明的实施例，方案中公知的具体技术方案和/或特性等常识在此未作过多描述。应当指出，对于本领域的技术人员来说，在不脱离本发明技术方案的前提下，还可以作出若干变形和改进，这些也应该视为本发明的保护范围，这些都不会影响本发明实施的效果和专利的实用性。本申请要求的保护范围应当以其权利要求的内容为准，说明书中的具体实施方式等记载可以用于解释权利要求的内容。

Claims

1.一种飞行器近距空战态势评估自适应权重设计方法，其特征在于：包括如下步骤：

S1、构建空战环境模型；

S2、构建智能空战自主决策机模型；

S3、构建自主决策机训练模型；

S4、构建空战态势奖励函数模型和设计自适应权重算法。

2.根据权利要求1所述的飞行器近距空战态势评估自适应权重设计方法，其特征在于：步骤S1的构建空战环境模型的方法：空战对抗双方为两架性能参数完全相同的飞机，其中任一飞机由智能体控制，另一飞机由专家系统进行控制，这两架飞机的动力学和运动学方程分别为

3.根据权利要求1所述的飞行器近距空战态势评估自适应权重设计方法，其特征在于：步骤S2中构建智能空战自主决策机模型的方法：采用深度学习中的深度神经网络作为自主决策机模型，自主决策机接收战场态势信息，输出飞机的决策指令。

4.根据权利要求1所述的飞行器近距空战态势评估自适应权重设计方法，其特征在于：步骤S3中构建自主决策机训练模型的方法：采用双延迟确定性策略梯度算法作为自主决策机训练算法。

5.根据权利要求1所述的飞行器近距空战态势评估自适应权重设计方法，其特征在于：步骤S4中构建空战态势奖励函数模型的方法：奖励函数由攻击角度态势奖励函数、距离态势奖励函数、速度优势函数和高度态势奖励函数四部分组成。

6.根据权利要求5所述的飞行器近距空战态势评估自适应权重设计方法，其特征在于：攻击角度态势奖励函数如下：

其中，R_R(x_R,y_R,z_R)和

分别是智能体飞机的位置坐标和速度矢量，R_B(x_B,y_B,z_B)和

和

分别是红机的攻击角和蓝机的逃逸角；

速度态势奖励函数如下：

当v_opt＞1.5v_B时，

当v_opt≤1.5v_B时，

其中，v_opt是最佳空战速度，文中v_opt＝200m/s；

高度态势奖励函数如下：

距离态势奖励函数如下：

其中，d＝|R_RB|是双方飞机之间的距离，D_opt是最佳空战距离，D₀是一个常数参量，用来调整距离优势奖励函数的梯度，文中D_opt＝200m，D₀＝2000m。

7.根据权利要求5或6所述的飞行器近距空战态势评估自适应权重设计方法，其特征在于：步骤S4中自适应权重算法的设计方法：将攻击角度奖励、速度奖励、高度奖励和距离奖励对应的权重分为固定权重ω和动态权重f(R)两部分，总权重W由这两部分之积ω*f(R)决定，在动态权重f(R)中，f(·)是一个权重函数，文中选取f(x)＝e^-x作为权重函数，R是态势奖励，具体实施步骤为：

1)计算当前态势奖励

R_V、R_H和R_D；

2)根据态势奖励

R_V、R_H和R_D计算对应的动态权重

f(R_V)、f(R_H)和f(R_D)；

3)根据对权重进行归一化处理；

4)计算总权重：