CN113095481A

CN113095481A - 一种基于并行自我博弈的空战机动方法

Info

Publication number: CN113095481A
Application number: CN202110364109.3A
Authority: CN
Inventors: 李波; 甘志刚; 梁诗阳; 高晓光; 万开方; 越凯强; 杨志鹏
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2021-04-03
Filing date: 2021-04-03
Publication date: 2021-07-09
Anticipated expiration: 2041-04-03
Also published as: US11794898B2; US20220315219A1; CN113095481B

Abstract

本发明公开了一种基于并行自我博弈的空战机动方法，首先构建无人机机动模型，再构建红蓝运动态势获取模型，描述红蓝作战相对态势；然后依据马尔科夫过程构建红蓝双方状态空间、红双方动作空间和奖惩函数，接下来构建基于SAC算法的机动决策模型结构，通过空战对抗实现并行自我博弈训练SAC算法，最后测试训练得到的网络，显示作战轨迹并统计作战成功率。本发明能够有效提升敌我对抗水平，增大决策模型作战成功率。

Description

一种基于并行自我博弈的空战机动方法

技术领域

本发明属于无人机技术领域，具体涉及一种空战机动方法。

背景技术

自主空战机动决策是指：基于数学优化、人工智能等方法，模拟各种空战态势下飞行员空战决策，自动生成对飞行器(包括有人、无人机等)操纵决策的过程。

按照方法的不同，常见的无人机机动决策可以分为传统方法以及智能方法。传统方法指采取专家知识、公式推导、影响图等方法来实现择优决策过程，这类方法更注重先验知识或数学运算，对于决策往往不具备自优化过程。智能方法指使用诸如遗传算法、贝叶斯、人工智能等具有自学习、自优化能力的智能方法来实现无人机的机动控制，这类方法一般可以根据态势目标自主达到策略的优化。

然而，在解决敌我对抗问题时，这些方法均为在单一确定环境下训练，智能体学习得到的策略模型会过于适应当前环境及态势，具有较弱的鲁棒性。当应用至新环境或改变自身初始态势，策略模型将无法准确选择合理的决策动作。若在面临新环境时从头学习，则会消耗大量的训练时间。

发明内容

为了克服现有技术的不足，本发明提供了一种基于并行自我博弈的空战机动方法，首先构建无人机机动模型，再构建红蓝运动态势获取模型，描述红蓝作战相对态势；：然后依据马尔科夫过程构建红蓝双方状态空间、红双方动作空间和奖惩函数，接下来构建基于SAC算法的机动决策模型结构，通过空战对抗实现并行自我博弈训练SAC算法，最后测试训练得到的网络，显示作战轨迹并统计作战成功率。本发明能够有效提升敌我对抗水平，增大决策模型作战成功率。

本发明解决其技术问题所采用的技术方案包括如下步骤：

步骤S1：构建无人机机动模型；

步骤S2：定义我方无人机为红方，敌方无人机为蓝方；初始化红蓝双方，构建红蓝运动态势获取模型，描述红蓝作战相对态势；

步骤S3：依据马尔科夫过程构建红蓝双方状态空间S_r,S_b，红蓝双方动作空间A_r,A_b，奖惩函数R；

步骤S4：构建基于SAC算法的机动决策模型结构；

步骤S5：初始化多组作战双方，定义实验参数，多组作战双方使用同一个机动决策模型及同一个经验池，通过空战对抗实现并行自我博弈训练SAC算法；

步骤S6：随机初始化作战双方，测试训练得到的网络，显示作战轨迹；随机初始化多组作战双方，测试训练得到的网络，统计作战成功率。

进一步地，所述构建无人机机动模型的具体步骤包括：

设OXYZ坐标系为无人机所在的三维空间坐标系，其中原点O表示无人机作战区域中心，X轴指向正北方向，Z轴指向正东方向，Y轴指向垂直向上的方向；

将无人机视为质点，无人机运动方程如下所示：

其中t为当前时刻，dT为无人机的积分步长，[X_t,Y_t,Z_t],[X_t+dT,Y_t+dT,Z_t+dT]分别为t时刻和t+dT时刻无人机的坐标位置分量，V_t,V_t+dT分别为无人机在t时刻和t+dT时刻的速度大小，俯仰角θ_t,θ_t+dT分别为无人机在t时刻和t+dT时刻的速度向量与XOZ平面夹角，航向角

为无人机在t时刻和t+dT时刻的速度向量在XOZ平面投影向量与X轴正向夹角，dv为无人机加速度大小，dθ为无人机俯仰角变化量，

为无人机航向角变化量。

进一步地，所述步骤S2的具体步骤包括：

红蓝运动态势获取模型获取的作战双方的相对态势用

d与q描述，其中，

表示红方与蓝方之间的位置向量，方向由红方指向蓝方，d表示红方与蓝方距离，q表示相对方位角，为红方速度向量

与距离向量

的夹角；

蓝方相对于红方的作战态势用

d、q_r表示，红方相对于蓝方的作战态势用

d及q_b表示；

表示红方与蓝方之间的位置向量，方向由红方指向蓝方，

表示蓝方与红方之间的位置向量，方向由蓝方指向红方，q_r表示蓝方相对红方的相对方位角，q_b表示红方相对蓝方的相对方位角；

d、q_r与q_b的计算如下：

其中，

为红方的位置向量，

为红方的速度向量，v_r为红方的速度大小，θ_r为红方的俯仰角，

为红方的航向角；

为蓝方的位置向量，

为蓝方的速度向量，v_b为蓝方的速度大小，θ_b为蓝方的俯仰角，

为蓝方的航向角。

进一步地，所述步骤S3的具体步骤包括：

定义红方无人机状态空间为

蓝方无人机状态空间为

红方无人机动作空间为

蓝方无人机动作空间为

奖惩函数R由距离奖惩函数R_d和角度奖惩函数R_q组成，R＝w₁*R_d+w₂*R_a，其中w₁,w₂为距离奖惩与角度奖惩的权重；

距离奖惩函数R_d为：

R_d1＝-d/(5*D_max)

R_d＝R_d1+R_d2

其中，R_d1为距离连续奖惩值，R_d2为距离稀疏奖惩值，D_min为红方所载导弹的最小攻击距离，D_max为红方所载导弹的最大攻击距离；

角度奖惩函数R_q为：

R_q1＝-q/180

R_q2＝3,if q<q_max

R_q＝R_q1+R_q2

其中，R_q1表示角度连续奖惩值，R_q2表示角度稀疏奖惩值，q_max表示红方所载导弹的最大离轴发射角。

进一步地，所述构建基于SAC算法的机动决策模型结构的具体步骤包括：

基于SAC算法的机动决策模型采用SAC方法生成红蓝双方机动控制量，用于红蓝双方机动；

SAC算法通过神经网络实现，包含经验池M、一个Actor神经网络π_θ、两个Soft-Q神经网络

和

两个Target Soft-Q网络

和

其中，θ，

均表示对应网络的权重；

Actor神经网络π_θ的输入为红方状态值

或蓝方状态值

输出为均值μ(μ_r,μ_b)和方差σ(σ_r,σ_b)；噪声τ从标准正态分布采样得到；由均值μ、方差σ和噪声τ生成红方动作

或蓝方动作

并通过tanh函数将动作

或

限制在(-1，1)之间，动作生成过程如下所示：

Soft-Q神经网络

和

的输入为状态值和动作值，输出为神经网络预测的Q值；Target Soft-Q神经网络

和

与Soft-Q神经网络结构相同但网络权重不同；Soft-Q神经网络用于产生预测的Q值以及选取动作，Target Soft-Q神经网络产生目标Q值以及评估动作；Soft-Q神经网络权重实时优化更新，且经过多次迭代后将权重复制于Target Soft-Q网络；

Actor、Soft-Q与Target Soft-Q网络均为含有l层隐藏层的全连接神经网络，各隐藏层神经元个数均为n，激活函数为Relu函数。

进一步地，所述步骤S5的具体步骤包括：

初始化多组作战双方时，初始位置在作战区域内，设定初始速度范围，初始俯仰角范围，初始航向角范围；

通过空战对抗实现并行自我博弈训练SAC算法的步骤为：

步骤S51：定义并行自我博弈环境个数env_num，定义批训练样本组数batch_size，定义最大仿真步长N，初始化step＝1，初始化env＝1，初始化作战双方的初始态势，获取红方的初始状态

及蓝方的初始状态

步骤S52：随机生成Actor网络权重θ,Soft-Q网络权重

初始化策略网络π_θ与两个Soft-Q网络

令

将

作为网络权重初始化TargetSoft-Q网络

步骤S53：将红方状态

输入至Actor网络，输出均值μ_r和方差σ_r，由步骤S4动作生成过程得到符合步骤S3动作空间A_r的动作

红方执行动作后获取新状态

并根据步骤S3奖惩函数R获得奖惩值

将蓝方状态

输入至Actor网络，输出均值μ_b和方差σ_b，由步骤S4动作生成过程得到符合步骤S3中动作空间A_b的动作

蓝方执行动作后获取新状态

并根据步骤S3中奖惩函数R获得奖惩值

将元组

及元组

存储至经验池M；

步骤S54：判断env是否大于env_num，若是，则继续执行步骤S55；否则令env加1，转至执行步骤S51；

步骤S55：当经验池内经验组数大于batch_size时，随机取出batch_size组经验，对SAC算法中的Actor及Soft-Q神经网络的参数进行更新，并更新正则化系数α；

步骤S56：判定step是否大于N，若是，则执行步骤S57；否则令step加1，

转至执行步骤S53；

步骤S57：判定算法是否收敛或是否达到训练回合，若是，则结束训练，获得训练结束后的SAC算法模型；否则转至执行步骤S51。

进一步地，所述步骤S6的具体步骤包括：

步骤S61：初始化作战双方的初始态势，获取红蓝双方的初始状态

步骤S62：分别记录状态

将状态

输入至训练完成的SAC算法模型的Actor神经网络，输出红蓝双方的动作

双方执行动作后获取新状态

步骤S63：判定作战是否成功，若是，则结束；否则令

并转至执行步骤S62；

步骤S64：依据所记录的状态

画出作战双方的作战轨迹；

步骤S65：初始化n组作战双方的初始态势，分别对每组作战双方执行步骤S62至S63，记录最终是否作战成功，最终作战成功的次数记为num；

步骤S66：计算num/n，即为最终的作战成功率，并以此表示决策模型的泛化能力。

进一步地，所述步骤S5中，设定初始速度范围为[50m/s,400m/s]，初始俯仰角范围为[-90°,90°]，初始航向角范围为[-180°,180°]。

本发明的有益效果如下：

1、本发明在自我博弈过程引入多个战场环境，具有战场环境间样本与策略共享的特点，能够整体优化机动策略。

2、本发明的并行自我博弈算法能够有效提升敌我对抗水平，增大决策模型作战成功率。

附图说明

图1是本发明方法流程图。

图2是本发明方法的自我博弈原理图。

图3是本发明实施例的作战轨迹图。

图4是本发明实施例的作战成功率曲线。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

如图1所示，一种基于并行自我博弈的空战机动方法，包括以下步骤：

步骤S1：构建无人机机动模型；

步骤S4：构建基于SAC算法的机动决策模型结构；

进一步地，所述构建无人机机动模型的具体步骤包括：

敌我双方无人机通过无人机运动方程更新位置信息，实现机动，并将敌我双方信息提供给敌我态势获取模块用于计算相应态势。

将无人机视为质点，无人机运动方程如下所示：

为无人机航向角变化量。

进一步地，所述步骤S2的具体步骤包括：

红蓝运动态势获取模型可依据红蓝状态信息计算相对态势，并提供给基于深度强化学习方法的机动决策模块用于决策；

红蓝运动态势获取模型获取的作战双方的相对态势用

d与q描述，其中，

与距离向量

的夹角；

蓝方相对于红方的作战态势用

d、q_r表示，红方相对于蓝方的作战态势用

d及q_b表示；

表示红方与蓝方之间的位置向量，方向由红方指向蓝方，

d、q_r与q_b的计算如下：

其中，

为红方的位置向量，

为红方的航向角；

为蓝方的位置向量，

为蓝方的航向角。

进一步地，所述步骤S3的具体步骤包括：

定义红方无人机状态空间为

蓝方无人机状态空间为

红方无人机动作空间为

蓝方无人机动作空间为

距离奖惩函数R_d为：

R_d1＝-d/(5*D_max)

R_d＝R_d1+R_d2

角度奖惩函数R_q为：

R_q1＝-q/180

R_q2＝3,if q<q_max

R_q＝R_q1+R_q2

进一步地，如图2所示，所述构建基于SAC算法的机动决策模型结构的具体步骤包括：

和

两个Target Soft-Q网络

和

其中，θ，

均表示对应网络的权重；

经验池M是一种经验回放缓存结构，用来专门存储强化学习中学习的经验。

Actor神经网络π_θ的输入为红方状态值

或蓝方状态值

或蓝方动作

并通过tanh函数将动作

或

限制在(-1，1)之间，动作生成过程如下所示：

Soft-Q神经网络

和

和

进一步地，所述步骤S5的具体步骤包括：

初始化多组作战双方时，初始位置在作战区域内，初始速度范围为[50m/s,400m/s]，初始俯仰角范围为[-90°,90°]，初始航向角范围为[-180°,180°]。

通过空战对抗实现并行自我博弈训练SAC算法的步骤为：

及蓝方的初始状态

步骤S52：随机生成Actor网络权重θ,Soft-Q网络权重

初始化策略网络π_θ与两个Soft-Q网络

令

将

作为网络权重初始化TargetSoft-Q网络

步骤S53：将红方状态

红方执行动作后获取新状态

并根据步骤S3奖惩函数R获得奖惩值

将蓝方状态

蓝方执行动作后获取新状态

并根据步骤S3中奖惩函数R获得奖惩值r_t ^b；将元组

及元组

存储至经验池M；

步骤S55：当经验池M内经验组数大于batch_size时，随机取出batch_size组经验，其中每组数据被重新定义为<s_t,a_t,s_t+1,r>，对SAC算法中的Actor及Soft-Q神经网络的参数进行更新，并更新正则化系数α。针对Actor神经网络损失函数和Soft-Q神经网络的损失函数

进行学习率为lr的梯度下降以更新Actor神经网络和Soft-Q神经网络权重。

双Soft-Q函数被定义为Target Soft-Q网络

输出的最小值，因此有：

分别表示Target Soft-Q网络

的输出目标Q值。

其中Actor神经网络损失函数定义如下：

Soft-Q神经网络的损失函数

定义如下：

Target Soft-Q神经网络权重

更新方式如下：

更新正则化系数α，损失函数为：

J(α)＝E[-αlogπ_t(a_t|s_t)-αH₀]

转至执行步骤S53；

进一步地，所述步骤S6的具体步骤包括：

步骤S62：分别记录状态

将状态

双方执行动作后获取新状态

步骤S63：判定作战是否成功，若是，则结束；否则令

并转至执行步骤S62；

步骤S64：依据所记录的状态

画出作战双方的作战轨迹；

具体实施例：

实施例中，初始化多组作战双方时，作战区域为x∈[-6km,6km],y∈[3km,4km],z∈[-6km,6km]，初始速度范围为[50m/s,400m/s]，初始俯仰角范围为[-90°,90°]，初始航向角范围为[-180°,180°]。

导弹的最大攻击距离为6km，最小攻击距离为1km，导弹的最大离轴发射角为30°，w₁＝w₂＝0.5。

SAC算法模型的构建包括如下部分：SAC算法中Actor神经网络隐含层层数l＝2，各层的节点个数n＝256。优化算法为Adam算法、折扣因子γ＝0.99、网络学习率lr＝0.0003、熵的正则化系数α＝1、目标熵值H₀＝-3。

定义并行自我博弈环境个数env_num＝[2,4,6,8,10,12,14,16,18,20]，定义训练样本组数batch_size＝128，定义最大仿真步长N＝800。

训练完成后，随机初始化作战双方，测试所训练算法，显示作战轨迹，如图3所示。图中显示，作战开始后，红蓝双方同时使用训练完成模型进行决策，均能够有效的近敌，实现对对方的攻击。

随机初始化200组作战双方，测试所训练算法，统计作战成功率随着并行自我博弈环境个数变化结果，如图4所示。图中显示，并行自我博弈训练时，随着博弈环境的增加，因为算法具有样本共享与策略共享的特点，模型能够综合学习到适用于所有作战环境的决策，避免过拟合，提升泛化能力，使得整体作战最优，也因此在新环境中能够达到更高的作战成功率。当并行博弈环境为12时，决策模型的泛化能力达到最高，可以实现69.15％的作战成功率。随着博弈环境个数的继续增加，环境产生的样本过于复杂，算法无法令所有环境中的智能体达到作战最优，因此丢失了一部分决策能力，使得作战成功率逐渐降低。

因此，本发明不仅能够有效实现无人机机动决策过程，同时能够提升模型的泛化能力，更加具有实用性。