CN113093803B

CN113093803B - 一种基于e-sac算法的无人机空战运动控制方法

Info

Publication number: CN113093803B
Application number: CN202110364108.9A
Authority: CN
Inventors: 李波; 甘志刚; 梁诗阳; 高晓光; 万开方; 越凯强; 杨志鹏
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2021-04-03
Filing date: 2021-04-03
Publication date: 2022-10-14
Anticipated expiration: 2041-04-03
Also published as: CN113093803A

Abstract

本发明公开了一种基于E‑SAC算法的无人机空战运动控制方法，首先构建无人机运动模型，获取无人机自身的状态及敌机的相对状态，组成总状态，然后构建SAC算法模型并进行训练，最后根据无人机机动模型，采用SAC算法模型实现机动，直至实现对敌机的攻击。本发明通过专家经验样本在前期驱动训练，使得算法全局收敛，能够获取更快的作战效率。

Description

一种基于E-SAC算法的无人机空战运动控制方法

技术领域

本发明属于无人机技术领域，具体涉及一种无人机空战运动控制方法。

背景技术

随着智能算法应用的层出不穷，学者与研究人员意识到“人工智能+无人机”的组合将会产生更多高级、新型、有效的空战策略，能够改变未来战场的作战模式。

近些年来，国内外已出现研究使用深度强化学习算法进行无人机运动控制，如Q-learning、DQN、DDPG算法。然而这些方法在训练过程中，算法收敛速度较慢，训练训练较低，极易陷入局部最优决策，无法获得全局最优的无人机自主机动决策，不能满足空战对抗机动决策的要求。

发明内容

为了克服现有技术的不足，本发明提供了一种基于E-SAC算法的无人机空战运动控制方法，首先构建无人机运动模型，获取无人机自身的状态及敌机的相对状态，组成总状态，然后构建SAC算法模型并进行训练，最后根据无人机机动模型，采用SAC算法模型实现机动，直至实现对敌机的攻击。本发明通过专家经验样本在前期驱动训练，使得算法全局收敛，能够获取更快的作战效率。

本发明解决其技术问题所采用的技术方案包括如下步骤：

步骤S1：构建无人机运动模型；

步骤S2：获取无人机自身的状态及敌机的相对状态，组成总状态s；

步骤S3：构建SAC算法模型并进行训练；

步骤S31：构建SAC算法模型，构建奖励函数R；

步骤S32：建立专家决策方法，获取专家动作控制量，提取专家经验样本，获得专家经验池M_e；

步骤S33：将总状态s输入SAC算法模型并输出动作控制量a，无人机执行动作后获取下一时刻状态s'及奖励值r，将元组<s,a,s′,r>存储至SAC算法模型的经验池M；

步骤S34：使用专家经验池M_e和SAC算法经验池M中数据对SAC算法模型进行训练，直至算法模型收敛；

步骤S4：根据步骤S1中的无人机机动模型，无人机采用SAC算法模型实现机动，直至实现对敌机的攻击。

进一步地，所述步骤S1中构建无人机运动模型的步骤具体包括：

设OXYZ坐标系为无人机所在的三维空间坐标系，其中原点O表示无人机作战区域中心，X轴指向正北方向，Z轴指向正东方向，Y轴指向垂直向上的方向；

将无人机视为质点，无人机运动方程如下所示：

其中t为当前时刻，dT为无人机的积分步长，[X_t,Y_t,Z_t],[X_t+dT,Y_t+dT,Z_t+dT]分别为t时刻和t+dT时刻无人机的坐标位置分量，V_t,V_t+dT分别为无人机在t时刻和t+dT时刻的速度大小，俯仰角θ_t,θ_t+dT分别为无人机在t时刻和t+dT时刻的速度向量与XOZ平面夹角，航向角

为无人机在t时刻和t+dT时刻的速度向量在XOZ平面投影向量与X轴正向夹角，dv为无人机加速度大小，dθ为无人机俯仰角变化量，

为无人机航向角变化量。

进一步地，所述步骤S2中获取无人机自身的状态及敌机的相对状态，组成总状态s的具体步骤包括：

用

表示无人机与敌机之间的位置向量，方向由无人机指向敌机，d为无人机到敌机的距离；q表示相对方位角，为无人机速度向量

与距离向量

的夹角；无人机与敌机相对态势数据用

d与q描述：

其中，

为无人机在三维空间坐标系的位置向量，

为速度向量，

为敌机在三维空间坐标系的位置向量；

无人机的自身状态包括无人机三维空间坐标系下的位置分量[X_r,Y_r,Z_r]，无人机速度大小v_r，无人机俯仰角θ_r，无人机航向角

无人机与敌机的相对状态包括相对距离d及相对方位角q；总状态

动作控制量a为

进一步地，所述步骤S31中构建SAC算法模型，构建奖励函数R的具体步骤包括：

步骤S31-1：SAC算法模型通过神经网络来实现，包含SAC算法经验池M，一个Actor神经网络π_θ、两个Soft-Q神经网络

和

两个Target Soft-Q网络

和

其中，θ，

均表示不同的网络权重；

步骤S31-2：奖励函数R的构建如下：

R＝w₁*R_d+w₂*R_a，

R_d1＝-d/(5*D_max)

R_d＝R_d1+R_d2

R_q1＝-q/180

R_q2＝3,if q<q_max

R_q＝R_q1+R_q2

其中，R_d为距离奖惩函数，R_q为角度奖惩函数，w₁,w₂为距离奖惩与角度奖惩的权重；R_d1为连续距离奖惩值，R_d2为稀疏距离奖惩值，D_min为无人机所载导弹的最小攻击距离，D_max为无人机所载导弹的最大攻击距离，R_q1表示连续角度奖惩值，R_q2表示稀疏角度奖惩值，q_max表示无人机所载导弹的最大离轴发射角。

进一步地，所述步骤S32中建立专家决策方法，获取专家动作控制量的具体步骤包括：

设无人机速度、航向角与俯仰角的增量分别控制在[-△v₀,△v₀]、

[-△θ₀,△θ₀]范围内，专家动作控制量包括速度、俯仰角、航向角的变化量，计算过程如下：

其中，△X,△Y,△Z分别表示敌机相对于无人机的位置向量分量，

表示位置向量

在XOZ平面上投影向量的航向角，D_θ表示位置向量

与XOZ平面间的夹角；

令Δv为敌机和无人机速度之差，△v＝v_b-v_r，则速度的变化量dv为：

令

则航向角的变化量

为：

令

则俯仰角的变化量dθ为：

其中，dv，dθ，

分别表示速度、俯仰角、航向角的变化量；

进一步地，所述步骤S32中提取专家经验样本，获得专家经验池M_e的步骤具体包括：

步骤S32-1：定义需提取样本的环境个数n，令i＝1；

步骤S32-2：在作战区域内初始化第i组无人机及敌机，获取状态s_e；

步骤S32-3：依据专家动作控制量获取方法获得无人机速度、俯仰角、航向角的变化量，并定义为动作a_e；

步骤S32-4：执行动作a_e，获得新的作战状态s′_e，同时计算得到奖惩值r_e；

步骤S32-5：元组<s_e,a_e,s_e′,r_e>即为专家经验样本，将样本存储至专家经验池M_e；

步骤S32-6：判定是否作战成功，若成功则i加1；否则执行步骤S32-3至S32-6；

步骤S32-7：判定i是否小于n，若i<n则执行步骤S32-2至S32-7；否则结束；

步骤S32-8：获得所存储的专家经验样本池。

进一步地，所述步骤S34中对SAC算法模型进行训练的步骤具体包括：

步骤S34-1：定义批量处理数据大小为batch_size，定义提供专家样本数据训练步数expert_step；

步骤S34-2：随机生成Actor网络权重θ,Soft-Q网络权重

初始化Actor网络π_θ与两个Soft-Q网络

令

将

作为网络权重初始化TargetSoft-Q网络

步骤S34-3：判定SAC算法模型经验池M内经验组数是否小于expert_step，若为是，则从专家经验池M_e中随机取出n₁组经验，n₁＝batch_size，对SAC算法中神经网络权重进行更新；若为否，则从专家经验池M_e中随机取出n₁组经验，从SAC算法经验池M中取出n₂组经验，令n₂＝batch_size-n₁，对SAC算法中神经网络权重进行更新。

进一步地，所述batch_size＝256，expert_step＝2e5。

本发明的有益效果如下：

1、本发明借助少量专家经验增加样本的多样性，能够有效提升强化学习的探索与利用效率，加速算法的收敛过程。

2、本发明通过专家经验样本在前期驱动训练，使得算法全局收敛，能够获取更快的作战效率。

附图说明

图1是本发明的方法流程图。

图2是本发明实施例的无人机与敌机位置及相关参数图。

图3是本发明方法的SAC算法模型结构图。

图4是本发明实施例的无人机导弹攻击区示意图。

图5是本发明实施例无人机作战轨迹图。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

本发明考虑到专家知识样本对深度强化学习算法的引导作用，以专家数据为驱动进行训练，能够快速的实现算法训练的全局收敛，解决了算法的局部收敛问题，得到全局最优决策模型。

如图1所示，一种基于E-SAC算法的无人机空战运动控制方法，包括以下步骤：

步骤S1：在三维空间中，无人机具有位置、速度和姿态等物理描述量；据此构建无人机运动模型；

步骤S3：构建SAC算法模型并进行训练；

步骤S31：构建SAC算法模型，构建奖励函数R；

将无人机视为质点，无人机运动方程如下所示：

为无人机航向角变化量。

用

与距离向量

的夹角；无人机与敌机相对态势数据用

d与q描述：

其中，

为无人机在三维空间坐标系的位置向量，

为速度向量，v_r为无人机速度大小，θ_r为无人机俯仰角，

为无人机航向角；

为敌机在三维空间坐标系的位置向量，

为速度向量，v_b为敌机速度大小，θ_b为敌机俯仰角，

为敌机航向角；

动作控制量a为

和

两个Target Soft-Q网络

和

其中，θ，

均表示不同的网络权重；

SAC算法经验池M是一种经验回放缓存结构，用来专门贮存强化学习中学习的经验；

Actor神经网络π_θ的输入为状态值s_t，输出为均值μ和方差σ。噪声τ从标准正态分布采样得到。由均值μ和方差σ和噪声τ生成动作a_t，并通过tanh函数将动作a_t限制在(-1，1)之间，动作生成过程如下所示：

μ,σ＝π_θ(s_t)

a_t＝N(μ,σ²)＝μ+σ*τ

a_t＝tanh(a_t)

Soft-Q神经网络

和

的输入为状态值和动作值，输出为神经网络预测的Q值。Target Soft-Q神经网络

和

与Soft-Q神经网络结构相同但是网络权重不同，Soft-Q神经网络用于产生预测的Q值以及选取动作；Target Soft-Q神经网络产生目标Q值以及评估动作。Soft-Q神经网络权重实时优化更新，且在一定次数迭代后将权重复制于TargetSoft-Q网络。

Actor、Soft-Q与Target Soft-Q网络均为含有l层隐藏层的全连接神经网络，各隐藏层神经元个数均为n，激活函数为Relu函数；

步骤S31-2：奖励函数R的构建由敌机和无人机距离、相对方位角及无人机所载导弹的相关参数共同决定，计算如下：

R＝w₁*R_d+w₂*R_a，

R_d1＝-d/(5*D_max)

R_d＝R_d1+R_d2

R_q1＝-q/180

R_q2＝3,if q<q_max

R_q＝R_q1+R_q2

其中，R_d为距离奖惩函数，R_q为角度奖惩函数，w₁,w₂为距离奖惩与角度奖惩的权重；R_d1为连续距离奖惩值，R_d2为稀疏距离奖惩值，D_min为无人机所载导弹的最小攻击距离，D_max为无人机所载导弹的最大攻击距离，d为无人机到敌机的距离，R_q1表示连续角度奖惩值，R_q2表示稀疏角度奖惩值，q表示相对方位角，q_max表示无人机所载导弹的最大离轴发射角。

进一步地，所述步骤S32中专家决策方法的作用为在当前作战态势下获得能令无人机产生作战优势的运动控制量，实现对无人机的最优控制。专家动作控制量包括速度、俯仰角、航向角的变化量，设无人机速度、航向角与俯仰角的增量需要分别控制在[-△v₀,△v₀]、

[-△θ₀,△θ₀]范围内，无人机专家控制模型如下：

表示位置向量

在XOZ平面上投影向量的航向角，D_θ表示位置向量

与XOZ平面间的夹角；

令

则航向角的变化量

为：

令△θ＝D_θ-θ，则俯仰角的变化量dθ为：

其中，dv，dθ，

分别表示速度、俯仰角、航向角的变化量；

得到速度、俯仰角、航向角的变化量后，通过无人机运动模型可以求得无人机的位置，从而实现基于专家控制方式的机动飞行。

步骤S32-1：定义需提取样本的环境个数n，令i＝1；

步骤S32-5：元组<s_e,a_e,s′_e,r_e>即为专家经验样本，将样本存储至专家经验池M_e；

步骤S32-8：获得所存储的专家经验样本池。

步骤S34-2：随机生成Actor网络权重θ,Soft-Q网络权重

初始化Actor网络π_θ与两个Soft-Q网络

令

将

作为网络权重初始化TargetSoft-Q网络

n₁与n₂之间的关系如下：

若SAC算法模型经验池M样本数为偶数则：

n₁＝n₁-1

n₂＝batch_size-n₁

训练时，针对Actor神经网络损失函数和Soft-Q神经网络的损失函数

进行学习率为lr的梯度下降以更新Actor神经网络和Soft-Q神经网络权重，具体的神经网络损失函数和神经网络更新过程如下：

双Soft-Q函数被定义为Target Soft-Q网络

输出的最小值，因此有：

分别表示Target Soft-Q网络

的输出目标Q值。

其中Actor神经网络损失函数定义如下：

Soft-Q神经网络的损失函数

定义如下：

Target Soft-Q神经网络权重

更新方式如下：

更新正则化系数α，损失函数为：

J(α)＝E[-αlogπ_t(a_t|s_t)-αH₀]

具体实施例：

本实施例中，如图2所示，我方无人机的位置向量为[-2km,3km,4km]，俯仰角、航向角分别为2°、120°，初始速度为80m/s；敌机的位置向量为[5km,4km,-6km]，俯仰角、航向角分别为1°、-30°，初始速度为80m/s。计算得到d＝12.25km，q＝170.30°。总状态s＝[-2km,3km,4km,80,2,120,12.25,170.30]。

本实施例中，SAC算法模型的结构如图3所示。

奖励函数R的设计中，w₁＝w₂＝0.5，无人机所载导弹的最大攻击距离为6km，最小攻击距离为1km，导弹的最大离轴发射角为30°。导弹攻击区如图4所示。

提取专家样本的环境个数n＝100。

小样本组数batch_size＝256，定义提供专家样本训练步数expert_step＝2e5。

使用训练后的模型对无人机进行机动决策后，无人机的作战轨迹如图5所示。红方为我方无人机，采用训练后的模型进行决策，蓝方为敌机，做固定机动。图中显示，我方通过机动实现了近敌，使得敌方能够被我方的导弹击毁。

Claims

1.一种基于E-SAC算法的无人机空战运动控制方法，其特征在于，包括以下步骤：

步骤S1：构建无人机运动模型；

将无人机视为质点，无人机运动方程如下所示：

为无人机航向角变化量；

用

与距离向量

的夹角；无人机与敌机相对态势数据用

d与q描述：

其中，

为无人机在三维空间坐标系的位置向量，

为速度向量；

为敌机在三维空间坐标系的位置向量；

动作控制量a为

步骤S3：构建SAC算法模型并进行训练；

步骤S31：构建SAC算法模型，构建奖励函数R；

和

两个Target Soft-Q网络

和

其中，θ，

均表示不同的网络权重；

步骤S31-2：奖励函数R的构建如下：

R＝w₁*R_d+w₂*R_a，

R_d1＝-d/(5*D_max)

R_d＝R_d1+R_d2

R_q1＝-q/180

R_q2＝3,if q<q_max

R_q＝R_q1+R_q2

其中，R_d为距离奖惩函数，R_q为角度奖惩函数，w₁,w₂为距离奖惩与角度奖惩的权重；R_d1为连续距离奖惩值，R_d2为稀疏距离奖惩值，D_min为无人机所载导弹的最小攻击距离，D_max为无人机所载导弹的最大攻击距离，R_q1表示连续角度奖惩值，R_q2表示稀疏角度奖惩值，q_max表示无人机所载导弹的最大离轴发射角；

表示位置向量

在XOZ平面上投影向量的航向角，D_θ表示位置向量

与XOZ平面间的夹角；

令

则航向角的变化量

为：

令△θ＝D_θ-θ，则俯仰角的变化量dθ为：

其中，dv，dθ，

分别表示速度、俯仰角、航向角的变化量；

步骤S32-1：定义需提取样本的环境个数n，令i＝1；

步骤S32-8：获得所存储的专家经验样本池；

步骤S34-2：随机生成Actor网络权重θ,Soft-Q网络权重

初始化Actor网络π_θ与两个Soft-Q网络

令

将

作为网络权重初始化Target Soft-Q网络

步骤S34-3：判定SAC算法模型经验池M内经验组数是否小于expert_step，若为是，则从专家经验池M_e中随机取出n₁组经验，n₁＝batch_size，对SAC算法中神经网络权重进行更新；若为否，则从专家经验池M_e中随机取出n₁组经验，从SAC算法经验池M中取出n₂组经验，令n₂＝batch_size-n₁，对SAC算法中神经网络权重进行更新；

2.根据权利要求1所述的一种基于E-SAC算法的无人机空战运动控制方法，其特征在于，所述batch_size＝256，expert_step＝2e5。