CN113093802B

CN113093802B - 一种基于深度强化学习的无人机机动决策方法

Info

Publication number: CN113093802B
Application number: CN202110364100.2A
Authority: CN
Inventors: 李波; 甘志刚; 梁诗阳; 高晓光; 万开方; 越凯强; 杨志鹏
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2021-04-03
Filing date: 2021-04-03
Publication date: 2022-08-02
Anticipated expiration: 2041-04-03
Also published as: CN113093802A

Abstract

本发明公开了一种基于深度强化学习的无人机机动决策方法，首先构建无人机机动模型，然后描述无人机和敌机作战相对态势，再依据马尔科夫过程构建状态空间、动作空间和奖惩函数，接下来构建SAC算法模型结构，再定义SAC算法模型参数并进行训练，最后初始化无人机和敌机作战态势，使用训练完成算法进行机动决策。本发明能够有效地令无人机自主决策，无需人工参与，且具有很强的探索能力，能够高效的探索到最优策略。

Description

一种基于深度强化学习的无人机机动决策方法

技术领域

本发明属于无人机技术领域，具体涉及一种无人机机动决策方法。

背景技术

无人机自凭借零伤亡、机动性能强、成本低、隐身性等优势进入军事领域以来，已经被快速并广泛的应用于各类军事用途。然而，现在的无人机在作战方面仍需要有人机或者地面站指挥员的指挥控制，未能实现真正的自主能力，无人机的自主机动决策也逐渐成为无人机领域重要的研究内容之一。

近年来，国内外针对无人机自主智能机动决策问题具有广泛的研究。崔明朗等人提出采用蒙特卡洛强化学习方法实现近距空战机动决策。该方法将动作空间离散化，选择态势评估函数构建状态空间，以空战结果作为返回奖赏的依据，保证机动动作的连续性。专利CN110488872A采用D3QN网络实现无人机的实施路径规划。胡真财设计了基于Q学习(Q-learning)与价值评估网络的空战机动决策方法。该方法将作战动作空间离散化，实现与敌机的对抗机动决策过程。

这些方法没有考虑空战具有大状态空间及大机动的特点，因此以确定性深度强化学习算法进行决策可能无法获取最优结果。

发明内容

为了克服现有技术的不足，本发明提供了一种基于深度强化学习的无人机机动决策方法，首先构建无人机机动模型，然后描述无人机和敌机作战相对态势，再依据马尔科夫过程构建状态空间、动作空间和奖惩函数，接下来构建SAC算法模型结构，再定义SAC算法模型参数并进行训练，最后初始化无人机和敌机作战态势，使用训练完成算法进行机动决策。本发明能够有效地令无人机自主决策，无需人工参与，且具有很强的探索能力，能够高效的探索到最优策略。

本发明解决其技术问题所采用的技术方案包括如下步骤：

步骤S1：构建无人机机动模型；

步骤S2：描述无人机和敌机作战相对态势；

步骤S3：依据马尔科夫过程构建状态空间S，动作空间A，奖惩函数R；

步骤S4：构建SAC算法模型结构；

步骤S5：定义SAC算法模型参数并进行训练；

步骤S6：初始化无人机和敌机作战态势，使用训练完成算法进行机动决策。

进一步地，所述构建无人机机动模型的具体步骤包括：

设OXYZ坐标系为无人机所在的三维空间坐标系，其中原点O表示无人机作战区域中心，X轴指向正北方向，Z轴指向正东方向，Y轴指向垂直向上的方向；

将无人机视为质点，无人机运动方程如下所示：

其中t为当前时刻，dT为无人机的积分步长，[X_t,Y_t,Z_t],[X_t+dT,Y_t+dT,Z_t+dT]分别为t时刻和t+dT时刻无人机的坐标位置分量，V_t,V_t+dT分别为无人机在t时刻和t+dT时刻的速度大小，俯仰角θ_t,θ_t+dT分别为无人机在t时刻和t+dT时刻的速度向量与XOZ平面夹角，航向角

为无人机在t时刻和t+dT时刻的速度向量在XOZ平面投影向量与X轴正向夹角，dv为无人机加速度大小，dθ为无人机俯仰角变化量，

为无人机航向角变化量。

进一步地，所述描述无人机和敌机作战相对态势的具体步骤包括：

用

表示无人机与敌机之间的位置向量，方向由无人机指向敌机，d为无人机到敌机的距离；q表示相对方位角，为无人机速度向量

与距离向量

的夹角；无人机与敌机相对态势数据用

d与q描述：

其中，

为无人机在三维空间坐标系的位置向量，

为速度向量，v_r为无人机速度大小，θ_r为无人机俯仰角，

为无人机航向角；

为敌机在三维空间坐标系的位置向量；

进一步地，所述依据马尔科夫过程构建状态空间S，动作空间A，奖惩函数R的具体步骤包括：

定义状态空间为

动作空间为

奖惩函数R由距离奖惩函数R_d和角度奖惩函数R_q组成，R＝w₁*R_d+w₂*R_a，其中w₁,w₂为距离奖惩与角度奖惩的权重；

距离奖惩函数R_d为：

R_d1＝-d/(5*D_max)

R_d＝R_d1+R_d2

其中，R_d1为距离连续奖惩值，R_d2为距离稀疏奖惩值，D_min为红方所载导弹的最小攻击距离，D_max为红方所载导弹的最大攻击距离；

角度奖惩函数R_q为：

R_q1＝-q/180

R_q2＝3,if q<q_max

R_q＝R_q1+R_q2

其中，R_q1表示角度连续奖惩值，R_q2表示角度稀疏奖惩值，q_max表示红方所载导弹的最大离轴发射角。

进一步地，所述构建SAC算法模型结构的具体步骤包括：

SAC算法模型通过神经网络实现，包含经验池M、一个Actor神经网络π_θ、两个Soft-Q神经网络

和

两个Target Soft-Q网络

和

其中，θ，

均表示对应网络的权重；

Actor神经网络π_θ的输入为状态值s_t，输出为均值μ和方差σ，噪声τ从标准正态分布采样得到；由均值μ和方差σ和噪声τ生成动作a_t，并通过tanh函数将动作a_t限制在(-1，1)之间，动作生成过程如下所示：

π_θ(s_t)＝N(μ,σ²)

a_t＝N(μ,σ²)＝μ+σ*τ

a_t＝tanh(a_t)

Soft-Q神经网络

和

的输入为状态值和动作值，输出为神经网络预测的Q值；Target Soft-Q神经网络

和

与Soft-Q神经网络结构相同但网络权重不同；Soft-Q神经网络用于产生预测的Q值以及选取动作，Target Soft-Q神经网络产生目标Q值以及评估动作；Soft-Q神经网络权重实时优化更新，且经过多次迭代后将权重复制于Target Soft-Q网络；

Actor、Soft-Q与Target Soft-Q网络均为含有l层隐藏层的全连接神经网络，各隐藏层神经元个数均为n，激活函数为Relu函数。

进一步地，所述定义SAC算法模型参数并进行训练的具体步骤包括：

定义SAC算法模型参数，包括最大仿真步长N、训练回合episode、时间步长T、训练样本组数batch_size、折扣因子γ、网络学习率lr、熵的正则化系数α、目标熵值H₀；

训练SAC算法模型，包括以下步骤：

步骤S51：初始化无人机和敌机作战相对态势，获取状态空间S的初始状态s_t；

步骤S52：随机生成Actor网络权重θ，Soft-Q网络权重

初始化Actor网络π_θ与两个Soft-Q网络

令

将

作为网络权重初始化Target Soft-Q网络

步骤S53：将状态s_t输入至Actor网络，输出均值μ和方差σ，由步骤S4中动作生成过程得到动作a_t，无人机执行动作a_t后获取新状态s_t+1并根据步骤S3得到奖惩函数R奖惩值r(s_t,a_t)，并将<s_t,a_t,s_t+1,r(s_t,a_t)>元组存储至经验池M；

步骤S54：当经验池M内经验组数大于batch_size时，随机取出batch_size组经验，对SAC算法中的Actor及Soft-Q神经网络的参数进行更新，其中Actor神经网络与Soft-Q神经网络的损失函数分别如下：

更新正则化系数α，损失函数为：

J(α)＝E[-αlogπ_θ(a_t|s_t)-αH₀]

步骤S55：判定是否作战成功，若是，则执行步骤S56；否则令s_t＝s_t+1，转至执行步骤S53；

步骤S56：判定SAC算法是否收敛或是否达到训练回合，若是，则结束训练，保存训练结束后的模型；否则转至执行步骤S51。

进一步地，所述初始化无人机和敌机作战态势，使用训练完成算法进行机动决策的具体步骤包括：

步骤S61：初始化作战双方的初始态势，获取初始状态s_t；

步骤S62：对状态s进行记录，将状态s_t输入至训练完成的SAC算法模型的Actor神经网络，输出动作a_t＝π_θ(s_t)，无人机执行动作a_t，敌机执行随机动作，获取新状态s_t+1；

步骤S63：判定作战是否成功，若是，则结束；否则令s_t＝s_t+1，并转至执行步骤S62；

步骤S64：记录无人机作战成功时的步长，根据所记录状态s_t画出作战双方轨迹图。

进一步地，所述batch_size＝256，T＝0.1s。

本发明的有益效果如下：

1、本发明将深度强化学习算法中的非确定性策略算法SAC应用至无人机机动决策中，能够有效地令无人机自主决策，无需人工参与；

2、本发明中的非确定性机动策略具有很强的探索能力，能够高效的探索到最优策略。

附图说明

图1是本发明方法流程图。

图2是本发明方法的SAC算法模型网络结构。

图3是本发明实施例的导弹攻击区。

图4是本发明实施例的作战轨迹图。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

如图1所示，一种基于深度强化学习的无人机机动决策方法，包括以下步骤：

步骤S1：构建无人机机动模型；

步骤S2：描述无人机和敌机作战相对态势；

步骤S4：构建SAC算法模型结构；

步骤S5：定义SAC算法模型参数并进行训练；

进一步地，所述构建无人机机动模型的具体步骤包括：

对建立无人机运动、动力学模型作如下假设：

(1)假设无人机为刚体；

(2)忽略地球自转及公转影响，忽略地球曲率；

(3)基于近距空战格斗机动幅度大、战斗时间短的特点，忽略风力的作用以及油耗的影响。

在三维空间中，无人机具有位置、速度和姿态等物理描述量。设OXYZ坐标系为无人机所在的三维空间坐标系，其中原点O表示无人机作战区域中心，X轴指向正北方向，Z轴指向正东方向，Y轴指向垂直向上的方向；

在考察无人机运动时，将无人机视为质点，无人机运动方程如下所示：

为无人机航向角变化量。

用

与距离向量

的夹角；无人机与敌机相对态势数据用

d与q描述：

其中，

为无人机在三维空间坐标系的位置向量，

为速度向量，v_r为无人机速度大小，θ_r为无人机俯仰角，

为无人机航向角；

为敌机在三维空间坐标系的位置向量；

状态空间用八元组描述，以向量形式表示，定义状态空间为

动作空间为

奖励函数由连续奖励及激励奖励共同组成，解决了算法长期无法得到奖励回应，导致算法收敛较慢或无法收敛的问题。其中，连续奖励函数与相对方位角及相对距离呈负相关，用于引导策略探索，激励函数为常值，用于激励算法保存已探索到的较优策略。

距离奖惩函数R_d为：

R_d1＝-d/(5*D_max)

R_d＝R_d1+R_d2

角度奖惩函数R_q为：

R_q1＝-q/180

R_q2＝3,if q<q_max

R_q＝R_q1+R_q2

进一步地，所述构建SAC算法模型结构的具体步骤包括：

如图2所示，SAC算法模型通过神经网络实现，包含经验池M、一个Actor神经网络π_θ、两个Soft-Q神经网络

和

两个Target Soft-Q网络

和

其中，θ，

均表示对应网络的权重；

经验池M是一种经验回放缓存结构，用来专门贮存强化学习中学习的经验。

π_θ(s_t)＝N(μ,σ²)

a_t＝N(μ,σ²)＝μ+σ*τ

a_t＝tanh(a_t)

Soft-Q神经网络

和

和

训练SAC算法模型，包括以下步骤：

步骤S52：随机生成Actor网络权重θ，Soft-Q网络权重

初始化Actor网络π_θ与两个Soft-Q网络

令

将

作为网络权重初始化Target Soft-Q网络

步骤S54：当经验池M内经验组数大于batch_size时，随机取出batch_size组经验，对SAC算法中的Actor及Soft-Q神经网络的权重进行更新；针对Actor神经网络损失函数和Soft-Q神经网络的损失函数

进行学习率为lr的梯度下降以更新Actor神经网络和Soft-Q神经网络权重；

双Soft-Q函数被定义为Target Soft-Q网络

输出的最小值，因此有：

分别表示Target Soft-Q网络

的输出目标Q值。

其中Actor神经网络损失函数定义如下：

Soft-Q神经网络的损失函数

定义如下：

Target Soft-Q神经网络权重

更新方式如下：

更新正则化系数α，损失函数为：

J(α)＝E[-αlogπ_θ(a_t|s_t)-αH₀]

判定作战成功条件如下：

设敌机连续处于无人机导弹攻击区的时间为t_in，当满足下式时，即可认为无人机导弹发射成功，且敌机被导弹摧毁，作战成功。

进一步地，所述初始化作战态势，使用训练完成算法进行机动决策的具体步骤包括：

步骤S61：初始化作战双方的初始态势，获取初始状态s_t；

具体实施例：

实施例中，初始化无人机的初始位置向量为[-6km,2km,6km]，初始俯仰角、偏航角分别为2°、120°，初始速度为80m/s；敌方的初始位置向量为[6km,6km,6km]，初始俯仰角、偏航角分别为1°、-60°，初始速度为60m/s。计算得到

d＝12.64km，q＝47.35°。

初始状态空间s＝[-6km,2km,6km,80,2,120,12.64,47.35]。

导弹的最大攻击距离为6km，最小攻击距离为1km，导弹的最大离轴发射角为30°，w₁＝w₂＝0.5，导弹的攻击区如图3所示。

SAC算法中Actor神经网络隐含层层数l＝2，各层的节点个数n＝256。优化算法为Adam算法、折扣因子γ＝0.99、网络学习率lr＝0.0003、熵的正则化系数α＝1、目标熵值H₀＝-3。

最大仿真步长N＝800、训练回合episode＝2000、时间步长T＝0.1s、训练样本组数batch_size＝256。

经过训练后，初始化作战态势，使用训练完成算法进行机动决策。记录无人机作战成功时的步长，根据所记录状态s画出作战双方轨迹图。无人机在第314个步长作战成功，图4为双方的作战轨迹图，红方为我方无人机，蓝方为敌机，图中可知，使用经过训练后的决策模型进行机动决策后，无人机能够快速近敌且实现对敌方的攻击。

Claims

1.一种基于深度强化学习的无人机机动决策方法，其特征在于，包括以下步骤：

步骤S1：构建无人机机动模型；

将无人机视为质点，无人机运动方程如下所示：

为无人机航向角变化量；

步骤S2：描述无人机和敌机作战相对态势；

用

与距离向量

的夹角；无人机与敌机相对态势数据用

d与q描述：

其中，

为无人机在三维空间坐标系的位置向量，

为速度向量，v_r为无人机速度大小，θ_r为无人机俯仰角，

为无人机航向角；

为敌机在三维空间坐标系的位置向量；

定义状态空间为

动作空间为

距离奖惩函数R_d为：

R_d1＝-d/(5*D_max)

R_d＝R_d1+R_d2

角度奖惩函数R_q为：

R_q1＝-q/180

R_q2＝3,if q<q_max

R_q＝R_q1+R_q2

其中，R_q1表示角度连续奖惩值，R_q2表示角度稀疏奖惩值，q_max表示红方所载导弹的最大离轴发射角；

步骤S4：构建SAC算法模型结构；

和

两个Target Soft-Q网络

和

其中，θ，

均表示对应网络的权重；

π_θ(s_t)＝N(μ,σ²)

a_t＝N(μ,σ²)＝μ+σ*τ

a_t＝tanh(a_t)

Soft-Q神经网络

和

和

Actor、Soft-Q与Target Soft-Q网络均为含有l层隐藏层的全连接神经网络，各隐藏层神经元个数均为n，激活函数为Relu函数；

步骤S5：定义SAC算法模型参数并进行训练；

训练SAC算法模型，包括以下步骤：

步骤S52：随机生成Actor网络权重θ，Soft-Q网络权重

初始化Actor网络π_θ与两个Soft-Q网络

令

将

作为网络权重初始化Target Soft-Q网络

更新正则化系数α，损失函数为：

J(α)＝E[-αlogπ_θ(a_t|s_t)-αH₀]

步骤S56：判定SAC算法是否收敛或是否达到训练回合，若是，则结束训练，保存训练结束后的模型；否则转至执行步骤S51；

步骤S6：初始化无人机和敌机作战态势，使用训练完成算法进行机动决策；

步骤S61：初始化作战双方的初始态势，获取初始状态s_t；

2.根据权利要求1所述的一种基于深度强化学习的无人机机动决策方法，其特征在于，所述batch_size＝256，T＝0.1s。