CN118092463A

CN118092463A - 一种基于深度学习的自博弈机动决策训练方法

Info

Publication number: CN118092463A
Application number: CN202311862617.XA
Authority: CN
Inventors: 刘波; 杨兴昊; 林鹏; 陈肇江; 王浩龙; 赵柳航
Original assignee: Chinese Aeronautical Est
Current assignee: Chinese Aeronautical Est
Priority date: 2023-12-29
Filing date: 2023-12-29
Publication date: 2024-05-28

Abstract

本发明公开了一种基于深度学习的自博弈机动决策训练方法，涉及机器学习技术领域。该方法的一具体实施方式包括：构建无人机飞行机动模型与飞行仿真环境；构建状态空间、动作空间与奖励函数；构建SAC策略模型并设置网络参数；构建自博弈训练框架并训练SAC策略模型。本发明能够通过自博弈，使得对抗双方均采用智能策略，进一步验证该方法的准确性与有效性。

Description

一种基于深度学习的自博弈机动决策训练方法

技术领域

本发明属于机器学习技术领域，尤其涉及一种基于深度学习的自博弈机动决策训练方法。

背景技术

无人机凭借其成本低、有效载荷高、无生命损失等优点在军事领域备受关注。在现代战争中，无人机扮演着重要角色，其不但能够执行侦查监视、骗敌诱饵、对地攻击等作战任务，而且可以忽略人对过载的限制从而实现较难的机动动作。可以预见，无人机将成为未来飞行的主要组成部分。然而，复杂的场景环境限制了无人机作战的成功率，其在自主飞行决策方面仍然存在较大挑战。因此，研究一种无人机的智能决策方法是急需解决的问题。

传统基于规则的飞行决策方法往往难以适应复杂的场景环境，这为引入强化学习技术提供了契机。强化学习作为机器学习的重要分支，目前在游戏、机器人控制等领域已经取得了重大成果。在飞行领域，强化学习方法可以克服复杂场景环境难以适应的问题并根据实时态势进行飞行决策，对此，国内外学者进行了广泛的研究。

在国外的研究中，Adrian等人成功训练了基于分层强化学习架构和SAC算法的近距飞行智能体，并与人类飞行员进行仿真对抗。此外，Yoo等人将PPO算法与LSTM相结合，构建了自主飞行智能控制系统，能够预测目标轨迹以占据有利位置。国内的智能飞行相关研究大多只考虑了与固定策略对手的对抗。邱妍等人通过PPO算法实现了近距飞行中的自主引导。李波等人通过SAC与TD3算法实现了对固定机动动作目标的打击。单圣哲等人采用相同算法实现了对随机机动动作目标的打击。

在实际飞行环境中，对手往往也会采取一系列智能策略，因此仅考虑固定策略对手的对抗无法充分反映一个智能决策算法的实际有效性。

发明内容

有鉴于此，本发明提供了一种基于深度强化学习的自博弈飞行机动决策方法，能够通过自博弈，使得对抗双方均采用智能策略，进一步验证该方法的准确性与有效性。

有鉴于此，本发明提供了一种基于深度强化学习的自博弈飞行机动决策方法，包括以下步骤：

S1：构建无人机飞行机动模型与飞行仿真环境；

S2：构建状态空间、动作空间与奖励函数；

S3：构建SAC策略模型并设置网络参数；

S4：构建自博弈训练框架并训练SAC策略模型。

其中，步骤S1中，构建无人机飞行机动模型与飞行仿真环境还包括：

S11：构建六自由度无人机运动学与动力学模型，机体坐标系的原点为无人机质心处，搭建无人机航迹运动的运动学方程与动力学方程和无人机姿态运动学方程与动力学方程；

S12：构建无人机控制模型；

S13：构建飞行场景与飞行对抗初始化；

可选地，无人机航迹运动的运动学方程与动力学方程为：

式中，X、Y、Z为无人机在地面坐标系下的位置，u、v、w为无人机空速在机体坐标系上的分量，θ、φ为无人机的俯仰角、偏航角、滚转角，p、q、r为飞行器的滚转角速度、俯仰角速度、偏航角速度，F_x、F_y、F_z为合力在机体坐标系上的分量，g为重力加速度，m为飞行器质量；

无人机姿态运动学方程与动力学方程为：

式中， I_x、I_y、I_z为转动惯量，I_xz为惯性积，L、M、N为滚转力矩、俯仰力矩、偏航力矩。

可选地，无人机控制模型包括无人机驾驶杆控制、脚蹬控制和油门杆控制，其与无人机所受合外力与合外力矩的关系为：

式中，W_Lat为无人机驾驶杆横向位置，用于控制无人机做偏航机动；W_Lon为无人机驾驶杆纵向位置，用于控制无人机做俯仰机动；W_r为无人机脚蹬位置，用于控制无人机做滚转机动；δ_T为无人机油门杆位置，用于控制无人机的油门推力大小；Q为控制矩阵。

可选地，步骤S13还包括：

飞行场景规则包括近距飞行仿真环境中设置可获取敌方完整位置与速度信息的雷达，双方在透明态势下进行空中博弈；设置导弹与火力控制系统，当导弹满足火力控制系统的发射条件才可进行发射；若对抗任一方被导弹命中或达到仿真最大时间i_MAX则仿真结束，双方几何关系包括我方无人机与敌方无人机间的视线LOS、天线偏转角δ_ATA、视界角δ_AA，视线LOS为我方无人机质心指向敌方无人机质心的矢量，天线偏转角δ_ATA为我方无人机速度矢量与视线的夹角，视界角δ_AA为敌方无人机速度矢量与视线的夹角；

对抗初始化还包括：近距飞行环境限定在一个长lkm，宽wkm，高hkm的长方体区域内中，以长方体的底面中心建立地面坐标系，飞行对抗以局为单位，进行每局飞行对抗时双方无人机在近距飞行环境范围内随机生成，无人机的初始位置X、Y、Z分别在 [0，hkm]范围内随机设置；无人机的初始偏航角/>在[-180°，180°]范围内随机设置；无人机的初始速度V在[200km/s，300km/s]范围内随机设置，V与u、v、w的关系为/>无人机的初始俯仰角θ根据初始空速V进行设置；无人机的初始滚转角φ、初始滚转角速度p、初始俯仰角速度q、初始偏航角速度r均设置为0。

可选地，在步骤S2中，无人机近距飞行状态空间为：在一对一近距飞行对抗中，任意时刻的飞行态势可由对战双方的姿态、位置关系、速度关系来描述，根据步骤S13中可获取的信息设置状态空间，双方状态空间设置相同，均为S＝[H，V，δ_ATA，δ_AA，x_enemy，y_enemy，z_enemy，V_enemy]，式中，H为我方无人机的高度，P_enemy为敌方无人机的相对位置，u_enemy、v_enemy、w_enemy为敌方无人机的速度，在空中对抗仿真过程中t时刻的具体状态为s_t。

无人机近距飞行动作空间为：无人机的动作空间包括无人机的机动动作，导弹的发射动作通过规则进行控制，当无人机的位置与姿态满足发射条件并持续一定时间Δt后发射导弹，根据步骤S12中的控制信息设置动作空间，无人机的动作空间设置为A＝[W_Lat，W_Lon，W_r，δ_T]；在空中对抗仿真过程中t时刻的具体动作为a_t；

奖励函数由火控奖励函、高度奖励函数、势能奖励函数、距离奖励函数、角度奖励函数、雷达奖励函数中的一种或多种加权确定。

可选地，步骤S3还包括：SAC策略模型由1个经验缓存池和5个神经网络构成，神经网络包括1个策略Actor网络、2个soft-Q值网络、1个V值网络和1个target V值网络，5个神经网络的参数分别为Φ、Θ₁、Θ₂、Ψ、

可选地，步骤S3还包括：

S31：构建经验缓存池，用于存储训练时无人机与仿真环境交互产生的经验样本；

S32：构建策略Actor网络，其隐藏层由两个全连接层组成，每个全连接层包含256个神经元，并使用ReLU作为激活函数；策略Actor网络的输入为无人机当前状态s_t，输出为动作概率分布π(a_t|s_t，Φ)，策略π是需要最终优化的目标，用于指导无人机根据状态做出合理的动作，策略Actor网络Φ通过梯度下降的方式进行更新；

S33：构建soft-Q网络，其隐藏层由两个全连接层组成，每个全连接层包含256个神经元，并使用ReLU作为激活函数，输入为无人机当前状态s_t和执行的动作a_t，输出为神经网络预测的Q值大小，用于评判当前状态下无人机执行动作a_t的好坏，soft-Q网络参数Θ通过梯度下降的方式进行更新，两个soft-Q神经网络参数Θ₁和Θ₂分别独自进行更新，最后选择Q值估计较小的网络进行V值网络的更新；

S34：构建V值网络，其隐藏层由两个全连接层组成，每个全连接层包含256个神经元，并使用ReLU作为激活函数；网络输入为无人机当前状态s_t，网络输出为神经网络预测的V值的大小，用于评判状态s_t的好坏；V值网络参数Ψ通过梯度下降的方式进行更新；

S35：构建target V值网络，其隐藏层由两个全连接层组成，每个全连接层包含256个神经元，并使用ReLU作为激活函数，输入为无人机当前状态，输出为神经网络预测的V值的大小，target V值网络参数隔一定时间对V值网络采样进行软更新。

可选地，步骤S4还包括：搭建自博弈训练框架，首先根据步骤S3设置两个SAC策略模型分别控制两个无人机，两个策略模型的更新频率不同，设置更新间隔轮次为Δepoch，更新频率高的策略模型为主策略Π_hight，更新频率低的策略为辅助策略记作Π_low，训练过程中Π_hight始终处于权重更新状态，П_low则需满足轮次间隔Δepoch后才更新，即Π_hight每更新Δepoch后П_low更新1次。

可选地，步骤S4中训练网络的具体步骤还包括：

S41：设置网络训练参数：随机设置主策略模型中1个策略Actor网络、2个soft-Q值网络、1个V值网络的参数，设置target V值网络参数与V值网络参数一致；随后用相同的参数值生成辅助策略模型的1个Actor网络、2个soft-Q值网络、1个V值网络、1个target V值网络；设置随后设置学习率lr、批量batch_size、最大训练轮次epoch_max，epoch_now＝1；

S42：进行步骤S31中的飞行对抗初始化，随后获取对抗双方初始状态与/>

S43：将状态输入到主策略Actor网络中，获取动作/>在状态/>下执行动作获取新的状态/>以及奖励/>记录训练数据/>到主策略经验缓存池中；

S44：将状态输入到辅助策略Actor网络中，获取动作/>在状态/>下执行动作获取新的状态/>以及奖励/>记录训练数据/>到辅助策略经验缓存池中；

S45：将状态输入到辅助策略Actor网络中，获取动作/>在状态/>下执行动作获取新的状态/>以及奖励/>记录训练数据/>到辅助策略经验缓存池中；

S46：若主策略网络参数已更新Δepoch轮，则随机从辅助策略经验缓存池采样小批量样本用于算法中辅助策略Actor网络、soft-Q值网络和V值网络和target V值网络的更新，在学习率lr下采用Adam优化器与损失函数进行网络参数的更新；若主策略网络参数未更新Δepoch轮，则辅助策略不进行更新；

S47：若仿真结束则执行步骤S42且令epoch_now＝epoch_now+1，否则令s_t＝s_t+1，转至执行步骤S43；

S48：若算法模型达到最大训练轮次，即epoch_now＞epoch_max，则结束训练并保存训练好的主策略模型与辅助策略模型；否则转至执行步骤S42。

附图说明

图1是本发明基于深度强化学习的自博弈飞行机动决策方法的整体流程图；

图2是本发明描述对抗双方几何态势图；

图3是本发明自博弈训练框架图；

图4是本发明基于深度强化学习的自博弈飞行机动决策方法的训练流程图；

图5-7是本发明一个具体实例最终无人机对抗双方运动轨迹图；

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供一种基于深度学习的自博弈机动决策训练方法，如图1所示，包括：

1.构建无人机飞行机动模型与飞行仿真环境；

1.1构建六自由度无人机运动学与动力学模型，机体坐标系的原点为无人机质心处，搭建无人机航迹运动的运动学方程与动力学方程：

式中，X、Y、Z为无人机在地面坐标系下的位置，u、v、ω为无人机空速在机体坐标系上的分量，θ、φ为无人机的俯仰角、偏航角、滚转角，p、q、r为飞行器的滚转角速度、俯仰角速度、偏航角速度，F_x、F_y、F_z为合力在机体坐标系上的分量，g为重力加速度，m为飞行器质量；搭建无人机姿态运动学方程与动力学方程：

1.2构建无人机控制模型

无人机采用驾驶杆、脚蹬、油门杆进行控制，其与无人机所受合外力与合外力矩的关系为：

式中，W_Lat为无人机驾驶杆横向位置，用于控制无人机做偏航机动；W_Lon为无人机驾驶杆纵向位置，用于控制无人机做俯仰机动；W_r为无人机脚蹬位置，用于控制无人机做滚转机动；δ_T为无人机油门杆位置，用于控制无人机的油门推力大小；Q为控制矩阵，其与无人机的机型相关有关。

1.3构建飞行场景与飞行对抗初始化

(1)场景规则：近距飞行仿真环境中设置可获取敌方完整位置与速度信息的雷达，双方在透明态势下进行空中博弈；设置导弹与火力控制系统，当导弹满足火力控制系统的发射条件才可进行发射；若对抗任一方被导弹命中或达到仿真最大时间t_MAX则仿真结束。双方几何关系通过我方无人机与敌方无人机间的视线LOS、天线偏转角δ_ATA、视界角δ_AA表示。视线LOS为我方无人机质心指向敌方无人机质心的矢量，天线偏转角为我方无人机速度矢量与视线的夹角，视界角为敌方无人机速度矢量与视线的夹角。双方几何关系如图2所示。

(2)对抗初始化：近距飞行环境限定在一个长lkm，宽wkm，高hkm的长方体区域内中，以长方体的底面中心建立地面坐标系。飞行对抗以局为单位，进行每局飞行对抗时双方无人机在近距飞行环境范围内随机生成，无人机的初始位置X、Y、Z分别在[0，hkm]范围内随机设置；无人机的初始偏航角/>在[-180°，180°]范围内随机设置；无人机的初始速度V在[200km/s，300km/s]范围内随机设置，V与u、v、w的关系为/>无人机的初始俯仰角θ根据初始空速V进行设置；无人机的初始滚转角φ、初始滚转角速度p、初始俯仰角速度q、初始偏航角速度r均设置为0。本发明实施例角度分类间隔阈值l取值为15、w取值为15、h取值为10。

2.构建状态空间、动作空间与奖励函数；

2.1无人机近距飞行状态空间

在一对一近距飞行对抗中，任意时刻的飞行态势可由对战双方的姿态、位置关系、速度关系来描述，根据步骤S13中可获取的信息设置状态空间，在本发明中，双方状态空间设置相同，均为：

S＝[H，V，δ_ATA，δ_AA，x_enemy，y_enemy，z_enemy，V_enemy]

式中，H为我方无人机的高度，P_enemy为敌方无人机的相对位置，u_enemy、v_enemy、w_enemy为敌方无人机的速度。在空中对抗仿真过程中t时刻的具体状态为s_t。

2.2无人机近距飞行动作空间

无人机的动作空间仅包括无人机的机动动作，而导弹的发射动作通过规则进行控制，当无人机的位置与姿态满足发射条件并持续一定时间Δt后发射导弹。根据步骤S12中的控制信息设置动作空间，无人机的动作空间设置为：

A＝[W_Lat，W_Lon，W_r，δ_T]

在空中对抗仿真过程中t时刻的具体动作为a_t。在本发明具体实例中，对动作空间4个参数进行了归一化处理。其中，W_Lat取值在[-1，1]之间，取值为0表示驾驶杆横向位于居中位置，取值为-1和1分别表示驾驶杆位于两端最大横向操纵位置；同理，W_Lon取值也在[-1，1]之间，取值为0表示驾驶杆纵向位于居中位置，取值为-1和1分别表示驾驶杆位于两端最大纵向操纵位置；W_r取值为[-1，1]，用于控制飞机方向舵舵量大小；δ_T的取值为[0，1]，取值为零表示不推油门杆，取值为1时表示油门杆最大，无人机此时处在满油门状态。值得注意的是，在本发明中，所采用的无人机类比了有人机操纵结构，并不是说明该无人机需要靠操纵杆和脚蹬等方式来进行操控，使用该种操纵表示方式，只是为了更好地确定无人机连续动作空间，使其更加符合现实模型。

2.3无人机近距奖励函数

(1)火控奖励描述无人机是否进入火控解算最大攻击区和不可逃逸区之内，具体奖励为：

式中，T_max为二元值，当敌方飞行器进入火控解算的最大攻击距离时其取值为1，否则为0。T_noescape也为二元值，当敌方飞行器进入火控解算的不可逃逸距离时其取值为1，否则为0。

(2)高度奖励函数用于限制无人机最低飞行高度，具体奖励为：

式中，H_min为设置的警戒高度，当飞行器的高度H小于该值后给予线性惩罚值。本发明实施例中H_min取值为2000km。

(3)势能奖励函数描述势能优势，在飞行场景下的势能优势以我方无人机与敌方无人机高度差的形式存在，当我方无人机高度高于敌方无人机高度时，认为我方飞行器具有势能优势，具体奖励为：

式中，H_enemy为敌方无人机的高度。

(4)动能奖励函数描述动能优势，速度越大则奖励越高，具体奖励为：

(5)距离奖励函数反映对抗双方位置关系，当我方无人机向敌方无人机接近时给予奖励，具体奖励为：

(6)角度奖励函数描述当前态势下无人机的角度优势，引导无人机的机头指向敌机，当天线偏转角δ_ATA为零时，表明我方无人机机头完全指向敌方无人机，故天线偏转角δ_ATA越小，我方无人机角度优势越大，具体奖励为：

(7)雷达奖励函数描述无人机是否探照到敌机，当我方飞行器雷达探测到敌方飞行器时给予奖励值，具体奖励为：

式中，N_radar为雷达探测到的目标数量。

(8)最终奖励函数由上述7个奖励函数加权组成，在空中对抗仿真过程中t时刻无人机处于状态s_t时采取的动作a_t所获得的奖励值为：

r(s_t，a_t)＝ω₁r_missile+ω₂r_alt+ω₃r_W+ω₄r_K+ω₅r_dis+ω₆r_angle+ω₇r_radar

式中，ω₁到ω₇为相应奖励项的权重系数。本发明实施例中ω₁到ω₇均取值为1。

3.构建SAC策略模型并设置网络参数；

SAC策略模型由1个经验缓存池和5个神经网络构成，神经网络包括1个策略Actor网络、2个soft-Q值网络、1个V值网络和1个target V值网络，5个神经网络的参数分别为Φ、Θ₁、Θ₂、Ψ、

3.1构建经验缓存池，用于存储训练时无人机与仿真环境交互产生的经验样本；

3.2构建策略Actor网络，其隐藏层由两个全连接层组成，每个全连接层包含256个神经元，并使用ReLU作为激活函数。Actor网络的输入为无人机当前状态s_t，输出为动作概率分布π(a_t|s_t，Φ)，策略π是需要最终优化的目标，用于指导无人机根据状态做出合理的动作。策略Actor网络Φ通过梯度下降的方式进行更新，损失函数为：

式中，λ为用来平衡熵H与奖励r比例关系的温度系数，熵H的表达式为：

3.3构建soft-Q网络，其隐藏层由两个全连接层组成，每个全连接层包含256个神经元，并使用ReLU作为激活函数。网络输入为无人机当前状态s_t和执行的动作a_t，网络输出为神经网络预测的Q值大小，用于评判当前状态下无人机执行动作a_t的好坏。soft-Q网络参数Θ通过梯度下降的方式进行更新，损失函数为：

式中，Q_Θ(s_t，a_t)为soft-Q网络的输出Q值，其中/>为target V值网络的输出V值。在本发明中，采用两个soft-Q神经网络是为了防止Q值的过估计，两个soft-Q神经网络参数Θ₁和Θ₂分别独自进行更新，最后选择Q值估计较小的网络进行V值网络的更新。

3.4构建V值网络，其隐藏层由两个全连接层组成，每个全连接层包含256个神经元，并使用ReLU作为激活函数。网络输入为无人机当前状态s_t，网络输出为神经网络预测的V值的大小，用于评判状态s_t的好坏。V值网络参数Ψ通过梯度下降的方式进行更新，损失函数为：

式中，表示取两个soft-Q网络中的较小估计Q值。

3.5构建target V值网络，其隐藏层由两个全连接层组成，每个全连接层包含256个神经元，并使用ReLU作为激活函数。网络输入为无人机当前状态s_t，网络输出为神经网络预测的V值的大小。target V值网络参数不需要独立进行更新，只需要隔一定时间Δt对V值网络采样进行软更新，其参数更新方法为：

式中，τ是软更新系数，用于控制target V值网络的软更新速度。本发明实施例中τ取值为0.005。

4.构建自博弈训练框架并训练SAC策略模型；

4.1首先根据步骤3设置两个SAC策略模型分别控制两个无人机智能体，两个策略模型的更新频率不同，设置更新间隔轮次为Δepoch，更新频率高的策略模型为主策略Π_hight，更新频率低的策略为辅助策略记作П_low。训练过程中Π_hight始终处于权重更新状态，Π_low则需满足轮次间隔Δepoch后才更新，即Π_hight每更新Δepoch后П_low更新1次。自博弈训练框架如图3所示，本发明实施例中Δepoch取值为2。

4.2训练网络的具体步骤如下，流程图如图4所示：

(1)设置网络训练参数：随机设置主策略模型中1个策略Actor网络、2个soft-Q值网络、1个V值网络的参数，设置target V值网络参数与V值网络参数一致；随后用相同的参数值生成辅助策略模型的1个Actor网络、2个soft-Q值网络、1个V值网络、1个target V值网络；设置随后设置学习率lr、批量batch_size、最大训练轮次epoch_max，epoch_now＝1。本发明实施例中学习率lr取值为0.0003、批量batch_size取值为64。

(2)进行步骤S31中的飞行对抗初始化，随后获取对抗双方初始状态与/>

(3)将状态输入到主策略Actor网络中，获取动作/>在状态/>下执行动作/>获取新的状态/>以及奖励/>记录训练数据/>到主策略经验缓存池中；

(4)将状态输入到辅助策略Actor网络中，获取动作/>在状态/>下执行动作获取新的状态/>以及奖励/>记录训练数据/>到辅助策略经验缓存池中；

(5)当主策略经验缓存池内训练数据大于批量batch_size后，随机从主策略经验缓存池采样批量样本用于方法中主策略Actor网络、soft-Q值网络、V值网络和target V值网络的更新，在学习率lr下采用Adam优化器与步骤S3中的损失函数进行网络参数的更新；

(6)若主策略网络参数已更新Δepoch轮，则随机从辅助策略经验缓存池采样小批量样本用于方法中辅助策略Actor网络、soft-Q值网络和V值网络和target V值网络的更新，在学习率lr下采用Adam优化器与步骤S3中的损失函数进行网络参数的更新；若主策略网络参数未更新Δepoch轮，则辅助策略不进行更新。

(6)若仿真结束则执行步骤(2)且令epoch_now＝epoch_now+1，否则令s_t＝s_t+1，转至执行步骤(3)。

(7)若算法模型达到最大训练轮次，即epoch_now＞epoch_max，则结束训练并保存训练好的主策略模型与辅助策略模型；否则转至执行步骤(2)；

具体实施例1：

实施步骤如下：

(1)按照本发明提出的方法构建无人机飞行机动模型与飞行仿真环境。

(2)按照本发明提出的方法构建状态飞行、动作空间与奖励函数。

(3)按照本发明提出的方法构建SAC策略模型并设置网络参数。

(4)按照本发明提出的方法构建自博弈训练框架并训练SAC策略模型。

(5)训练完成后将步骤(4)训练完成的神经网络模型接入步骤(1)得到的飞行仿真环境进行对抗测试，共测试三种对抗场景。红方固定为主策略模型Π_high，蓝方分别采用固定直线策略模型Π_straight(即无人机仅进行直线飞行动作的策略模型)、辅助策略模型Π_low、以及主策略模型Π_high。根据步骤(1)设置双方的初始位置、初始姿态角、初始速度、初始角速度，在3种对抗场景下进行100局对抗，随后交换对抗双方的初始位置、初始姿态角、初始速度、初始角速度并在3种对抗场景下再进行100局对抗。任一方发射导弹命中对方，则认为该方胜利，若导弹未命中或无导弹发射则认为双方平局。最终仿真训练结果如下表所示：

(6)在3种对抗场景中各随机选择1局对抗过程绘制出双方对抗时运动的轨迹图。图5为红方采用主策略模型Π_high、蓝方采用固定直线策略模型Π_straight的对抗运动轨迹图，图6为红方采用主策略模型Π_high、蓝方采用辅助策略模型Π_low的对抗运动轨迹图，图7为双方均采用主策略模型Π_high的对抗运动轨迹图，从图中可知，采用本发明所述的方法能够很好地训练无人机进行飞行决策。

从本发明实例可以看出，采用强化学习方法、自博弈训练框架训练所得的无人机具备近距飞行能力，提高了无人机的自主能力，能够在一定程度上复现人类飞行员在近距飞行中的动作。

以上所述，仅为本发明的具体实施例，对本发明进行详细描述，未详尽部分为常规技术。但本发明的保护范围不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于深度学习的自博弈机动决策训练方法，其特征在于，包括以下步骤：

S1：构建无人机飞行机动模型与飞行仿真环境；

S2：构建状态空间、动作空间与奖励函数；

S3：构建SAC策略模型并设置网络参数；

S4：构建自博弈训练框架并训练SAC策略模型；

S12：构建无人机控制模型；

S13：构建飞行场景与飞行对抗初始化。

2.根据权利要求1所述的方法，其特征在于，无人机航迹运动的运动学方程与动力学方程为：

无人机姿态运动学方程与动力学方程为：

3.根据权利要求1所述的方法，其特征在于，无人机控制模型包括无人机驾驶杆控制、脚蹬控制和油门杆控制，其与无人机所受合外力与合外力矩的关系为：

式中，W_Lot为无人机驾驶杆横向位置，用于控制无人机做偏航机动；W_Lon为无人机驾驶杆纵向位置，用于控制无人机做俯仰机动；W_r为无人机脚蹬位置，用于控制无人机做滚转机动；δ_T为无人机油门杆位置，用于控制无人机的油门推力大小；Q为控制矩阵。

4.根据权利要求1所述的方法，其特征在于，步骤S13还包括：

飞行场景规则包括近距飞行仿真环境中设置可获取敌方完整位置与速度信息的雷达，双方在透明态势下进行空中博弈；设置导弹与火力控制系统，当导弹满足火力控制系统的发射条件才可进行发射；若对抗任一方被导弹命中或达到仿真最大时间t_MAX则仿真结束，双方几何关系包括我方无人机与敌方无人机间的视线LOS、天线偏转角δ_ATA、视界角δ_AA，视线LOS为我方无人机质心指向敌方无人机质心的矢量，天线偏转角δ_ATA为我方无人机速度矢量与视线的夹角，视界角δ_AA为敌方无人机速度矢量与视线的夹角；

对抗初始化还包括：近距飞行环境限定在一个长l km，宽w km，高h km的长方体区域内中，以长方体的底面中心建立地面坐标系，飞行对抗以局为单位，进行每局飞行对抗时双方无人机在近距飞行环境范围内随机生成，无人机的初始位置X、Y、Z分别在 [0,h km]范围内随机设置；无人机的初始偏航角/>在[-180°,180°]范围内随机设置；无人机的初始速度V在[200km/s,300km/s]范围内随机设置，V与u、v、w的关系为/>无人机的初始俯仰角θ根据初始空速V进行设置；无人机的初始滚转角φ、初始滚转角速度p、初始俯仰角速度q、初始偏航角速度r均设置为0。

5.根据权利要求4所述的方法，其特征在于，在步骤S2中，无人机近距飞行状态空间为：在一对一近距飞行对抗中，任意时刻的飞行态势可由对战双方的姿态、位置关系、速度关系来描述，根据步骤S13中可获取的信息设置状态空间，双方状态空间设置相同，均为S＝[H，V，δ_ATA，δ_AA，x_enemy，y_enemy，z_enemy，V_enemy]，式中，H为我方无人机的高度，P_enemy为敌方无人机的相对位置，u_enemy、v_enemy、w_enemt为敌方无人机的速度，在空中对抗仿真过程中t时刻的具体状态为s_t。

无人机近距飞行动作空间为：无人机的动作空间包括无人机的机动动作，导弹的发射动作通过规则进行控制，当无人机的位置与姿态满足发射条件并持续一定时间Δt后发射导弹，根据步骤S12中的控制信息设置动作空间，无人机的动作空间设置为A＝[W_Lat，W_Lon，W_r，δ_T]，在空中对抗仿真过程中t时刻的具体动作为a_t；

6.根据权利要求5所述的方法，其特征在于，步骤S3还包括：SAC策略模型由1个经验缓存池和5个神经网络构成，神经网络包括1个策略Actor网络、2个soft-Q值网络、1个V值网络和1个target V值网络，5个神经网络的参数分别为Φ、Θ₁、Θ₂、Ψ、

7.根据权利要求6所述的方法，其特征在于，步骤S3还包括：

8.根据权利要求7所述的方法，其特征在于，步骤S4还包括：搭建自博弈训练框架，首先根据步骤S3设置两个SAC策略模型分别控制两个无人机，两个策略模型的更新频率不同，设置更新间隔轮次为Δepoch，更新频率高的策略模型为主策略Π_hight，更新频率低的策略为辅助策略记作Π_low，训练过程中Π_hight始终处于权重更新状态，Π_low则需满足轮次间隔Δepoch后才更新，即Π_hight每更新Δepoch后Π_low更新1次。

9.根据权利要求8所述的方法，其特征在于，步骤S4中训练网络的具体步骤还包括：

S43：将状态输入到主策略Actor网络中，获取动作/>在状态/>下执行动作/>获取新的状态/>以及奖励/>记录训练数据/>到主策略经验缓存池中；

S44：将状态输入到辅助策略Actor网络中，获取动作/>在状态/>下执行动作/>获取新的状态/>以及奖励/>记录训练数据/>到辅助策略经验缓存池中；

S45：将状态输入到辅助策略Actor网络中，获取动作/>在状态/>下执行动作/>获取新的状态/>以及奖励/>记录训练数据/>到辅助策略经验缓存池中；