CN116432030A

CN116432030A - 一种基于深度强化学习的空战多意图策略自主生成方法

Info

Publication number: CN116432030A
Application number: CN202310378455.6A
Authority: CN
Inventors: 贾璐毓; 徐军政; 丁拯坤; 刘佳奇; 蔡成涛; 王兴梅
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2023-04-10
Filing date: 2023-04-10
Publication date: 2023-07-14

Abstract

本发明为了生成更好的空战多意图策略，提出一种基于深度强化学习的空战多意图策略自主生成方法。包括如下步骤：(1)针对空战意图构建基于深度强化学习的空战博弈框架；(2)提出时序近端策略优化(Temporal Proximal Policy Optimization,T‑PPO)算法，充分利用历史数据中有用信息生成策略；(3)提出基本‑对抗进阶式训练法进行意图策略生成模型训练，提供意图引导和增加训练的多样性；(4)大范围内选择初始状态，基于空战博弈框架生成空战数据，利用T‑PPO算法进行基本‑对抗进阶式训练更新模型，完成基于深度强化学习的空战意图策略自主生成。本发明提出的基于深度强化学习的空战多意图策略自主生成方法，能提升生成策略的胜率和效率并提高网络训练的速度，具有一定的有效性。

Description

一种基于深度强化学习的空战多意图策略自主生成方法

技术领域

本发明涉及策略自主生成技术领域，特别是涉及针对不同意图的空战自主策略生成方法。

背景技术

随着现代战争的信息化、智能化和多源化，战场信息量大且变化快，迫切需要提高战场信息感知能力和快速生成策略能力，以适应高速、复杂、多变的战场环境。自主生成策略是空战的重要支撑技术，可以辅助飞行员生成策略，突破飞行员能力的限制，也可以应用于无人机，代替人类飞行员执行危险环境军事任务，如海面舰艇侦察任务、水下舰艇侦察打击、空中制空权争夺等，以最小的成本和危险完成作战任务，实现价值和效益的最大化。近年来，国内外学者对空战策略自主生成技术进行了深入的分析研究，其中在已有的文献中最著名和效果最好的策略生成方法主要包括：1.基于多智能体分层策略梯度算法得的空战策略生成方法：2021年的Zhixiao Sun,Haiyin Piao,Zhen Yang,et al.Multi-agenthierarchical policy gradient for air combat tactics emergence via self-play[J].Engineering Applications of Artificial Intelligence,2021,98:1-14.提出多智能体分层策略梯度算法(Multi-Agent Hierarchical Policy Gradient algorithm,MAHPG)，该算法通过对抗性自我博弈学习各种策略并超越专家认知，采用分层决策网络处理复杂和混合的动作，有效地减少了动作的歧义，最终在防御和进攻能力方面均优于最先进的空战策略生成方法。2.基于模糊推理的空战策略生成方法：2021年的Ao Wu,RennongYang,Xiaolong Liang,et al.Visual range maneuver decision of unmanned combataerial vehicle based on fuzzy reasoning.International Journal of FuzzySystems,2022,24(1):519-536.提出一种基于模糊推理的机动决策方法和集决策机动、序列机动和惯性机动于一体的敌机位置预测模型，为提高无人机自主决策能力提供了一种新的解决方案。3.基于平均场博弈的空战策略生成方法：2022年的Baolai Wang,ShengangLi,Xianzhong Gao,et al.Weighted mean field reinforcement learning for large-scale UAV swarm confrontation.Applied Intelligence,2022,1-16.提出利用加权平均场强化学习解决空战决策问题，其中任何无人机与其相邻无人机之间的成对通信被建模为中央无人机和虚拟无人机之间的通信，虚拟无人机是从相邻无人机的加权平均效应中抽象出来的，可以降低智能体的输入维度，最终在集群大小不断变化的情况下取得了较好的效果。4.基于近似动态规划的空战策略生成方法：2022年James B.Crumpacker,MatthewJ.Robbins,Phillip R.Jenkins.An approximate dynamic programming approach forsolving an air combat maneuvering problem.Expert Systems with Applications,2022,203:117448.提出一种似动态规划(Approximate Dynamic Programming,ADP)方法，通过神经网络实现价值函数近似回归以获得自主无人驾驶战斗飞行器的高质量机动策略。5.基于动态质量重放的空战策略生成方法：2022年Dongyuan Hu,Rennong Yang,YingZhang,et al.Aerial combat maneuvering policy learning based on confrontationdemonstrations and dynamic quality replay.Engineering Applications ofArtificial Intelligence,2022,111:104767.提出一种新的动态质量重放(DynamicQuality Replay,DQR)数据采样方法，使策略生成模型有效地从历史数据中学习并且摆脱对传统专家知识的依赖，在多个深度强化学习算法和不同的初始场景下都能取得有效的结果。

发明内容

本发明的目的是提供一种能提升生成策略的胜率、效率和网络训练速度的基于时序近端策略优化算法和基本-对抗进阶式训练法的空战多意图策略自主生成方法。

为实现上述目的，本发明提供了如下方案：

(1)针对空战意图构建基于深度强化学习的空战博弈框架；

(1.1)构建空战状态空间；

(1.2)构建空战动作空间；

(1.3)构建不同意图的奖励函数；

(2)提出T-PPO算法，T-PPO算法的网络模型作为意图策略生成模型；

(2.1)利用LSTM网络提取空战时序信息的历史数据中有用信息；

(2.2)利用FFN网络增强非线性的表达能力，更好拟合策略函数和价值函数；

(2.3)利用PPO算法计算损失值，优化网络模型参数；

(3)提出基本-对抗进阶式训练法进行意图策略生成模型训练；

(4)完成基于深度强化学习的空战多意图策略自主生成；

(4.1)初始化空战状态，在空战博弈框架下生成空战数据，将数据拆分为T长度的时序序列，经归一化处理后作为空战策略生成模型的输入；

(4.2)利用提出的T-PPO算法更新策略生成模型，实现空战意图策略的自主生成。

所述的步骤(1.1)具体包括：

空战状态空间S＝[s₁,s₂,…,s₁₃]由13个变量构成，其中s₁,s₂,…,s₁₃具体为v_r，γ_r，ψ_r，v_r-v_b，γ_b，ψ_b，d，γ_d，ψ_d，

q_r，z_r，z_r-z_b，分别代表红方速度、红方轨迹角、红方航向角、红蓝相对速度、蓝方轨迹角、蓝方航向角，相对距离，相对距离向量与O-X-Y平面的角度，相对距离向量在O-X-Y平面上的投影矢量与O-Y轴的角度，红方飞行器方位角，蓝方飞行器速度与距离矢量的角度，红方的高度，红蓝方高度差。

所述的步骤(1.2)具体包括：

空战动作空间A＝[a₁,a₂,…,a₁₅]由15个基本机动动作构成，飞行器在五个方向上进行机动动作，分别为前、左、右、上、下，在每个方向可以提供三种速度选择，分别为均速、加速和减速，动作空间的每个动作a_i，对应于一组控制值[n_x,n_z,μ]，切向过载n_x控制速度，法向过载n_z控制俯仰角，μ代表围绕速度方向的滚转角，从而控制飞行器进行机动动作。

所述的步骤(1.3)具体包括：

构建不同意图的奖励函数描述不同的意图，意图包括迎头攻击、追击和逃逸，迎头攻击的目的是让敌人进入我方的武器交战区(Weapons Engagement Zone，WEZ)并攻击敌人，使敌方被击毁，击目的是在确保我方处于敌方的尾部区域时，对敌方攻击，使敌方被击毁，逃逸目的是逃逸和阻止敌方的攻击，这一意图适用于敌方具有性能优势或我方处于困境的情况下，为了确保我方尽快逃离危险，向敌方的尾部方向逃逸，奖励函数包括结果奖励和过程奖励，结果奖励是当意图实现时，获得正向的奖励，而当意图失败时，获得负奖励，过程奖励评估指标包括相对角度

相对距离d、高度z和策略生成次数step。

所述的步骤(2.1)具体包括：

将提出的T-PPO算法网络模型输入S_t通过输入门i_t，遗忘门f_t，输出门o_t，根据LSTM单元的运算规则，i_t＝σ(W_ixx_t+W_ihh_t-1+b_i)，f_t＝σ(W_fxx_t+W_fhh_t-1+b_f)，c′_t＝tanh(W_cxx_t+W_chh_t-1+b_c)，c_t＝f_t*c_t-1+i_t*c′_t，o_t＝σ(W_oxx_t+W_ohh_t-1+b_o)，h_t＝o_ttanh(c_t)，构建包含数量为时序序列长度T的LSTM单元的LSTM网络，迭代计算输入的输出h_t-T+1,…,h_-1,h_t，使得过去时刻的信息在当前时刻生成策略时得以利用，其中，W_{_x},W_{_h}是输入信息S_t和前一刻的输出信息h_t-1相应单元的权重，b是偏置参数，函数σ(·)是逻辑函数，函数tanh(·)是双曲切线函数。

所述的步骤(2.2)具体包括：

利用FFN网络增加非线性的表达能力，具体由2层全连接层和ReLU激活函数构成，表示为FFN(Z)＝ReLU(ZW₁+b₁)W₂+b₂，

ReLU激活函数的映射范围为0～∞，即输出值为任意非负实数。

所述的步骤(2.3)具体包括：

利用PPO算法计算损失值，优化网络模型参数，PPO算法的总损失函数L_t ^CLIP+VF+S(θ)将策略和价值一起计算，提高计算效率减少计算误差，具体表示为

其中c₁，c₂是系数，S表示熵奖励，L_t ^VF(θ)是价值平方误差损失(V(s_t)-V_t ^targ)²，策略的目标函数

其中/>

δ_t＝r_t+γV(s_t+1)-V(s_t)，/>

是时间步数t的优势函数估计值，clip和ε分别是截断函数和截断常数，通过限制新旧策略之间的比例，确保从旧策略/>

到新策略π_θ的更新保持在一个可控范围[1-ε,1+ε]内，γ是折扣系数，λ是正则化参数，r_t是每一步获得的即时奖励，V(s_t)是状态价值函数。

所述的步骤(3)具体包括：

提出基本对抗进阶式训练法进行意图策略生成模型的训练，训练过程分为基本训练和对抗训练，基本训练为智能体训练提供意图指导，可以提高网络的训练速度，对抗训练增加了训练的多样性进一步提高意图策略生成模型的智能决策能力。

所述的步骤(4.1)具体包括：

针对每个意图对抗场景，设计红、蓝飞行器初始的位置，速度，航向角，在每次训练中，为了让飞行器充分熟悉空战环境，使红、蓝飞行器的初始状态在大范围内随机选择，红方飞行器X在(-3500,3500)之间随机采样，Y范围(-500,500)，Z范围(2000,4000)；蓝方飞行器X在(-3500,3500)之间随机采样，Y范围(2500,3500)，Z范围(2000,4000)，红、蓝飞行器在初始场景下基于空战博弈框架，利用提出的T-PPO算法网络模型产生策略进行对抗，通过并行的方式生成空战数据，N对平行的Worker分别进行博弈，每个worker收集S步数据，将N×S步数据拆分成固定长度T的时序序列，数据通过最大最小归一化处后输入到空战策略生成模型。

所述的步骤(4.2)具体包括：

序列数据输入到提出的T-PPO算法网络模型，输出当前时刻状态信息s_t的策略π_θ(a_t|s_t)和价值V(s_t)，T-PPO算法利用策略和价值计算损失值，通过梯度下降优化更新模型参数θ，实现空战意图策略的自主生成。

本发明的有益效果为：

本发明针对不同意图目标构建各意图的奖励函数，意图包括迎头攻击、追击和逃逸，解决空战存在稀疏奖励的问题。本发明提出T-PPO算法，通过近端策略优化算法PPO结合长短期记忆网络LSTM和前馈神经网络FFN，处理空战中的时序信息，利用策略和价值计算损失值，优化网络模型参数，解决策略生成模型感知能力差的问题，充分利用历史数据中的有用信息。本发明提出基本-对抗进阶式训练法进行意图策略生成模型的训练，基本训练为智能体训练提供意图指导，解决网络训练速度慢的问题，对抗训练增加了训练的多样性以此来提高意图策略生成模型的智能决策能力。本发明提出使红、蓝飞行器的初始状态在大范围内随机选择，为了让飞行器充分熟悉空战环境，并基于空战博弈框架生成空战数据，将其拆分成固定长度T的时序序列，通过最大-最小归一化处理后输入到空战策略生成模型中，利用提出的T-PPO算法更新模型，实现空战意图策略的自主生成。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的流程图；

图2是基于深度强化学习的空战博弈框架；

图3是飞行器三自由度模型；

图4是飞行器相对位置关系和运动关系；

图5是飞行器机动动作库示意图；

图6是WEZ示意图；

图7是本发明提出的T-PPO算法网络模型结构图；

图8是多意图策略生成模型的训练结构图；

图9是迎头攻击、追击和逃逸意图策略生成模型的基础训练结果，图9(a)是各意图决策模型的平均奖励值，图9(b)是各意图决策模型的平均对抗长度随基础训练次数的变化图，图9(c)是基础训练结束时各意图决策模型的胜/平/负率；

图10是迎头攻击、追击和逃逸意图策略生成模型的对抗训练结果，图10(a)是各意图决策模型的平均奖励值，图10(b)是各意图决策模型的平均对抗长度随对抗训练次数的变化图，图10(c)是对抗训练结束时各意图决策模型的胜/平/负率；

图11是意图迎头攻击策略自主生成模型在基本-对抗进阶式训练结束后的空战机动轨迹图，图11(a)是意图迎头攻击机动轨迹，图11(b)是意图迎头攻击机动轨迹对应飞行器参数变化图；

图12是意图追击策略自主生成模型在基本-对抗进阶式训练结束后的空战机动轨迹图，图12(a)是意图追击机动轨迹，图12(b)是意图追击机动轨迹对应飞行器参数变化图；

图13是意图逃逸策略自主生成模型在基本-对抗进阶式训练结束后的空战机动轨迹图，图13(a)是意图逃逸机动轨迹，图13(b)是意图逃逸机动轨迹对应飞行器参数变化图；

图14是意图迎头攻击策略自主生成方法对比实验图，图14(a)是平均奖励值随模型训练次数的变化图，图14(b)是平均作战长度随模型训练次数的变化图，图14(c)是训练结束时各意图策略自主生成模型的胜/平/负率；

图15是意图追击策略自主生成方法对比实验图，图15(a)是平均奖励值随模型训练次数的变化图，图15(b)是平均作战长度随模型训练次数的变化图，图15(c)是训练结束时各意图策略自主生成模型的胜/平/负率；

图16是意图逃逸策略自主生成方法对比实验图，图16(a)是平均奖励值随模型训练次数的变化图，图16(b)是平均作战长度随模型训练次数的变化图，图16(c)是训练结束时各意图策略自主生成模型的胜/平/负率。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

结合图1，本发明的具体步骤如下：

(1)针对空战意图构建基于深度强化学习的空战博弈框架

基于深度强化学习的空战博弈框架如图2所示，红、蓝双方飞行器的状态被整合计算描述空战环境的态势，博弈过程中红方飞行器依据强化学习模型进行决策。在互动过程中，空战环境模型中的奖励模型根据不同意图计算当前状态的奖励值并根据动作值更新飞行器的状态。飞行器不断与空战环境互动，以获得新的空战状态和机动动作的奖励值，奖励值反馈给红方飞行器。基于这些转换，红方飞行器的策略被动态更新，使输出的机动动作趋于最优，从而实现飞行器空战策略的自学习，空战博弈框架包括状态空间、动作空间和奖励函数三个基本要素。

(1.1)构建空战状态空间

为了更好地反映当前作战态势，状态空间不仅要包含自身的状态信息，还要包含敌方的状态信息和双方的相对关系。空战状态空间可以由以下五个方面组成。

(a)红方飞行器的速度信息：速度v_r，轨迹角γ_r，航向角ψ_r。

(b)蓝方飞行器的速度信息：速度v_b，轨迹角γ_b，航向角ψ_b。

其速度v，轨迹角γ，航向角ψ如图3飞行器三自由度模型所示。

(c)红、蓝飞行器之间的距离信息：距离d和距离矢量(p_r-p_b)的角度为γ_d和ψ_d。其中γ_d表示(p_r-p_b)与O-X-Y平面的角度，ψ_d表示(p_r-p_b)在O-X-Y平面上的投影矢量与O-Y轴的角度。

(d)红、蓝飞行器之间的相对运动关系：

和q_r，/>

是红方飞行器方位角代表速度矢量v_r和距离矢量(p_r-p_b)的角度，q_r是蓝方速度矢量v_b和距离矢量(p_r-p_b)的角度。飞行器相对位置关系和运动关系如图4所示。

(e)红、蓝飞行器的高度：z_r和z_b。

基于上述变量，空战状态空间S＝[s₁,s₂,…,s₁₃]由13个变量构成，其中s₁,s₂,…,s₁₃具体为v_r，γ_r，ψ_r，v_r-v_b，γ_b，ψ_b，d，γ_d，ψ_d，

q_r，z_r，z_r-z_b。

(1.2)构建空战动作空间

动作空间是飞行器的机动动作库，基本机动动作可以构成复杂的战术。根据常见的空战演习，在美国航空航天局学者设计的七个基本机动动作的基础上，动作空间被扩展到十五个，表示为A＝[a₁,a₂,…,a₁₅]。如图5所示，飞行器可以在五个方向上进行机动动作，分别为前、左、右、上、下，在每个方向可以提供三种速度选择，分别为均速、加速和减速，动作空间的每个动作a_i，对应于一组控制值[n_x,n_z,μ]，切向过载n_x控制速度，法向过载n_z控制俯仰角，μ代表围绕速度方向的滚转角，从而控制飞行器进行机动动作。控制变量n_x,n_z,μ如图3所示，动作空间的基本动作对应控制变量的控制值如表1所示。

表1机动动作库中基本动作的控制值

(1.3)构建不同意图的奖励函数

构建不同意图的奖励函数描述不同的意图。迎头攻击的目的是让敌人进入我方的武器交战区并攻击敌人，使敌方被击毁。追击目的是在确保我方处于敌方的尾部区域时，对敌方攻击，使敌方被击毁。逃逸目的是逃逸和阻止敌方的攻击，这一意图适用于敌方具有性能优势或我方处于困境的情况下，为了确保我方尽快逃离危险，向敌方的尾部方向逃逸。奖励函数包括结果奖励r_result和过程奖励(角度距离奖励r_a,d、高度奖励r_z、策略生成次数奖励r_step)，结果奖励是当意图实现时，获得正向的奖励，而当意图失败时，获得负奖励。过程奖励评估指标包括相对角度

相对距离d、高度z和策略生成次数step。奖励函数的设计以红方角度为例。

交战开始时，两方飞行器都有充分的健康值(health＝1)，当一方进入另一方的WEZ，会对其健康值造成伤害，健康值降为0时表示被击毁。任意一方达到意图目标或对抗长度达到100步时，交战结束。如图6所示，WEZ被定义为球面锥体内的区域，球面锥体的轴线与飞行器机身的轴线方向相同，飞行器本身是锥体的顶点，椎体角度为

距离满足d_min＜d＜d_max，其中/>

是允许攻击的角度，d是飞行器之间的距离，d_min和d_max是允许攻击距离的最小值和最大值。在WEZ内，每秒受到的伤害d_wez表示为：

意图迎头攻击的角度距离奖励r_a,d鼓励减小双方相对距离d，增大

减小/>

高度奖励r_z限制高度保护飞行器的安全，策略生成次数奖励r_step能提高作战效率，它是在一次决策后如果博弈没有结束就给予惩罚。当蓝方的飞行器进入红方的WEZ，即/>

d_min＜d＜d_max，将对蓝方造成伤害，当蓝方的健康值b_health≤0时，红方“胜利”，结果奖励r_result＝1，当红方进入蓝方的WEZ且红方的健康值a_health≤0或d＞d_escape，红方“失败”，结果奖励r_result＝-1，其中d_escape为逃逸距离。迎头攻击的奖励函数如下所示：

意图追击的“胜利”条件与迎头攻击的不同之处在于，既要满足蓝方进入红方的WEZ，还必须确保红方处于蓝方的尾部区域时才会对蓝方造成伤害，即

是一个钝角代表敌人尾部区域的角度。角度距离奖励r_a,d、高度奖励r_z、策略生成次数奖励r_step与迎头攻击相同。意图追击的结果奖励r_result如下所示：

意图逃逸角度距离奖励r_a,d鼓励增加双方的距离d，且朝蓝方尾部区域逃逸，即增大

使得/>

意图逃逸与意图迎头攻击和追击的高度奖励和步数奖励是相同的。当红方与蓝方的距离大于逃逸距离d_escape且位于蓝方尾部时，红方“胜利”，结果奖励r_result＝1，当红方进入蓝方WEZ且红方健康值a_health≤0时，红方“失败”，结果奖励r_result＝-1。意图逃逸的角度距离奖励r_a,d和结果奖励r_result如下所示：

式中：

是/>

的最小值。

需要注意的是，将r_a,d、r_z、r_step和r_result按权重相加，得到的总奖励函数为：

R＝w_a,dr_a,d+w_zr_z+w_stepr_step+w_resultr_result

式中：权重w是经验值，在各自的意图中采取不同的方式。

(2)提出T-PPO算法，T-PPO算法的网络模型作为意图策略生成模型

本发明提出T-PPO算法，通过近端策略优化算法PPO结合长短期记忆网络LSTM和前馈神经网络FFN。T-PPO算法的网络结构由LSTM网络和FFN网络组成，网络的输出包括策略和价值，策略决定飞行器机动动作的控制变量，价值用来评估策略，利用策略和价值计算损失值，通过PPO算法优化网络模型参数，以此加强策略生成模型的智能决策能力，图7是本发明提出的T-PPO算法网络模型结构图。

(2.1)利用LSTM网络提取空战时序信息的历史数据中有用信息

本发明将收集到的信息划分为一个长度为T的时序序列，输入数据可以表示为(S_t-T+1,…,…,S_t-2,S_t-1,S_t)，将信息送入LSTM网络，LSTM网络由一系列的LSTM单元组成。每个输入状态对应一个LSTM单元，每个LSTM单元从相邻的单元获得输入h_-1和c_-1，LSTM单元由三个门单元和一个中心单元组成，三个门单元是输入门i_t，遗忘门f_t，输出门o_t，主要用于控制信息的流入和输出。中心单元是一个存储单元c_t，用于存储单元的当前网络状态，c_t′是候选存储单元。在前向传播中，输入门控制信息从输入端流向存储单元，输出门控制信息从存储单元流向网络中的其他结构，在后向传播中，输入门控制错误信息流出存储单元，输出门控制错误信息流入存储单元，遗忘门控制前一时刻记忆单元内中心信息的取舍，并决定有多少信息需要被遗忘。输入S_t-T+1,…,S_-1,S_t，通过LSTM单元的运算规则迭代计算，输出h_t-T+1,…,h_-1,h_t，使得过去时刻的信息在当前时刻生成策略时得以利用。LSTM单元的计算公式为：

i_t＝σ(W_ixx_t+W_ihh_t-1+b_i)

f_t＝σ(W_fxx_t+W_fhh_t-1+b_f)

c′_t＝tanh(W_cxx_t+W_chh_t-1+b_c)

c_t＝f_t*c_t-1+i_t*c′_t

o_t＝σ(W_oxx_t+W_ohh_t-1+b_o)

h_t＝o_ttanh(c_t)

式中：t＝1,2,…T，W_{_x}和W_{_h}是输入信息x_t和前一刻的输出信息h_t-1相应单元的权重，b是偏置参数，函数σ(·)是逻辑函数，函数tanh(·)是双曲切线函数。

(2.2)利用FFN网络增强非线性的表达能力

将LSTM网络的输出(h_t-T+1,…,…,h_t-2,h_t-1,h_t)传入FFN网络，进一步增强对策略和价值的拟合能力，FFN网络由两层全连接层和ReLU激活函数构成，具体有：

FFN(Z)＝ReLU(ZW₁+b₁)W₂+b₂

式中：ReLU激活函数的映射范围为0～∞，即输出值为任意非负实数。

(2.3)利用PPO算法计算损失值优化网络模型参数

本发明的算法将策略和价值结合到一起计算损失值，可以提高计算效率，减少价值误差，所以，总损失函数L_t ^CLIP+VF+S(θ)需要结合策略目标函数和价值函数。

策略的目标函数为：

式中：

到新策略π_θ的更新保持在一个可控范围[1-ε,1+ε]内。

r_t(θ)和

具体表示为：

δ_t＝r_t+γV(s_t+1)-V(s_t)

式中：γ是折扣系数，λ是正则化参数，r_t是每一步获得的即时奖励，V(s_t)是状态价值函数。

总的目标函数为：

式中：c₁和c₂是系数，S表示熵奖励以确保充分的探索，L_t ^VF(θ)是价值平方误差损失(V(s_t)-V_t ^targ)²。

(3)提出基本-对抗进阶式训练法进行意图策略生成模型的训练

本发明提出基本-对抗进阶式训练方法，训练过程分为基本训练和对抗训练。基本训练为智能体训练提供意图指导，可以提高网络的训练速度，对抗训练增加了训练的多样性进一步提高意图策略生成模型的智能决策能力。对于基本训练，敌方以统一的速度向前移动，训练飞行器根据三种不同的意图(迎头攻击、追击和逃逸)分别训练一个策略生成模型。对抗训练是在之前训练的三种意图策略生成模型的基础上，迎头攻击策略生成模型对抗迎头攻击策略生成模型，追击策略生成模型对抗逃逸策略生成模型，逃逸策略生成模型对抗追击策略生成模型，在不同意图之间进行对抗训练提升策略生成模型。训练项目如表2所示。

表2基础-对抗进阶式训练法的训练项目

(4)完成基于深度强化学习的空战多意图策略自主生成

(4.1)初始化空战状态并基于空战博弈框架生成空战数据

在每次训练中，为了让飞行器充分熟悉空战环境，使红、蓝飞行器的初始状态在大范围内随机选择，表3是意图对抗场景的初始状态设置。

表3意图对抗场景的初始状态设置

红、蓝飞行器在初始场景下基于空战博弈框架，利用提出的T-PPO算法网络模型产生策略进行对抗，通过并行的方式生成空战数据，N对平行的Worker分别进行博弈，每个Worker收集S步数据，将N×S步数据拆分成固定长度T的时序序列，数据通过最大-最小归一化处理

输入到空战策略生成模型，式中min(X_i)和max(X_i)分别是特征x_i在所有样本上的最小值和最大值，图8是多意图策略生成模型的训练结构图。

(4.2)利用T-PPO算法更新模型实现空战意图策略的自主生成

序列数据输入到提出的T-PPO算法网络模型，输出当前时刻状态信息s_t的策略π_θ(a_t|s_t)和价值V(s_t)，T-PPO算法利用策略和价值计算损失值，通过梯度下降优化更新模型参数θ，实现空战意图策略的自主生成。提出的T-PPO算法更新模型过程如算法1所示。

为验证本发明提出的一种基于深度强化学习的空战多意图策略自主生成方法的有效性，各意图策略自主生成模型基于本发明提出的T-PPO算法进行基础-对抗进阶式训练实验。图9是迎头攻击、追击和逃逸意图策略生成模型的基础训练结果，图9(a)是各意图决策模型的平均奖励值，图9(b)是各意图决策模型的平均对抗长度随基础训练次数的变化图，图9(c)是基础训练结束时各意图决策模型的胜/平/负率。通过基础训练结果可以看出，图9(a)中所有意图策略自主生成模型都从大的负数起点到很高的奖励值，说明本发明提出的T-PPO算法在博弈中学到了空战知识，图9(b)中每种意图最终都在较少的步数内就可以达到目标，图9(c)中每种意图最终都达到了很高的胜率，意图迎头攻击的胜率达到0.95，意图追击和意图逃逸的胜率均达到了1，说明本发明提出的一种基于深度强化学习的空战多意图策略自主生成方法实现了各自的意图目标。综上所述，意图迎头攻击在攻击敌方时，我方态势也非常危险，容易被敌方攻击，降低了成功率，意图追击比迎头攻击相对安全，而意图逃逸需要更长的对抗长度。

图10是迎头攻击、追击和逃逸意图策略生成模型的对抗训练结果，图10(a)是各意图决策模型的平均奖励值，图10(b)是各意图决策模型的平均对抗长度随对抗训练次数的变化图，图10(c)是对抗训练结束时各意图决策模型的胜/平/负率。通过对抗训练结果可以看出，图10(a)中经过对抗训练每个意图策略自主生成模型的奖励值都不断增加，说明本发明提出的T-PPO算法与提出的基本-对抗进阶式训练法相结合，能使决策水平进一步提高，图10(b)中经过对抗训练每个意图策略自主生成模型的对抗长度都不断减少，意图迎头攻击的对抗长度约为9步，，意图追击相较对抗训练开始时的对抗长度减少了一半，从38步减少到17步，而意图逃逸的对抗长度减少最多，从90步减少到22步，在图10(c)中，每个意图策略自主生成模型都获得了较高的胜率，意图迎头攻击的胜率约为0.87，意图追击的胜率为0.99，意图逃逸的胜率为1，其中对抗训练的胜率没有基础训练的高是因为对抗训练中敌方的智能决策能力高于基础训练。因此，对抗训练是提升智能体决策水平的关键，不仅提高了奖励值，而且减少了决策步数，最终都获得了高胜率。图11是意图迎头攻击策略自主生成模型在基本-对抗进阶式训练结束后的空战机动轨迹图，图11(a)是意图迎头攻击机动轨迹，图11(b)是意图迎头攻击机动轨迹对应飞行器参数变化图。图12是意图追击策略自主生成模型在基本-对抗进阶式训练结束后的空战机动轨迹图，图12(a)是意图追击机动轨迹，图12(b)是意图追击机动轨迹对应飞行器参数变化图。图13是意图逃逸策略自主生成模型在基本-对抗进阶式训练结束后的空战机动轨迹图，图13(a)是意图逃逸机动轨迹，图13(b)是意图逃逸机动轨迹对应飞行器参数变化图。图中红方作为训练方，蓝方为敌方。从图11可以看出，当红蓝双方意图是迎头攻击时，红方采取的策略是通过增大γ_r提升高度避免敌方攻击。随着距离的缩短，快速调整姿态以减小

和增大/>

使蓝方进入红方的WEZ，达到迎头攻击的目的。图12中当红方意图追击，蓝方正在加速逃逸时，红方采取的策略是通过调整γ_r和ψ_r快速调整姿态，靠近蓝方以减小相对距离，在避免蓝方逃逸的同时，减小/>

和增大

使蓝方进入红方的WEZ，对蓝方完成攻击。图13中当红方意图逃逸时，在蓝方的追击下，红方采取的策略是增大/>

和/>

提高速度快速远离蓝方，在蓝方对红方达到追击条件前，达成逃逸意图。因此，经过对抗训练，红方策略自主生成模型在三种不同意图下决策水平都优于蓝方，最终实现意图目标。

为进一步验证本发明提出的一种基于深度强化学习的空战多意图策略自主生成方法性能，分别将基于本发明提出的T-PPO算法的策略自主生成方法与基于PPO with LSTM算法和PPO with Basic-Training算法的策略自主生成方法进行比较，PPO with LSTM算法代表在PPO算法中加入LSTM网络，PPO with Basic-Training算法代表PPO算法在训练时增加基础训练，平均奖励值、平均对抗长度和胜/平/负率作为评估指标。图14是意图迎头攻击策略自主生成方法对比实验图，图14(a)是平均奖励值随模型训练次数的变化图，图14(b)是平均作战长度随模型训练次数的变化图，图14(c)是训练结束时各意图策略自主生成模型的胜/平/负率。图15是意图追击策略自主生成方法对比实验图，图15(a)是平均奖励值随模型训练次数的变化图，图15(b)是平均作战长度随模型训练次数的变化图，图15(c)是训练结束时各意图策略自主生成模型的胜/平/负率。图16是意图逃逸策略自主生成方法对比实验图，图16(a)是平均奖励值随模型训练次数的变化图，图16(b)是平均作战长度随模型训练次数的变化图，图16(c)是训练结束时各意图策略自主生成模型的胜/平/负率。从图14中可以看出，在意图迎头攻击时，基于本发明提出的T-PPO算法的策略自主生成方法在奖励值、对抗长度和胜率中都占据很大的优势，图14(a)中本发明奖励值最高，图14(b)中，本发明对抗长度小于PPO with LSTM，和PPO with Basic-Training基本相同，但是从曲线的波动可以看出本发明稳定性远好于其他算法，图14(c)表明本发明胜率最高，达到0.87，相较其他两个算法提高了19％。从图15前1000次更新可以看出，基于本发明提出的T-PPO算法的策略自主生成方法训练速度更快，经过500次更新训练基本达到稳定，而其他两种情况在1000次训练更新后才逐步达到稳定，训练速度提升了50％，图15(a)中经过3000次更新，最终的奖励值较高，图15(b)中本发明提出的T-PPO算法较PPO with LSTM算法的对抗长度低50％，从曲线波动看出更稳定。在图16中，当意图逃逸时，奖励值和对抗长度虽然差距不大，策略自主生成模型的奖励值最终都提升至1，对抗长度都降低至22，但是基于本发明提出的T-PPO算法的策略自主生成方法更加稳定，波动较小。

综上所述，本发明提出的一种基于深度强化学习的空战多意图策略自主生成方法，充分利用历史数据中有用信息，并增加意图引导和训练的多样性，各意图策略自主生成模型都获得了高奖励值、高胜率和高效率，并在提高训练速度方面有较好的表现，具有一定的有效性。

以上所述的实施例仅是对本发明优选方式进行的描述，并非对本发明的范围进行限定，在不脱离本发明设计精神的前提下，本领域普通技术人员对本发明的技术方案做出的各种变形和改进，均应落入本发明权利要求书确定的保护范围内。