CN115951709A

CN115951709A - 基于td3的多无人机空战策略生成方法

Info

Publication number: CN115951709A
Application number: CN202310024517.3A
Authority: CN
Inventors: 高显忠; 王宝来; 侯中喜; 郭正; 王玉杰; 邓小龙
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2023-01-09
Filing date: 2023-01-09
Publication date: 2023-04-11

Abstract

本发明公开了一种基于TD3的多无人机空战策略生成方法，包括如下步骤：将多无人机空战协同决策问题构建为马尔可夫决策模型；建立态势评估函数，采用双延迟深度确定性策略梯度训练所述马尔可夫决策模型，在训练过程中基于所述态势评估函数选择执行动作的目标；基于训练完成的马尔可夫决策模型生成多无人机空战策略。本发明应用于无人机自主协同决策与控制技术领域，采用双延迟深度确定性策略梯度对格斗型无人机决策过程进行训练，在双延迟深度确定性策略梯度算法中，使用了两套网络估算Q值，并选择相对较小的网络作为更新目标，进而有效地解决了Q值高估的问题。

Description

基于TD3的多无人机空战策略生成方法

技术领域

本发明涉及多无人机自主协同决策与控制技术领域，具体是一种基于双延迟深度确定性策略梯度(Twin Delayed Deep Deterministic policy gradient algorithm，TD3)的多无人机空战策略生成方法。

背景技术

近年来，随着无人机技术的飞速发展，以无人机为核心的蜂群作战技术对陆上阵地、海面平台、关键基础设施等高价值目标防护构成严峻威胁。为应对无人机蜂群所带来的战争威胁，各军事强国均在竞相开展智能型自主对抗关键技术研究，其中格斗型无人机的研发已成为各国研究的热点。格斗型无人机是通过空中格斗实现对常规旋翼/固定翼无人机进行反制的创新型无人机，其以“群对群”的方式反制敌方无人机蜂群的“多数量”和“低成本”，是当前具有发展潜力的大规模反蜂群技术路线之一。

目前格斗型无人机执行作战任务的控制方法多采用预先程序设定或由地面站操作员实时操控。预先程序设定的方法无法根据实时战场环境灵活决策，作战前战场信息多数未知，在不确定目标位置、数量和能力的情况下提前规划很难达到预期效果。由地面人员控制的方法需要考虑通信的稳定性与延时问题，战场电磁环境复杂，信息不能保证可靠传递；战场环境瞬息万变，战机稍纵即逝，尤其是空战格斗这种战场态势迅速变化的场景，信息回传和指令接收的延时将对空中格斗产生重大影响。此外，当无人机数量增加时，操纵人力成本也相应增加，特别是构成集群后操纵人员的组织、协调压力增大，协同配合能力要求提升。因此，对于格斗型无人机而言，面对大规模的来袭无人机蜂群，依靠地面人员的决策实现群对抗已然变得完全不可能，自主机动决策已成为决定格斗型无人机反无人机空战成败的关键。

实现格斗型无人机的自主空中对抗，最关键的是要整合探测、决策和执行全过程，实现完整的“端到端”控制，也就是空战的自主机动决策。自20世纪50年代以来，研究人员一直试图建立能够自主执行空战的算法。主要方法可分为两类：一是基于规则的方法，利用飞行员经验积累的专家知识，根据不同的位置情境制定机动策略。例如专家系统、模糊系统等。另一种是基于优化的方法，将空对空情景转化为一个可以通过数值计算来解决的优化问题，例如动态规划遗传算法、博弈论等。

基于传统的微分对策理论等数学方法研究无人机空中格斗问题时，需要先精确建立数学模型，不论定性问题还是定量问题，前提都需要已知双方的机动策略和性能参数，这在现实中是不可能的。未来战斗中敌方战略意图、战术、出动的装备性能等信息一般不可能提前准确预判，以及战场环境中各种不确定性因素干扰和目标的低可探测性都将限制方法的适用程度。无人机动力学模型较为复杂，其状态方程为非线性微分方程，导致求解困难且计算量巨大，占用大量计算资源且耗时长，当敌我双方无人机数量进一步增加时会发生维度灾难。基于专家知识等方法所设计的决策系统在空战机动决策、态势评估和目标攻击过程中具有较强的主观性，而无人机自主空战具有复杂的、动态的作战过程以及极强的不确定性，人为预先设置规则和策略缺乏足够的灵活性。

2016年6月27日，美国Psibernetix公司开发的人工智能系统阿尔法(ALPHA)，在模拟作战环境中用战胜了美军空战专家，其身份为驾驶四代机的经验丰富的美国空军退役上校飞行员，证实了空战算法的有效性。美国国防大学高级研究员诺林·麦克唐纳和乔治·豪威尔在2019年2月～8月对全球无人机制造商网站和无人机专业网站进行了开源研究，证实全球目前有244项无人机系统，人工智能在无人机上的应用共计123项，其中人工智能作战算法应用3项。由此可见，基于人工智能方法赋予无人机战斗“智慧”，使得格斗型无人机可以根据自身传感器和通信能力获得实时战场态势，自主决策开始空中格斗是实现智能空战极具潜力的技术路线，相比采用预先程序设定或由地面站操作员实时操控方法具有更高效、突出的作战能力。

目前，学术界已达成共识：深度学习在探测数据、抽取特征方面具有巨大的潜力，比如预测和分类。比如，zhang和huang等设计了一个深度网络，能够对UCAV的状态进行预测，这可以作为一个机动的选项。Li等提出一个CNN网络，以实现从状态数据到动作之间的映射，这些动作包括，攻角变化率、油门系数等，然而，仅仅依靠深度学习，不能鼓励智能体开发新的策略对不熟悉的状态做出响应。智能体智能对在训练中出现的状态或者与之相似的状态做出响应。

在最近的研究中，很多研究者尝试将强化学习应用于空战决策中了，包括视距内决策和超视距决策。视距内决策和超视距决策的主要区别在于无战斗机携带的武器。视距内空战主要使用航炮，而超视距空战则主要使用中近程导弹，这使得智能体必须使用更多的时间去逃避制导导弹，战术策略也变得更加复杂。首先，由于三维空间建模和格斗的复杂性，大多数研究者假设无人机在平面运动，采用简化的2维模型研究空中格斗。这就丢失了大量的无人机空中格斗细节。其次，先前在序贯决策问题方面的研究也表明，由于空战环境复杂性的限制，常规的深度学习方法(DRL)极度依赖专家知识，并且从大规模探索空间中获得有效知识的学习效率非常低。比如，绝大多数深度学习算法只能处理离散的动作集合，设计UCAV的机动动作会受到搜索空间和优化的影响。在张的论文中，9个在水平面的离散动作被设计为启发式Q-网络智能体。动作空间在杨的论文中扩展到15个机动动作。而在Li和Pope，在连续动作空间和运动参数被用于机动并映射为仿真的控制系统。而对于连续动作空间如何选择合适的算法进行深度学习也是学术界研究的热点问题。

发明内容

针对上述现有技术中的不足，本发明提供一种基于TD3多无人机空战策略生成方法包括如下步骤：

将多无人机空战协同决策问题构建为马尔可夫决策模型；

建立态势评估函数，采用双延迟深度确定性策略梯度训练所述马尔可夫决策模型，在训练过程中基于所述态势评估函数选择执行动作的目标；

基于训练完成的马尔可夫决策模型生成多无人机空战策略。

在其中一个实施例，所述马尔可夫决策模型具体为(S、A、R、γ)，其中：

S为无人机空战相对状态空间，为：

S＝{D,α,β,v_r,v_b,γ_r,γ_b,ψ_r,ψ_b,μ_r,μ_b}

其中，D、α、β分别为无人机空战中红方无人机与蓝方无人机之间的相对距离、水平视线偏角与纵向视线倾角，v_r、γ_r、ψ_r、μ_r为红方无人机的速度大小、航迹倾角、航迹偏角和滚转角，(x_b,y_b,z_b)为蓝方无人机在三维空间中的坐标值，v_b、γ_b、ψ_b、μ_b为蓝方无人机的速度大小、航迹倾角、航迹偏角和滚转角；

A为无人机空战的动作空间，采用三个连续的控制量a＝[n_t,n_f,ω]控制无人机机动执行动作，其中，n_t为切向过载，n_f为法向过载，ω为机体滚转角速度；

R为无人机机动执行动作的奖励函数；

γ为折扣率。

在其中一个实施例，所述奖励函数具体为：

R＝r+k₁r₁+k₂r₂+k₃r₃+k₄r₄

其中，r为锁定成功奖励，r₁为角度优势奖励，r₂为距离优势奖励，r₃为高度优势奖励，r₄为速度优势奖励，k₁、k₂、k₃、k₄为权值；

锁定成功奖励为：

其中，D^*为满足锁定成功时两机最小距离，p^*、e^*为红方无人机、蓝方无人机速度方向与视线角的夹角，p、e为满足锁定成功时红方无人机、蓝方无人机速度方向与视线角的最大夹角；

所述角度优势奖励、所述距离优势奖励、所述高度优势奖励、所述速度优势奖励为：

其中，D_max为无人机的最大探测距离，Δh为双机高度差，v_max、v_min为无人机飞行速度所能达到的最大值和最小值。

在其中一个实施例，所述态势评估函数为：

其中，c_ij是红方无人机i对蓝方无人机j的综合态势值，

为格斗优势指标，

为威胁态势指标，

为目标价值指标，k_c1、k_c2、k_c3为不同态势项对综合态势值的影响权重。

在其中一个实施例，采用层次分析法确定不同态势项对综合态势值的影响权重k_c1、k_c2、k_c3的值。

在其中一个实施例，所述格斗优势指标为：

其中，

为角度优势，

为距离优势，

为能量优势，ω₁、ω₂、ω₃为优势权重；所述角度优势为：

其中，α_ij为红方无人机i对应于蓝方无人机j的追击角，β_ij为蓝方无人机j对应于红方无人机i的逃逸角；

所述距离优势为：

其中，D_ij为红方无人机i与蓝方无人机j的相对距离。D_a为无人机武器最大作用范围，D_t为无人机武器最大探测距离；

所述能量优势为：

其中，E_i、E_j为红方无人机i、蓝方无人机j的能量优势参数，H_i、H_j为红方无人机i、蓝方无人机j的高度，v_i、v_j为红方无人机i、蓝方无人机j的速度，g为重力加速度。

在其中一个实施例，所述威胁态势指标为：

其中，

为所携带武器相关威胁，

为距离防御目标的距离威胁，

为机动性能威胁，ω₄、ω₅、ω₆为威胁项权重；

所述所携带武器相关威胁、所述距离防御目标的距离威胁、所述机动性能威胁为：

其中，P₁为武器成功命中目标概率，P₂为命中后毁伤概率，n_A为可攻击次数，D_HVT为攻击无人机距离高价目标直线距离，T_MAX为无人机发动机最大推力，w为无人机重量，ξ为统一量纲系数。

在其中一个实施例，所述目标价值指标为：

其中，x∈[0,0.5,1]由专家评定法确定指标，分别为一样重要、比较重要与非常重要。

在其中一个实施例，所述采用TD3训练所述马尔可夫决策模型，具体为：

使用Actor网络μ(s|θ^u)得到行为策略，使用Critic网络Q(s,a|θ^Q)得到评估策略，对构造的代价函数进行梯度下降，迭代收敛后得到最优的神经网络参数θ^u、θ^Q；

在第i步时，输入此时状态量s_i至Actor网络μ(s|θ^u)，输出的是无人机的动作μ(s|θ^u)，为保证探索增加噪声N_i得到此时动作a_i＝μ(s|θ^u)+N_i；

将此时的s_i、a_i输入交互环境中的状态转移函数得到奖励值r_i和下一步状态s_i+1，将得到的这组样本数据存入到经验池中；

再从经验池中随机抽取N个样本数据进行网络参数θ^u、θ^Q的学习更新。

在其中一个实施例，在学习更新Critic的网络参数θ^Q的过程中，将损失函数L设置为当前网络输出Q(s_i,a_i|θ^Q)的估计值与目标期望值y_i的均方差，为：

其中，目标期望值y_i根据当前真实奖励值r_i与下一步输出值乘以折扣率γ得到，为：

y_i＝r_i+γQ(s_i+1,μ(s_i+1|θ^μ)|θ^Q)

在学习更新Actor的网络参数θ^u的过程中，Actor网络的策略梯度为：

目标网络采用延迟更新的方式，即一定时间后将目标网络参数替换为策略网络的参数。

本发明公开了一种TD3的多无人机空战策略生成方法，为了使格斗型无人机所学动作更加接近实际情况，本发明在3维空间中进行无人机动力学建模，而且将无人机的动力设定为连续动作空间。接着，采用双延迟深度确定性策略梯度对格斗型无人机决策过程进行训练，在双延迟深度确定性策略梯度算法中，使用了两套网络估算Q值，并选择相对较小的网络作为更新目标，进而有效地解决了Q值高估的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1为本发明实施例中多无人机空战策略生成方法的流程图；

图2为本发明实施例中无人机三自由度质点模型示意图；

图3为本发明实施例中空战相对态势示意图；

图4为本发明实施例中空战态势示意图；

图5为本发明实施例中角度优势函数图像示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

另外，本发明各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

如图1所示为基本实施例公开的一种基于TD3(双延迟深度确定性策略梯度，TwinDelayed Deep Deterministic Policy GradientAlgorithm，简称TD3)的多无人机空战策略生成方法，包括如下步骤：

将多无人机空战协同决策问题构建为马尔可夫决策模型；

基于训练完成的马尔可夫决策模型生成多无人机空战策略。

将多无人机空战协同决策问题构建为马尔可夫决策模型的具体实施过程为：

首先，建立“北天东”坐标系。如图2所示，X轴正方向指向正东，Y轴正方向指向正北，Z轴正方向垂直地面指向上。由于本实施例的重点是空中机动决策，主要关注固定翼无人机在三维空间中的相对位置和速度矢量，因此忽略了状态转换模型中的力矩不平衡，选择三自由度质点运动模型对其受力特性进行分析。忽略攻角和侧滑角，并假设速度方向和机体纵轴重合。

无人机空中飞行过程中主要受到发动机推力、重力和气动力作用，因此无人机在惯性坐标系中简化后的动力学模型，为：

式中，g为重力加速度，v为无人机速度，其大小满足约束v_min≤v≤v_max，速度方向被分解成两个角度来表示，航迹倾角γ代表速度矢量v与水平面XOY的夹角，Ψ∈(-π,π]，指向正北为0°，向西转为正。航迹偏角Ψ代表速度矢量v在水平面上的投影与坐标轴X轴的夹角，γ∈(-π/2,π/2]，水平时为0°，向上为正。n_t、n_f为切向过载和法相过载，μ为滚转角。n_t可以看成推力和阻力的合力对速度产生的影响，其方向为速度的方向，其中阻力包含重力的分力作用，用来改变飞机的速度；法向过载n_f方向为机顶的方向，滚转角μ为无人机绕自身纵轴的转角，两者决定速度航向角和速度爬升角的变化率，可以改变飞行方向和高度。

在相同的惯性坐标系中，经过坐标变换可得到简化的无人机运动方程，为：

式中，x，y和z表示无人机在惯性坐标系下的位置。

强化学习过程是一种“试错”过程，马尔可夫决策过程通常被用作描述是强化学习任务的模型框架。模型用四元组(S、A、R、γ)表示，其中S是状态空间，A是动作空间，R是奖励函数，γ是折扣率。在无人机空战中，将具有一定环境感知能力的红方无人机看作智能体(Agent)，根据当前所处战场状态(State)按照某种策略π进行机动决策，以获得作战优势或击落敌机获的回报R的过程，是一种序贯决策过程，满足马尔科夫决策过程。假设环境给无人机反馈的即时奖励函数是r_t＝r_t(s_t,a_t)。定义当前状态下无人机远期奖励

是折扣因子，折扣因子越大说明无人机越有“远见”。建立在马尔科夫决策过程模型之上的强化学习方法最终目标是使智能体学习到最优的策略π，即解决具有战场环境感知能力的无人机在与环境的交互过程中积累经验，学习到实现最大化奖励的动作的问题。

无人机智能体从环境中获取当前所处状态和即时奖励，由某种状态更新方式产生动作，环境给智能体回馈新的状态和新的奖励。基于强化学习无人机空中格斗算法是为保证智能体无人机处于某种空战状态时的输出机动动作能获取最大化奖励值。指定状态，智能体动作在动作集上的某种概率分布P(a|s)称为智能体的策略，一般而言智能体的策略是随机策略，若某种状态下的动作是确切的，策略称为确定性策略。本实施例中，马尔可夫决策模型的相关模型要素具体定义如下：

状态的选择主要根据无人机的本身状态和双方的相对态势。本身状态可由以下参数描述：S＝{x_r,y_r,z_r,x_b,y_b,z_b,v_r,v_b,γ_r,γ_b,ψ_r,ψ_b,μ_r,μ_b}，其中，(x_r,y_r,z_r)为红方无人机在三维空间中的坐标值，v_r、γ_r、ψ_r、μ_r为红方无人机的速度大小、航迹倾角、航迹偏角和滚转角，(x_b,y_b,z_b)为蓝方无人机在三维空间中的坐标值，v_b、γ_b、ψ_b、μ_b为蓝方无人机的速度大小、航迹倾角、航迹偏角和滚转角。与直接选择无人机本身状态相比，在空战过程中更加关注双方无人机作战的相对态势。如图3所示，ρ代表两机视线，水平视线偏角α为视线在水平面上投影与X轴夹角，纵向视线倾角β为视线与水平面夹角。红蓝无人机速度方向与视线夹角分别为p和e。

因此，无人机空战相对状态可以描述为：S＝{D,α,β,v_r,v_b,γ_r,γ_b,ψ_r,ψ_b,μ_r,μ_b}，其中，D为相对距离，改进后的状态量不仅可以更加直观的描述战场态势，也减小了状态空间的维度。

为提高深度神经网络收敛性能，将上述空战状态参数进行预处理，如表1所示：

表1

训练神经网络的输入为经过预处理的这10个状态量，描述了无人机空战的相对状态，取值在-1至1之间。

状态转移函数的定义为：状态转移函数描述的是在当前状态下采取某种动作时，转换成某种新状态的概率。本实施例中对相关模型都进行了相应数学处理，状态转移过程满足上无人机运动方程约束。

无人机空战的动作空间A的定义：本实施例三个连续的控制量a＝[n_t,n_f,ω]来控制无人机机动。式中切向过载n_t和法向过载n_f物理意义与无人机运动方程相同，ω为机体滚转角速度。无人机通过选择不同的动作组合可以机动至任意航向，每一种机动动作库中的动作都可以对应一组动作值。

最后设计无人机机动执行动作的奖励函数R与终止条件。无人机按照某种策略选取动作a_t～μ(s_t|θ^u)与环境交互得到经验E，学习算法的目的是得到最大化奖励。

当无人机间相对距离和相对角度满足要求时判定攻击锁定成功。r为锁定成功奖励，需满足的条件为：

其中，D^*为满足锁定成功时两机最小距离，与无人机平台所载武器系统的最大攻击距离相关；p^*、e^*为红方无人机、蓝方无人机速度方向与视线角的夹角，与无人机平台所载武器系统的最大攻击角度相关；p、e为满足锁定成功时红方无人机、蓝方无人机速度方向与视线角的最大夹角；

为解决稀疏奖励导致算法不易收敛的问题，本实施例在训练过程中增加过程奖励对无人机的学习进行引导，主要包括角度优势奖励r₁、距离优势奖励r₂、高度优势奖励r₃和速度优势奖励r₄，为：

其中，D_max为无人机的最大探测距离，Δh为双机高度差，v_max、v_min为无人机飞行速度所能达到的最大值和最小值；

综合上述奖励，即能得到单步奖励，为：

R＝r+k₁r₁+k₂r₂+k₃r₃+k₄r₄

每回合步数达到最大值，或一方无人机连续锁定另一方步数达到预设值时，回合结束。

在具体应用过程中，态势评估是目标分配的前提，本实施例采用集群综合态势函数矩阵C＝[c_ij]以表征一方所处战场环境的优劣程度，其中c_ij是红方无人机i对蓝方无人机j的综合态势值。针对无人机对抗场景，本实施例提出了格斗优势指标

威胁态势指标

和目标价值指标

三项优化目标。即态势评估函数为：

其中，k_c1、k_c2、k_c3为不同态势项对综合态势值的影响权重，取值在0至1间，加和等于1，取值与无人机相对性能、作战目的和战斗模式等因素有关。

为了将不同影响因素在整个问题中所占的比重数量化，本实施例采用层次分析法(The analytic hierarchy process，AHP)^[38]确定权重的值。层次分析法适用于处理复杂、模糊的问题，将定性分析与定量分析相结合，将人的主观判断转化为便于分析的数量表达方法进行处理，其主要步骤如下：

1、根据研究问题选择n个影响因素构建判断矩阵A，将不同影响因素进行两两比较，判断矩阵A中的元素代表所对应两种影响因素重要程度的比值，取值可以根据表2所示，其含义如下：

表2.11-9标度方法表

2、求出判断矩阵A的最大特征值λ_max，计算其所对应的特征向量为W＝(σ₁,σ₂,…,σ_n)^T，特征向量中的值即该问题中不同因素的权重值，如σ₁代表第一项优势指标在综合态势值中的的权重。

3、通过一致性检验公式检验判断矩阵是否具有满意的一致性。较客观的量化过程中也无法避免一定程度的非一致性，或者专家意见分歧、判断失误、影响因素过多等情况，需要一致性检验判断是否接受A。定义一致性指标为：、

通过查表与平均随机一致性指标RI标准值做比得出检验系数CR，一般CR<0.1，则认为该判断矩阵通过一致性检验，否则就不具有满意一致性。

例如，假设战场某一时刻t有相同数量n的红方无人机与蓝方无人机进行空战格斗对抗，对参战双方进行一对一“攻击/目标对”匹配。考虑三种优势指标相对综合态势值的影响占比，进行两两比较，如专家评定此类战场态势格斗优势指标

比威胁态势指标

稍重要，威胁态势指标

比目标价值指标

稍重要，格斗优势指标

比目标价值指标

明显重要，参照表2得到判断矩阵：

求出判断矩阵A的最大特征值λ_max＝3.04，所对应的归一化特征向量为：

W＝(0.64,0.26,0.10)^T

特征向量中的值即该问题中不同因素的权重值。得到红方无人机i对蓝方无人机j的综合态势值，为：

对判断矩阵A进行一致性检验。计算得：

CI＝(λ_max-n)/(n-1)＝0.02

查表n＝3时平均随机一致性指标RI标准值为0.52；

将两者作比得到检验系数CR＝0.04，CR<0.10，认为判断矩阵一致性可接受。

本实施例中，格斗优势指标的确定过程具体为：

格斗优势指标

的值参考战斗机空战态势函数的相关研究，从角度优势、距离优势、能量优势三个方面综合评价无人机相对目标无人机的态势值；

参考图4，近距空中格斗时，无人机处于尾追态势时具有较高的优势，被尾追时处于劣势，迎面相向飞行和反向相背飞行为均势。采用角度函数表示的角度优势，为：

其中，α_ij为红方无人机i对应于蓝方无人机j的追击角，是目标视线Los_ij到红方无人机速度v_ri的转角；β_ij为蓝方无人机j对应于红方无人机i的逃逸角，是目标视线Los_ij到蓝方无人机速度v_bi的转角，计算公式如下：

当无人机处于对目标的尾追攻击态势时，α_ij、β_ij均趋近于零时无人机对目标的角度优势值最大。现有技术中提出了如下的不同角度优势定义：

这种定义也满足尾追攻击和被尾追时态势值取极值的要求，然而由图5所示的角度优势函数图像看出，第二种定义方法在α_ij或β_ij一方趋于零时容易产生奇异，且变化不均匀，强化学习方法若以此构造奖励函数将不利于网络学习、收敛，因此本实施例选择上述第一种定义方法。

近距空中格斗过程，攻击距离优势值与无人机的探测范围及武器作用距离有关，以无人机武器最大作用范围D_a和探测距离D_t定义距离优势，为：

其中，D_ij为红方无人机i与蓝方无人机j的相对距离。当敌方无人机在我方无人机武器攻击范围内时，攻击距离优势值取最大值1；当敌方无人机在我方探测距离以外时距离优势值取最小值0；当敌方无人机距我方无人机距离在武器攻击距离和探测距离之间时，距离优势值成线性变化，相对距离越近攻击距离优势值越大。

无人机能量优势值，与对抗双方的无人机速度和高度相关，因此能量优势为：

最后，格斗优势指标是角度优势、距离优势、能量优势的加权综合函数，为：

其中，ω₁、ω₂、ω₃为优势权重，权重的值同样使用层次分析法确定。

本实施例中，威胁态势指标的确定过程具体为：

无人机集群作战的一种重要模式为使用大量低成本无人机攻击对手高价值目标或区域设施。当蓝方无人机集群执行突防任务时，其威胁不仅体现对拦截的红方无人机的毁伤威胁，更提现在对红方高价值目标的威胁上，本实施例重点分析后者威胁。

蓝方无人机的威胁程度首先体现在携带的武器类型上。集群中攻击型无人机可针对不同目标需要携带不同类型弹药(反辐射导弹、航空制导炸弹、石墨炸弹、电磁脉冲炸弹、钻地弹等)采取合适的策略实施打击。攻击型无人机既可以“平台”外挂武器系统的形式执行任务，重复使用；也可将战斗部、任务设备与无人机进行一体化设计，以“巡飞弹”的形式发起自杀式攻击，一次性使用。蓝方无人机平台搭载的武器系统的攻击范围和毁伤能力是两个重要的因素，攻击范围包括攻击距离和攻击角度，毁伤能力包括单个平台所能承载的武器数量和武器杀伤能力。

其次，蓝方无人机相对红方高价值目标的距离不同，对红方产生的威胁也不同，红方所采取的拦截策略也会有所差异。当蓝方无人机集群距离红方防御目标较远距离被探测发现时，红方拦截无人机集群可选择的战术相对更灵活一些，可尝试大范围机动抢占有利态势后，在确保自身航行安全的前提下开展攻击，也可在蓝方飞行过程中保持一定安全距离尝试采用电磁干扰、诱骗等多种手段拦截，或将近距离探测到的蓝方无人机信息传送给地面指控站，协同配合地面其他打击单元一同拦截。当蓝方无人机集群距离红方防御目标较近距离被探测发现时，红方拦截无人机集群优先选择歼灭敌人，攻击方式会更加激烈，有机会甚至与可以通过物理碰撞与对手“同归于尽”。由于无人机成本相对比较低廉，即使拦截过程中有所损失，代价远远低于防御目标价值。

另一方面，蓝方无人机的威胁体现在其机动能力上，无人机速度越快、越灵活，拦截难度越大，突防成功率越高，对红方威胁也越大。能量优势项也包含了涉及无人机速度的动能项，但只能体现当时时刻无人机所具有的态势，并不能体现无人机性能潜能，当时时刻速度慢不代表威胁小，可能迅猛加速或机动逆转战场态势，因此威胁态势中的无人机机动性能更多体现的是无人机固有性能，描述的是其作战潜力。

本实施例将无人机与所携带武器相关威胁

距离防御目标的距离威胁

机动性能威胁

加权合并成威胁态势指标，为：

其中，ω₄、ω₅、ω₆为威胁项权重；

所携带武器相关威胁、所述距离防御目标的距离威胁、所述机动性能威胁为：

其中，P₁为武器成功命中目标概率，P₂为命中后毁伤概率，n_A为可攻击次数，D_HVT为攻击无人机距离高价目标直线距离，T_MAX为无人机发动机最大推力，w为无人机重量，两者比值代表推重比，ξ为统一量纲系数。

本实施例中，目标价值指标的确定过程具体为：

目标价值取决于无人机固有属性，主要与其类型有关，如执行空战、侦查还是诱饵等。结合具体任务，集中优势力量优先打击对手高价值目标，对战场胜利至关重要。除了侦察监视，无人机集群还可以执行战斗效果评估、通信中继等支援保障任务。担负多样攻击任务的无人机，针对不同目标需要携带不同类型弹药采取合适的策略实施打击。

担负干扰诱骗任务的无人机，无人机集群可携带电磁载荷进入敌方机场空域实施干扰诱骗行动。无人机释放虚假信号诱发敌防空武器系统中的雷达开机，然后己方侦察设备趁机完成侦察任务，或实施诱骗攻击消耗敌武器系统防空火力。海湾战争中美军曾使用大量外挂小型无人机在预定区域投放，达到消耗伊军大量弹药的作战目的。无人机集群可利用数量庞大的优势，在敌防御区域内盘旋飞行，致使敌地面防空系统造成严重信号污染和过量负荷。

担负电子对抗任务。无人机集群实施分布式抵近干扰可削弱、破坏敌方电子设备的使用效能，保护己方电子设备效能得到充分发挥。如美军的“狼群”电子战系统利用分布式网络结构进行数据交换，采用联网技术对敌方雷达实施分布式协同干扰。作战时无人机集群可携带电子对抗设备搜集、分析敌方电子设备的电磁辐射信号，以获取其技术参数、位置类型、用途等情报，使敌方电子设备和系统丧失或降低效能。

另外，无人机集群与有人机、其他杀伤武器相互配合，取长补短，能提高战斗效能。如与高毁伤能力武器系统协同作战，无人机集群可以充当战场“先锋”角色，分散敌武器系统火力，待敌反击能力不足时，利用高毁伤能力武器系统对其关键部位给予致命一击。

因此根据作战任务，对不同类型无人机的重视程度也不相同，其对战场态势的影响差异化体现在目标价值指标。本实施例中的目标价值指标

由专家评定法确定，可根据模糊数学的隶属度理论将目标无人机价值按语言描述指标分为{一样重要，比较重要，非常重要}等几档，对应取值{0，0.5，1}，则：

本实施例中，采用双延迟深度确定性策略梯度训练马尔可夫决策模型的具体实施过程为：

双延迟深度确定性策略梯度(TwinDelayedDeep Deterministicpolicy gradientalgorithm，TD3)，是在深度确定性策略梯度(Deep Deterministicpolicy gradient，DDPG)的优化。TD3中，为解决Q值高估问题，本实施例的基本思路是使用两套网络估算Q值，选择相对较小的网络作为我们更新的目标。

TD3算法中的神经网络架构采用与DDPG算法类似的执行器-评价器(Actor-CriticAlgorithm，AC)的方法，属于异策略算法(OffPolicy)，即使用Actor网络μ(s|θ^u)得到行为策略，使用Critic网络Q(s,a|θ^Q)得到评估策略，两种策略并不相同。为解决由状态构成的样本之间不具备独立性问题，使用经验回放将样本存储在经验池中，并在经验池达到一定程度后随机从中选取若干样本进行训练。为了训练更稳定使用使用一个与策略网络结构一样的AC网络，采用“软更新”即延迟更新的方法。

神经网络的训练过程是对构造的代价函数进行梯度下降，迭代收敛后得到最优的神经网络参数θ^u、θ^Q。在第i步时，输入此时状态量s_i至Actor网络μ(s|θ^u)，输出的是无人机的动作μ(s|θ^u)，为保证探索增加噪声N_i得到此时动作a_i＝μ(s|θ^u)+N_i；将此时的s_i、a_i输入交互环境中的状态转移函数得到奖励值r_i和下一步状态s_i+1，将得到的这组样本数据存入到经验池中；再从经验池中随机抽取N个样本数据进行网络参数θ^u、θ^Q的学习更新。

在学习更新Critic的网络参数θ^Q的过程中，将损失函数L设置为当前网络输出Q(s_i,a_i|θ^Q)的估计值与目标期望值y_i的均方差，为：

y_i＝r_i+γQ(s_i+1,μ(s_i+1|θ^μ)|θ^Q)

以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是在本发明的发明构思下，利用本发明说明书及附图内容所作的等效结构变换，或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。