CN115454136B

CN115454136B - 一种无人机集群协同攻防对抗决策方法

Info

Publication number: CN115454136B
Application number: CN202211225205.0A
Authority: CN
Inventors: 池沛; 魏嘉宏; 赵江; 王英勋
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2022-10-09
Filing date: 2022-10-09
Publication date: 2024-04-30
Anticipated expiration: 2042-10-09
Also published as: CN115454136A

Abstract

本发明涉及一种无人机集群协同攻防对抗决策方法，属于无人机技术领域，解决了现有技术中大规模的无人机集群在攻防对抗敌方无人机时的“维度灾难”问题，以及收敛效果差、泛化能力差的问题。本发明将无人机集群划分为多个无人机小组，基于仿生狩猎机制建立无人机动作空间，并加入在无人机攻防对抗任务中的多元化奖励函数；训练规模较小的无人机小组的策略网络。本发明能够避免直接训练大规模无人机集群所带来的“维度灾难”问题，提高集群数量的拓展性和攻防对抗任务的成功率。

Description

一种无人机集群协同攻防对抗决策方法

技术领域

本发明属于无人机技术领域，具体涉及一种无人机集群协同攻防对抗决策方法。

背景技术

随着无人机飞行控制技术和计算机技术的发展与成熟，以及无人机的种类不断增多，无人机从情报、监视、侦察性传统任务逐步向主流作战的对抗性任务发展。

无人机集群在执行的对抗性作战任务时不仅能够发挥无人机优势，还能够通过集群的网络体系以及节点间的相互协同互补，可有效应对恶劣多变、态势迅速转换的战场环境，克服了单架无人机感知与执行能力以及复杂能力上的诸多局限，提升整体作战效能。

无人机集群在与敌方进行攻防对抗时，需要追捕并攻击敌方无人机，同时需要拦截敌方的入侵，防止敌方无人机对作战区域内的重要己方目标造成伤害。在攻防对抗的过程中，集群内各无人机根据作战态势自主决策，通过与其他无人机协作，共同完成对抗任务。目前，无人机集群攻防对抗的主要方法有：强化学习法、矩阵博弈法、微分博弈法和专家系统法等。其中，强化学习法是一种通过智能体不断和环境互动，从互动所得到的奖励或惩罚中学习到行动策略的方法。但是，传统强化学习法中的状态空间和动作空间的维数将随着无人机集群规模的扩大而指数增加，造成“维度灾难”问题，行动策略的收敛时间延长，甚至出现策略无法收敛的问题。此外，强化学习法存在陷入局部最优的问题，泛化能力较弱。

发明内容

鉴于上述分析，本发明实施例旨在提供一种无人机集群协同攻防对抗决策方法，用以解决现有的大规模的无人机集群的“维度灾难”问题，以及收敛效果差、泛化能力差的问题

本发明的一种无人机集群协同攻防对抗决策方法，包括以下步骤：

建立无人机集群攻防对抗任务模型：派遣k架己方无人机的无人机集群执行拦截敌方无人机任务，k为4的倍数；建立己方无人机和敌方无人机的运动学模型；建立敌方无人机运动策略；设置拦截任务成功条件；

将包括k架己方无人机的无人机集群分为多组无人机小组m，m＝1,2,3…,k/4；每组无人机小组包括4架已方无人机；将各组部署于各自的防区中，形成多道防线；

建立无人机集群行动模式：各防区的无人机小组中的已方无人机根据敌方无人机的状态选择行动模式，行动模式包括执行拦截任务、放弃拦截任务和动态调节小组位置；当敌方无人机进入第m组无人机小组的防区时，相应防区的已方无人机出击以执行拦截任务；当敌方无人机突破第m组无人机小组防区并进入下一防区时，则第m组无人机小组的已方无人机放弃追击；当敌方无人机尚未侵入己方无人机小组所在防区时，未被侵入的无人机小组根据敌方无人机和已方基地的位置动态调节本小组已方无人机的位置；

建立无人机集群的动作机制，包括围捕机制和群集机制；围捕机制包括接近动作、监视动作和面向敌方无人机的攻击动作；群集机制包括分离动作、一致动作和聚集动作；动作机制构成无人机集群的动作空间；由无人机集群的动作空间构建围捕策略；

无人机集群行动模式和无人机集群对敌方无人机的围捕策略构成无人机集群对敌方无人机的围捕策略网络；

无人机小组m中的己方无人机n将观测到的敌方无人机、己方基地和本小组内其他无人机的状态构建为无人机集群的状态空间O_m,n；

将任务完成奖励score_suc、与敌方无人机距离相关的态势评价函数score_dis、与无人机集群分散程度有关的态势评价函数score_encircle、与敌方与基地间距离有关的态势评价函数score_base和时间奖励score_time构建成无人机集群的总奖励r；

基于无人机集群对敌方无人机的围捕策略网络、无人机集群的状态空间O_m,n和无人机集群的总奖励r进行无人机小组策略网络的多智能体强化学习训练获得行动策略；

无人机集群利用训练得到的行动策略进行与敌方无人机的攻防对抗。

可选地，拦截任务成功条件为：

当1架敌方无人机抵近己方基地时，如果敌方无人机在任务最大完成时间t_max内同时处于同一小组的4架己方无人机的射程内，拦截任务成功：

0≤t_cap≤t_max；

其中，p_m,n为第m个小组中第n架无人机的位置；p_target为敌方无人机的位置；ρ_cap为己方无人机的射程距离；p_base为己方基地的位置，ρ_sense为敌方无人机的侦察范围；t为从任务开始以后的任意时刻，t_cap为任务完成时间，t_max为任务最大完成时间。

可选地，己方无人机和敌方无人机的运动学模型为：

将己方无人机运动学模型简化为平面质点模型：

其中，为p_m,n的导数，即第m个小组中第n架无人机的速度；v_m,n为第m个小组中第n架无人机的速度；/>为v_m,n的导数，即第m个小组中第n架无人机的加速度；a_m,n是第m个小组中第n架无人机的加速度控制量；λ为无人机的阻力系数；

己方无人机的速度v_m,n及加速度控制量a_m,n满足以下物理性能约束：

|a_m,n|≤a_max；

其中，v_max、a_max分别表示己方无人机的最大速度、最大加速度控制量；

将敌方无人机运动学模型简化为平面质点模型：

其中，p_target为敌方无人机的位置；为p_target的导数，即敌方无人机的速度；v_target为敌方无人机的速度；/>为v_target的导数，即敌方无人机的加速度；a_target是敌方无人机的加速度控制量；

敌方无人机的速度v_target及加速度控制量a_target满足以下物理性能约束：

其中，分别表示敌方无人机的最大速度、最大加速度控制量。

可选地，敌方无人机运动策略为：已方无人机集群为斥力源，已方基地位置为引力源，斥力源和引力源构成的合力；敌方无人机向所受合力方向运动。

可选地，敌方无人机向所受合力方向运动时，时刻t敌方无人机的加速度控制量a_target为：

其中，a′_target为限幅前敌方无人机的加速度控制量；为敌方无人机最大加速度控制量，大于己方无人机的最大加速度控制量a_max；a_target的幅值小于等于/>f(p_base,p_target)、g(p_m,n,p_target)分别是引力函数、斥力函数，具体形式为：

其中，suGass(.)为超高斯函数；e为自然常数；ρ_th表示敌方无人机的临界机动距离。

可选地，

接近动作为控制第m个小组中第n架己方无人机的加速度控制量

监视动作为以敌方无人机为圆心顺时针方向运动或逆时针方向运动，顺时针方向运动的加速度控制量为：

v_t＝(v_m,n-v_target)·e_t；

其中，v_t表示己方无人机相对敌方无人机的切向速度；v_m,n表示第m个小组中第n架己方无人机的瞬时速度；v_target表示敌方无人机的瞬时速度；e_t为与己方无人机位置到敌方无人机位置连线垂直的单位向量；a_r表示切向速度对应的向心加速度；θ表示第m个小组中第n架己方无人机的顺时针方向运动的加速度控制量与敌方-己方无人机位置连线方向之间的夹角；R(θ)为旋转矩阵；e_r为己方无人机位置到敌方无人机位置连线方向的单位向量；

逆时针方向运动的加速度控制量为：

面向敌方无人机的攻击动作为已方无人机的进攻和撤退动作；

已方无人机进攻时的加速度控制量为：

已方无人机撤退时的加速度控制量为：

预测的敌方无人机未来位置p′_target为：

p′_target＝p_target+λ_d|p_m,n-p_target|v_target；

其中，λ_d为距离补偿系数。

可选地，

分离动作为控制第m个小组中第n架已方无人机的控制量

其中，p_m,n表示第m个小组内第n架无人机的位置,p_m,q表示第m个小组内第q架无人机的位置，w_m,q表示第m个小组内第q架无人机对分离运动的权重系数；

一致动作为控制第m个小组中第n架已方无人机的控制量为：

其中，v_m,q表示第m个小组内第q架其他已方无人机的速度；v_m,avg表示一致性运动时第m个小组内其他无人机的平均速度；

聚集动作为控制第m个小组中第n架已方无人机的加速度控制量为：

其中，p_m,avg为聚集运动时第m个小组内其他无人机的平均位置。

可选地，动作空间的维数包括8维的动作机制和1维的空动作。

可选地，敌方无人机的信息包括敌方无人机相对第m个小组内第n架己方无人机的位置和速度/>己方基地的信息为已方基地相对第m个小组内第n架己方无人机的位置/>小组内其他无人机的信息包含其他无人机q相对第m个小组内第n架己方无人机的位置/>状态空间O_m,n为：

可选地，建立任务完成奖励score_suc；

建立与敌方无人机距离相关的态势评价函数score_dis：

score_dis＝LJ(|p_target-p_m,n|)；

建立与无人机集群分散程度有关的态势评价函数score_encircle：

其中，θ_m,n为第m个小组中第n架已方无人机和其同组内绕敌方无人机逆时针方向的相邻无人机与敌方无人机连线的夹角；σ为夹角标准差；为夹角平均值；

建立与敌方与基地间距离有关的态势评价函数score_base：

score_base＝-LJ(|p_target-p_base|)；

建立时间奖励score_time：

时刻t第m个小组中第n架已方无人机所获得的总奖励r为：

r＝ω_sscore_suc+ω_dscore_dis+ω_escore_encircle+ω_bscore_base+ω_tscore_time；

其中，ω_s、ω_d、ω_e、ω_b、ω_t为权重系数，优选地，ω_s、ω_d、ω_e、ω_b、ω_t分别为10、2、3、3、1。

与现有技术相比，本发明至少可实现如下有益效果之一：

(1)本发明采用了分组机制，将无人机集群划分为多个无人机小组，通过训练规模较小的无人机小组的策略，并将该策略应用到由多个无人机小组所组成的无人机集群中，从而避免直接训练大规模无人机集群所带来的“维度灾难”问题，提高集群数量的拓展性。

(2)本发明的各个无人机小组之间行动相互独立，减少了集群内各组间策略的相互干扰，有利于发挥无人机集群的数量优势。

(3)本发明基于仿生狩猎机制的无人机动作空间，该动作空间中的动作对邻居和敌方无人机均有明显的互动作用，有利于行动策略向态势更优的方向更新，避免陷入局部最优，提高了攻防对抗任务的成功率。

(4)本发明改进了无人机攻防对抗任务的奖励函数，通过评价当前态势，添加稠密的奖励，诱导智能体向态势优的方向更新策略，有利于策略收敛。

附图说明

附图仅用于示出具体实施例的目的，而并不认为是对本发明的限制。

图1为本发明的无人机集群协同攻防对抗任务模型；

图2为本发明的无人机集群分组示意图；

图3为本发明的无人机小组动态调节位置示意图；

图4为本发明已方无人机执行接近动作的示意图；

图5为本发明已方无人机执行监视动作的示意图；

图6为本发明已方无人机执行监视动作时顺时针方向运动的加速度控制量图解；

图7(a)和(b)为本发明已方无人机执行面向敌方无人机的攻击时进攻和撤退动作的示意图；

图8为本发明已方无人机执行分离运动的示意图；

图9为本发明已方无人机执行一致运动的示意图；

图10为本发明已方无人机执行聚集运动的示意图；

图11为本发明已方无人机包围敌方无人机的示意图；图12为本发明实施例1的无人机小组攻防对抗场景示意图；

图13为本发明实施例1的12架己方无人机与敌方无人机的对抗场景示意图；

图14为本发明实施例1的12架己方无人机与敌方无人机的攻防对抗过程示意图；

图15(a)为本发明实施例1的无人机小组1中各无人机的速度-时间曲线的攻防对抗仿真结果图；

图15(b)为本发明实施例1的无人机小组1中各无人机与敌方无人机-时间曲线的攻防对抗仿真结果图；

图15(c)为本发明实施例1的无人机小组2中各无人机速度-时间曲线的攻防对抗仿真结果图；

图15(d)为本发明实施例1的无人机小组2中各无人机与敌方无人机-时间曲线的攻防对抗仿真结果图；

图15(e)为本发明实施例1的无人机小组3中各无人机的速度-时间曲线的攻防对抗仿真结果图；

图15(f)为本发明实施例1的无人机小组3中各无人机与敌方无人机-时间曲线的攻防对抗仿真结果图；

图16为本发明实施例1的敌方无人机在不同运动性能下己方无人机的对抗胜率。

具体实施方式

下面结合附图和具体实施例，对本发明进行详细描述。

本发明的一个具体实施例，如图1-16，公开了一种无人机集群协同攻防对抗决策方法，包括以下步骤：

S1、建立无人机集群攻防对抗任务模型

S11设置拦截任务成功条件

如图1所示，当1架敌方无人机抵近己方基地时，己方基地派遣k架己方无人机执行拦截任务，k为4的倍数；将包含k架己方无人机的无人机集群分为多组无人机小组m，m＝1,2,3…,k/4，每个无人机小组包括4架已方无人机。如果敌方无人机在任务最大完成时间t_max内同时处于相同小组的4架己方无人机的射程内，则认为敌方无人机受到饱和攻击后被摧毁，拦截任务成功；如果敌方无人机突破己方无人机的拦截防线，靠近己方基地至其侦察距离内，则认为己方基地信息泄露，拦截任务失败。优选地，己方基地为雷达基地；己方无人机为攻击型无人机。

拦截任务成功的条件为：

0≤t_cap≤t_max； (3)

其中，p_m,n为第m个小组中第n架无人机的位置；p_target为敌方无人机的位置；ρ_cap为己方无人机的射程距离；p_base为己方基地的位置，ρ_sense为敌方无人机的侦察范围；式(1)表示敌方无人机在t_cap时刻同时处于第m个小组的4架己方无人机的射程内；式(2)表示在己方无人机拦截敌方无人机前，己方基地未暴露于敌方无人机的侦察范围内；式(3)表示己方无人机应该在规定时间内完成拦截任务，t为从任务开始以后的任意时刻，t_cap为任务完成时间，t_max为任务最大完成时间。

S12建立己方无人机和敌方无人机的运动学模型

将己方无人机运动学模型简化为平面质点模型：

其中，为p_m,n的导数，即第m个小组中第n架无人机的速度；v_m,n为第m个小组中第n架无人机的速度；/>为v_m,n的导数，即第m个小组中第n架无人机的加速度；a_m,n是第m个小组中第n架无人机的加速度控制量；λ为无人机的阻力系数。

|a_m,n|≤a_max；

其中，v_max、a_max分别表示己方无人机的最大速度、最大加速度控制量。

将敌方无人机运动学模型简化为平面质点模型：

其中，p_target为敌方无人机的位置；为p_target的导数，即敌方无人机的速度；v_target为敌方无人机的速度；/>为v_target的导数，即敌方无人机的加速度；a_target是敌方无人机的加速度控制量；λ为无人机的阻力系数。

S13建立敌方无人机运动策略

将已方无人机集群当作斥力源，已方基地位置当作引力源，敌方无人机向所受合力方向运动；

时刻t敌方无人机的加速度控制量a_target为：

其中，suGass(.)为超高斯函数；e为自然常数；ρ_th表示敌方无人机的临界机动距离，当敌方无人机与己方无人机相隔此距离时，敌方无人机感受到己方无人机对其存在较大威胁，做出规避运动，以避免被对方拦截。

S2、建立基于仿生狩猎机制的无人机集群对敌方无人机的围捕策略网络

S21建立无人机集群行动模式

如图2所示，将包含k架己方无人机的无人机集群分为m组，每组无人机小组包括4架已方无人机，并将各组部署于各自的防区中，形成多道防线。当敌方无人机进入某防区时，该防区的无人机小组出击以执行拦截任务。若敌方突破防线并进入下一防区，则该无人机小组放弃追击，避免对下一防区的无人机小组执行任务造成干扰。优选地，多个防区依次设置于已方基地与敌方无人机之间；各组中的4架已方无人机的位置连线在同一条直线上。自然界中群居食肉动物的狩猎团队规模和狩猎成功率之间具有极大关系。MacNulty通过大量观察发现狼群狩猎麋鹿时，随着狼群规模的增长，狩猎成功率先是明显增高；当狼群规模为4时，狩猎成功率达到极大值；但随着狼群规模的进一步增大，狩猎成功率反而缓慢下降。类似的，对于无人机集群攻防对抗任务而言，若参与对抗的无人机数量过大，无人机的对抗策略相互干扰和影响，难以实现对高机动敌方无人机的拦截。优选地，每组无人机小组包括4架已方无人机，并将各组部署于各自的防区中，形成多道防线。各防区的无人机小组中的已方无人机根据敌方无人机的状态选择行动模式，行动模式包括执行拦截任务、放弃拦截任务和动态调节小组位置。当敌方无人机进入某防区时，相应防区的已方无人机出击以执行拦截任务；当敌方无人机突破防线并进入下一防区时，则被突破防区内的已方无人机放弃追击；当敌方无人机尚未侵入己方无人机小组所在防区时，该无人机小组根据敌方无人机和已方基地的位置动态调节小组位置，以更好地拦截敌方无人机。

动态调节的方法如下：如图3所示，己方无人机小组形成的队形中心的x坐标保持不变，其z坐标位置位于敌方无人机和己方基地的连线上。

S22构建无人机集群的动作空间的动作机制获得围捕策略

无人机集群动作空间包括围捕机制和群集机制；围捕机制包括接近动作、监视动作和面向敌方无人机的攻击动作；群集机制包括分离动作、一致动作和聚集动作；由无人机集群的动作空间的动作机制获得围捕策略。本发明建立的无人机集群动作空间能够使得无人机集群动作接近自然界中许多群居食肉动物的群体狩猎的方式，能够快速地捕获比自身速度快或体型大的目标。

S221建立围捕机制

围捕机制用于表述无人机集群与敌方无人机的互动关系，包含接近、监视和面向敌方无人机的攻击动作。

S2211接近动作

如图4所示，当己方无人机和敌方无人机相距较远时，己方无人机通过接近动作快速靠近敌方无人机，以进一步执行拦截任务。

采用接近动作时第m个小组中第n架己方无人机的加速度控制量为：

S2212监视动作

如图5所示，当己方无人机未进入敌方无人机的感知范围时，己方无人机通过监视动作，保持与敌方无人机的距离，避免引起敌方无人机做出明显的逃脱行为。在这一阶段，己方无人机集群对敌方无人机形成包围圈，为下一步发起面向敌方无人机的攻击做准备。

以敌方无人机为圆心，监视动作包括顺时针方向运动和逆时针方向运动两种，如图6所示，顺时针方向运动的加速度控制量为：

v_t＝(v_m,n-v_target)·e_t；

/>

其中，v_t表示己方无人机相对敌方无人机的切向速度；v_m,n表示第m个小组中第n架己方无人机的瞬时速度；v_target表示敌方无人机的瞬时速度；e_t为与己方无人机位置到敌方无人机位置连线垂直的单位向量；a_r表示切向速度对应的向心加速度；θ表示第m个小组中第n架己方无人机的顺时针方向运动的加速度控制量与敌方-己方无人机位置连线方向之间的夹角；R(θ)为旋转矩阵；e_r为己方无人机位置到敌方无人机位置连线方向的单位向量。

同理，逆时针方向运动的加速度控制量为：

S2213面向敌方无人机的攻击动作

如图7所示，面向敌方无人机的攻击包括已方无人机的进攻和撤退动作。面向敌方无人机的攻击主要发生在无人机集群包围圈基本形成的阶段，无人机集群通过不断进攻和撤退，诱导敌方无人机向期望方向运动，并在此过程中逐步收缩包围圈的大小，最终实现对敌方无人机的围捕。

可以注意到，已方无人机进攻和撤退的过程中，加速度控制量的方向并非沿着敌方-己方位置连线方向，而是指向预测的敌方无人机的未来位置。

进攻时的加速度控制量为：

撤退时的加速度控制量为：

预测的敌方无人机未来位置p′_target为：

p′_target＝p_target+λ_d|p_m,n-p_target|v_target；

其中，λ_d为距离补偿系数，该系数越大，预测的未来位置越远；优选地，λ_d取值为0.3，使得己方无人机能够快速地缩小与敌方无人机的距离。

S222建立群集机制

群集机制用于表述无人机集群系统内部的互动关系，包含分离动作、一致动作和聚集动作。

S2221分离动作

如图8所示，为了防止己方无人机之间发生碰撞，保证已方无人机自身的安全，已方无人机采取分离动作使得相互之间的距离大于安全距离。

采取分离动作时第m个小组中第n架已方无人机的控制量为：

其中，p_m,n表示第m个小组内第n架无人机的位置,p_m,q表示第m个小组内第q架无人机的位置，w_m,q表示第m个小组内第q架无人机对分离运动的权重系数，距离越近的无人机对分离运动的影响越大。

S2222一致动作

如图9所示，为了实现无人机集群在宏观层面上的集群运动，已方无人机采用一致动作保持己方无人机之间距离。

采取一致动作时第m个小组中第n架已方无人机的控制量为：

其中，v_m,q表示第m个小组内第q架其他已方无人机的速度；v_m,avg表示一致性运动时第m个小组内其他无人机的平均速度。

S2223聚集动作

如图10所示，为了防止单架已方无人机出现离群、掉队等问题，促进支援行为的涌现，单架己方无人机需要采用聚集动作，向邻居无人机靠近。

采取聚集动作时第m个小组中第n架已方无人机的加速度控制量为：

S223建立动作空间

己方无人机的动作空间由围捕机制的接近动作、监视动作和面向敌方无人机的攻击动作和群集机制的分离动作、一致动作和聚集动作共6种动作构成。其中，监视动作存在顺时针和逆时针两个方向，同时面向个体的攻击动作可分为进攻和撤退两类，再加上不采取任何动作的空动作，因此动作空间的维数A为9维。

S3、构建无人机集群的状态空间和总奖励

S3-1构建状态空间

第m个小组内第n架己方无人机观测到的状态包括敌方无人机、己方基地和本小组内其他无人机的信息。敌方无人机的信息包括敌方无人机相对第m个小组内第n架己方无人机的位置和速度/>己方基地的信息为已方基地相对第m个小组内第n架己方无人机的位置/>小组内其他无人机的信息包含其他无人机q相对第m个小组内第n架己方无人机的位置/>状态空间O_m,n为：

因此，已方无人机的状态空间由6个向量构成，由于作战想定是在二维平面内，每个向量维数为2，状态空间的维数为12维。本发明利用了较多的敌方无人机的信息，能够提高己方无人机在博弈对抗中取得优势。

S3-2构建总奖励

建立任务完成奖励score_suc，优选地，score_suc＝1。

可以理解的是，空战经验丰富的战斗机飞行员通过空中对抗的训练总结归纳了复杂且丰富的战术战法，所以专家经验在解决对抗决策问题具有十分关键的作用。根据拦截任务的成功与否判定得分，将任务完成奖励score_suc作为奖励r用于训练。

建立与敌方无人机距离相关的态势评价函数score_dis：

score_dis＝LJ(|p_target-p_m,n|)；

与敌方无人机距离相关的态势评价函数score_dis使得本发明的己方无人机在执行拦截任务时能够更加接近己方无人机需要进入敌方无人机到一定距离范围才能实现围捕拦截的实际情况。

/>

其中，θ_m,n为第m个小组中第n架已方无人机和其同组内绕敌方无人机逆时针方向的相邻无人机与敌方无人机连线的夹角，如图11所示；σ为夹角标准差；为夹角平均值。夹角标准差越接近0，无人机集群分散越均匀，相应的态势越好，态势评价函数数值越大。

与无人机集群分散程度有关的态势评价函数score_encircle能够避免敌方无人机向背离己方无人机的方向逃脱，使得己方无人机能够尽可能分散于敌方无人机周围，从多个不同角度发起围捕。

建立与敌方与基地间距离有关的态势评价函数score_base：

score_base＝-LJ(|p_target-p_base|)；

与敌方与基地间距离有关的态势评价函数score_base增加了对敌方无人机和己方基地之间的距离的检测，能够降低己方基地所受威胁。

建立时间奖励score_time：

奖励score_time能够促进己方无人机的策略向阻碍敌方入侵的方向更新。

综上所述，时刻t第m个小组中第n架已方无人机所获得的总奖励r为：

其中，ω_s、ω_d、ω_e、ω_b、ω_t为权重系数，优选地，ω_s、ω_d、ω_e、ω_b、ω_t分别为10、2、3、3、1；不同的权重系数表示不同态势评价函数对任务的贡献程度不同。

S4、进行无人机小组策略网络的多智能体强化学习训练获得行动策略

无人机小组m中的己方无人机n将由观测到的状态构建的空间O_m,n输入围捕策略网络中，围捕策略网络输出无人机集群的行动模式和动作空间中的相应动作，用于已方无人机n执行，并计算与已方无人机n相应的总奖励r，利用总奖励r对MA-POCA(即：多智能体局外信用分配)多智能体强化学习框架的参数进行更新，直至MA-POCA多智能体强化学习框架的参数收敛获得行动策略。

S5、利用步骤S4中训练得到的行动策略进行无人机集群攻防对抗

将攻防对抗时使用的无人机集群分为多个无人机小组，各个小组根据实际敌方无人机所处位置选择行动策略，攻防对抗时各已方无人机根据观察到攻防对抗时的状态从无人机集群选择行动模式和动作空间的动作。

实施例1

为了方便理解本发明的上述技术方案，以下通过一个具体实施例对本发明的上述技术方案进行详细说明，具体实施步骤如下：

1、设置无人机小组对抗场景所需参数

无人机小组对抗场景包括作战平面、基地、己方无人机和敌方无人机，如图12所示；无人机小组对抗场景的具体参数如表1所示。

表1无人机小组对抗场景参数

2、训练无人机小组的对抗策略

无人机小组m中的各无人机n将观测到的状态O_m,n输入前述策略网络中，策略网络输出前述无人机集群的动作空间中的相应动作，用于已方无人机n执行，并计算相应奖励r，对MA-POCA多智能体强化学习框架的参数进行更新，直至MA-POCA多智能体强化学习框架的参数收敛获得行动策略。MA-POCA多智能体强化学习框架的超参数如表2所示。

表2强化学习算法超参数

/>

3、设置无人机集群对抗场景所需参数

如图13所示，根据分组机制将12架无人机分为3个由4架无人机构成的小组。为了使4架无人机的对抗策略能够应用于各个无人机小组，各架无人机观察的状态量中己方基地的相对位置修改为无人机小组对应虚拟基地的相对位置，邻居无人机的相对位置修改为其所在无人机小组的邻居无人机的相对位置。每个己方无人机小组初始条件下呈一字形编队，部署于相应防区内，共构成三道防线。对抗场景的参数如表3所示。

表3对抗场景参数

4、输出并分析仿真结果

无人机集群仿真对抗的对局过程如图14所示。对局中各小组攻防对抗仿真结果如图15所示。

从图中可以看出，虽然敌方无人机突破了无人机小组3构成的防线，但是无人机小组3依然起到了阻碍敌方无人机入侵、延长敌方无人机入侵时间的作用，为无人机小组2动态调整自身部署的位置争取到充足的时间。由于敌方无人机进入小组2所在防区时，无人机小组2已经调整到了合适的位置，快速地形成拦截队形。因此本发明提出的方法能够有效实现对敌方的围捕。

在保持己方策略和其他参数不变的条件下，提高敌方最大控制量，统计敌方不同最大运动性能下100场对局中己方无人机的对抗胜率。统计结果如表4和图16所示。

表4敌方不同最大加速度下的己方对抗胜率

从图16中可以看出，本发明提出的方法在敌方最大加速度为己方最大加速度2.5倍以内时，能够较好地拦截敌方无人机，对抗胜率在91％以上。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种无人机集群协同攻防对抗决策方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的无人机集群协同攻防对抗决策方法，其特征在于，拦截任务成功条件为：

0≤t_cap≤t_max；

3.根据权利要求2所述的无人机集群协同攻防对抗决策方法，其特征在于，己方无人机和敌方无人机的运动学模型为：

将己方无人机运动学模型简化为平面质点模型：

|a_m,n|≤a_max；

将敌方无人机运动学模型简化为平面质点模型：

4.根据权利要求3所述的无人机集群协同攻防对抗决策方法，其特征在于，敌方无人机运动策略为：已方无人机集群为斥力源，已方基地位置为引力源，斥力源和引力源构成的合力；敌方无人机向所受合力方向运动。

5.根据权利要求4所述的无人机集群协同攻防对抗决策方法，其特征在于，敌方无人机向所受合力方向运动时，时刻t敌方无人机的加速度控制量a_target为：

6.根据权利要求4所述的无人机集群协同攻防对抗决策方法，其特征在于，

v_t＝(v_m,n-v_target)·e_t；

逆时针方向运动的加速度控制量为：

已方无人机进攻时的加速度控制量为：

已方无人机撤退时的加速度控制量为：

预测的敌方无人机未来位置p′_target为：

p′_target＝p_target+λ_d|p_m,n-p_target|v_target；

其中，λ_d为距离补偿系数。

7.根据权利要求6所述的无人机集群协同攻防对抗决策方法，其特征在于，

分离动作为控制第m个小组中第n架已方无人机的控制量

一致动作为控制第m个小组中第n架已方无人机的控制量为：

8.根据权利要求7所述的无人机集群协同攻防对抗决策方法，其特征在于，动作空间的维数包括8维的动作机制和1维的空动作。

9.根据权利要求3所述的无人机集群协同攻防对抗决策方法，其特征在于，敌方无人机的信息包括敌方无人机相对第m个小组内第n架己方无人机的位置和速度/>己方基地的信息为已方基地相对第m个小组内第n架己方无人机的位置/>小组内其他无人机的信息包含其他无人机q相对第m个小组内第n架己方无人机的位置/>状态空间O_m,n为：

10.根据权利要求3所述的无人机集群协同攻防对抗决策方法，其特征在于，

建立任务完成奖励score_suc；

建立与敌方无人机距离相关的态势评价函数score_dis：

score_dis＝LJ(|p_target-p_m,n|)；

建立与敌方与基地间距离有关的态势评价函数score_base：

score_base＝-LJ(|p_target-p_base|)；

建立时间奖励score_time：

时刻t第m个小组中第n架已方无人机所获得的总奖励r为：