CN112269396B

CN112269396B - 一种仿鹰鸽智能博弈的无人机集群协同对抗控制方法

Info

Publication number: CN112269396B
Application number: CN202011099773.1A
Authority: CN
Inventors: 段海滨; 于月平; 王寅; 邓亦敏; 王道波; 柏婷婷; 魏晨
Original assignee: Nanjing Shuohang Technology Co ltd; Nanjing University of Aeronautics and Astronautics; Beihang University
Current assignee: Nanjing Shuohang Technology Co ltd; Nanjing University of Aeronautics and Astronautics; Beihang University
Priority date: 2020-10-14
Filing date: 2020-10-14
Publication date: 2021-09-28
Anticipated expiration: 2040-10-14
Also published as: CN112269396A

Abstract

本发明是一种仿鹰鸽智能博弈的无人机集群协同对抗控制方法，包括以下实施步骤：步骤一：初始化战场环境设置；步骤二：无人机集群对抗运动控制；步骤三：基于鹰鸽智能博弈的攻防策略设计；步骤四：基于鹰鸽智能博弈的红蓝双方支付矩阵求解；步骤五：基于鹰鸽智能博弈的红蓝双方混合策略求解；步骤六：输出红蓝双方对抗结果。本发明面向复杂作战环境下的大规模无人机集群协同作战应用背景，提出了一种结合集群对抗运动控制和攻防策略选择控制的分布式无人机集群协同对抗控制架构，在降低设计成本、提高长时鲁棒对抗能力的基础上，进一步提升无人机集群协同作战效能与自主能力水平。

Description

一种仿鹰鸽智能博弈的无人机集群协同对抗控制方法

技术领域

本发明是一种仿鹰鸽智能博弈的无人机集群协同对抗控制方法，属于无人机自主控制领域。

背景技术

无人机(unmanned aerial vehicle，UAV)作为“平台无人，系统有人”的飞行器，能够代替有人驾驶机执行“枯燥、恶劣、危险、纵深”的作战任务，在任务复杂以及动态不确定环境下，具有显著的优势。但由于单架无人机执行任务和作战能力的局限性,空战对抗中作战效能较低。多架UAV通过局部感知和信息交互，实现机间资源共享和优势互补，可以提高无人机集群的整体作战效能，因此UAV的作战样式正在从单机作战向“集群”作战方向转变。本发明旨在利用无人机集群协同对抗模式克服单架无人机对抗的技术瓶颈，提出一种鲁棒高效的无人机集群协同对抗控制方法，实现无人机集群在未来信息化和网络化的复杂作战环境下的智能攻击和防御。

无人机集群对抗是指一群无人机对另一群无人机进行拦截而形成的空中协作式的缠斗。目前，无人机集群对抗控制方法主要分为两种，一种是根据实时态势评估结果，将多对多的空中对抗转化为一对一的对抗模型，然后进一步分析无人机集群协同空战的机动决策过程。这种方法一般适合于小规模无人机之间的作战，应用于大规模无人机集群的动态对抗时会导致计算量消耗巨大，并且不能实时考虑机间耦合对对抗态势的影响。另一种是引入多Agent理论，将个体无人机视为独立的Agent，并设计相应的行为集和决策方法，以此建立无人机对抗模型，该方法可通过个体间的交互描述无人机集群协同对抗过程，涌现出宏观的集群协同对抗效果,提升大规模无人机集群协同作战效率。

无人机集群协同对抗控制可以分解为集群对抗运动控制和攻防策略选择控制两个子过程。针对集群对抗运动控制，目前研究方法主要有集中式控制和分布式控制两类。集中式控制中常见的方法有虚拟结构法、长-僚机法，其原理是集群中所有无人机的状态信息汇总至集中控制中心统一处理，当集群规模较大时，整个系统的可靠性较低，鲁棒性、灵活性较差。分布式控制中常见的方法有人工势场法、集群控制法和α-β-γ框架法，其原理是每架无人机通过局部的信息交互，进行自主决策，具有较好的灵活性和自组织性。针对对抗双方攻防策略选择控制问题，现在大多数研究考虑的是单方优化的方法，该类方法只考虑自身策略的最优，不对对手的策略进行预测分析，显然这样的控制不具有客观性。此外，自主性较强的无人机集群在对抗过程中理应将对手策略对局势的影响纳入分析，从而在双方博弈过程中形成攻防策略的智能选择，涌现出强大的对抗能力。

鹰鸽博弈研究的是同一物种、种群内部竞争与冲突的策略和均衡问题，博弈中的每个生物都遵循以下两种策略之中的一种：鹰策略代表攻击型，像自然界的鹰一样凶猛，搏斗起来总是全力以赴,孤注一掷,除非身负重伤，否则绝不退却；鸽策略代表防御型，像自然界的鸽子一样温顺，只是以风度高雅的惯常方式进行威胁恫吓，从不伤害其他动物。如果两个鹰策略者相遇，两者之间必然会发生冲突，两者获胜的概率相同，并且冲突会导致双方均受到一定程度的损伤。如果鹰策略者与鸽策略者相遇，鸽策略者会选择退让，鹰策略者获胜，双方均不存在损伤。自然界中的生物通过鹰鸽博弈的方式进行策略交互，不断选择，逐渐实现种群在进化论意义上的稳定。本发明借鉴鹰鸽博弈中攻防策略的智能选择机制，将其映射到无人机集群协同对抗控制中的攻防策略选择控制上，结合无人机集群运动控制，旨在解决无人机集群协同对抗控制问题。

发明内容

本发明的目的是提供一种仿鹰鸽智能博弈的无人机集群协同对抗控制方法，旨在解决无人机集群在双方对抗过程中的集群对抗运动控制和攻防策略选择控制问题，在降低设计成本、符合实际作战场景、提高系统鲁棒性的基础上，进一步提升无人机集群协同作战效能和自主能力水平。

本发明是一种仿鹰鸽智能博弈的无人机集群协同对抗控制方法，具体实现步骤如下：

步骤一：初始化战场环境设置，具体包括：初始化对抗场景；初始化无人机运动控制模型；初始化无人机集群攻防策略选择模型；

步骤二：无人机集群对抗运动控制，具体包括：

S21、选择邻居集合；

S22、和邻居保持速度一致；

S23、机间聚集；

S24、机间避障；

S25、接近敌方；

S26、更新位置和速度；

步骤三：基于鹰鸽智能博弈的攻防策略设计，具体包括：

S31、判断红蓝双方无人机集群之间的距离；

S32、对红蓝双方的无人机进行分组；

S33、确定红蓝双方攻防纯策略集合——鹰策略或鸽策略；

步骤四：基于鹰鸽智能博弈的红蓝双方支付矩阵求解，具体包括：计算红方的损失；计算蓝方的损失；计算红蓝双方鹰、鸽混合策略下的支付矩阵；

步骤五：基于鹰鸽智能博弈的红蓝双方混合策略求解，具体包括：

S51、设计代价函数；

S52、用改进鸽群优化算法求解混合策略；

步骤六：输出红蓝双方对抗结果，具体包括：红蓝双方对抗中运动控制相关仿真结果；红蓝双方对抗中攻防策略选择控制相关仿真结果。

其中，所述步骤S23实现机间聚集的具体过程如下：

当无人机与邻居之间距离较远时，邻居会对无人机产生吸引力，使无人机机朝其邻居运动，无人机所受到邻居引力合力产生的加速度可以表示为：

其中，

表示α方的第i个个体的聚集加速度，k_att表示聚集加速度的控制增益，R_rep表示无人机i周围排斥环的半径，R_att表示无人机i周围吸引环的半径，

表示对α方无人机i产生吸引力的邻居集合，j表示

中的个体，||·||表示对向量取2范数。

其中，所述步骤S24实现机间避障的具体过程如下：

当无人机与邻居之间距离较近时，邻居会对无人机产生排斥力，使无人机背离邻居运动，无人机所受到邻居排斥力的合力产生的加速度可以表示为：

其中，

表示α方的第i个个体的避障加速度，k_rep表示避障加速度的控制增益，

表示对α方无人机i产生吸引力的邻居集合，j表示

中的个体。

其中，所述步骤S25实现接近敌机的具体过程如下：

对于红方无人机而言，当其探测到蓝方无人机集群后，朝着蓝方无人机集群运动并进行拦截，红方无人机受到蓝方无人机集群引力产生的加速度可以表示为：

其中，

表示红方的第i个个体的接近蓝方无人机集群的加速度，k_{b_r}表示接近蓝方无人机集群的加速度的控制增益，

表示蓝方无人机集群中心坐标。

其中，所述步骤S31判断红蓝双方无人机集群之间的距离的具体过程如下：

其中，

表示红方无人机集群中心坐标，dis_{r_b}表示双方集群中心的距离，当dis_{r_b}＜R_opp时，认为对抗双方在速度上均可压制住对方，双方保持相对静止，否则转到步骤二，R_opp表示双方开始进行作战策略对峙的半径。

其中，所述步骤S32对红蓝双方的无人机进行分组的具体过程如下：

设定双方无人机集群均分成num_group个小组，M/num_group∈Z，N/num_group∈Z，Z表示整数集合；计算红方无人机

到蓝方无人机集群中心

的距离，按照从小到大进行排列，分成num_group个小组，前attack_r/num_group个小组为攻击型小组，剩下的defend_r/num_group个小组为防御型小组；计算蓝方无人机

到红方无人机集群中心

的距离，按照从小到大进行排列，分成num_group个小组，前attack_b/num_group个小组为攻击型小组，剩下的defend_b/num_group个小组为防御型小组。

其中，所述步骤S33确定红蓝双方攻防纯策略集合——鹰策略或鸽策略，具体过程如下：

设定α方攻击型无人机小组中，有

个小组采用“鹰策略”攻击敌方攻击型，有

个小组采用“鸽策略”攻击敌方防御型，

所以α方的第j个策略表示为

故α方的策略总数为attack_α/num_group+1个，策略集合

转到步骤四。

其中，所述步骤S51设计代价函数的具体过程如下：

设定α方以概率

选择策略集合s_α中的

则红蓝双方的混合策略集合可以各个纯策略被选择的概率表示，记为Π＝{β^r,β^b}，则红方的期望支付值表示为：

E_r＝β^r·A·(β^b)′

其中，A表示红方支付矩阵，E_r表示红方的期望支付值。

蓝方的期望支付值表示为：

E_b＝β^r·B·(β^b)′

其中，B表示蓝方支付矩阵，E_b表示蓝方的期望支付值。根据纳什均衡理论，并且要保证红方大概率胜利的充分必要条件是：

其中，A_i表示矩阵A的第i个行向量，B_j表示矩阵B的第j个列向量，代价函数可以表述为:

本发明的仿鹰鸽智能博弈的无人机集群协同对抗控制方法，其优点功效在于：一、提供了一种结合集群对抗运动控制和攻防策略选择控制的无人机集群协同对抗框架，在降低计算复杂度的同时，提升了任务系统鲁棒性；二、提出了一种集群对抗运动控制方法，支持红蓝双方在对抗过程中的自由运动，具有一定环境适应性；三、提出了一种基于鹰鸽博弈的攻防策略选择控制方法，通过改进鸽群优化算法对混合策略进行求解，符合实际作战要求，可支持无人机集群连续长时间对抗。

附图说明

图1无人机集群协同对抗场景示意图

图2仿鹰鸽智能博弈的无人机集群协同对抗控制方法流程图

图3红蓝双方对抗运动轨迹图

图4红蓝双方对抗运动终止时刻无人机集群位置分布图

图5a、b对抗运动过程红方无人机x、y轴方向速度变化曲线图

图6a、b对抗运动过程蓝方无人机x、y轴方向速度变化曲线图

图7对抗运动过程红、蓝双方无人机序参量变化对比图

图8代价函数变化曲线图

图9红蓝双方混合攻防策略结果展示图

图10红蓝双方混合攻防策略的分布图(情况一)

图11红蓝双方混合攻防策略的分布图(情况二)

具体实施方式

下面通过具体的实例来验证本发明所提无人机集群协同对抗的有效性。在本实例中，给定红、蓝双方无人机集群各有50架，红方基地1个，蓝方对红方基地进行搜索打击，红方为保护基地对蓝方实施拦截，双方进入对抗状态。本实例的仿真环境配置为intel i7-9750处理器，2.60GHz主频，8G内存，软件为MATLAB 2019b版本。

仿鹰鸽智能博弈的无人机集群协同对抗控制方法，其实现流程如图2所示，该实例的具体实践步骤如下：

步骤一：初始化战场环境设置

(1)初始化对抗场景

设定如图1所示的无人机集群协同对抗场景，作战区域不考虑外界环境(地形、障碍物等)。红蓝作战双方各自拥有一定数量的无人机，红方拥有一个需要无人机集群保护的基地，但基地本身不具备攻击和防御的能力。红蓝双方的无人机集群均由攻击型无人机和防御型无人机组成，且均为同一型号的固定翼无人机。防御型无人机均配备雷达干扰设备，可对敌方通信系统和攻击系统实施干扰。攻击型无人机均配备一定数量的导弹，既可以选择攻击对方的攻击型无人机，直接削弱对方的攻击能力，也可以选择攻击对方的防御型无人机，以消除对方对己方发射的雷达干扰。红蓝双方具备相同的战场态势感知能力，双方均知道彼此的无人机数量以及防御型和攻击型的比例，但不清楚具体的攻击策略。蓝方无人机集群的作战目标是形成一个有序的整体，并朝着红方基地进攻；红方无人机集群的作战目标是发现蓝方无人机集群的进攻，聚集形成一个有序的整体对蓝方无人机集群进行拦截。

在本实施例中，红方基地位于(0,0)m，红方无人机集群的初始位置在红方基地附近随机生成，服从在[0,1000]m上的均匀分布。对于蓝方无人机集群而言，它们在空中搜索红方基地，设定仿真开始时刻，蓝方无人机随机生成初始位置，服从在[4000,5000]m上的均匀分布。设定双方无人机的探测半径R_detect＝5000m，所以在仿真开始时，蓝方无人机集群已经搜索到红方基地，红方无人机集群也已经发现蓝方无人机集群的攻击。红蓝双方的所有无人机上均配有导弹和雷达干扰设备，即每架无人机可以根据战场态势确定自己选择成为攻击型，还是防御型。

(2)初始化无人机运动控制模型

设定红方由M架无人机组成，蓝方由N架无人机组成，无人机的状态包括速度、位置，无人机的运动学模型可以描述为：

其中，α表示对抗方，α＝{r,b}，r表示红方，b表示蓝方，i表示α方的第i架无人机，当α＝r时，i＝1,2…M，当α＝b时，i＝1,2...N。

表示α方的第i架无人机的位置，

表示α方的第i架无人机的速度，

表示α方的第i架无人机的加速度。因为无人机集群协同对抗主要发生在水平面上，所以运动学模型不考虑对高度的控制，设定对抗双方的无人机均处于同一额定高度。

本实施例中，因为在对抗环境中设定双方已经发现了对方的存在，根据双方初始位置的分布，红方的速度随机生成，服从在[50,100]m/s上均匀分布，蓝方的速度随机生成，服从在[-60,-30]m/s上均匀分布，双方无人机x、y轴上的速度限制均为250m/s，仿真间隔Δt＝0.1s。

(3)初始化无人机集群攻防策略选择模型

无人机集群协同对抗中的红蓝双方就是战场博弈中的两个局中人，无人机集群协同对抗可以看成两个局中人同时采取策略进行博弈，无人机集群策略选择模型可以表示为：

Game<UAVs,{s_r,s_b},{f_r,f_b}〉 (2)

其中，UAVs表示博弈双方集合，UAVs＝{r,b}，{s_r,s_b}分别表示红、蓝双方的纯策略集，{f_r,f_b}分别表示红、蓝双方的支付函数，自变量为双方采取的策略集合。

设定红方无人机的组成为M＝attack_r+defend_r，attack_r表示红方攻击型无人机的数量，defend_r表示红方防御型无人机的数量；蓝方无人机的组成为N＝attack_b+defend_b，attack_b表示蓝方攻击型无人机的数量，defend_b表示蓝方防御型无人机的数量。对于防御型无人机而言，其产生的雷达干扰信号对敌方的无人机均能产生影响，不存在策略的选择。对于攻击型无人机而言，可以选择攻击敌方的攻击型无人机或者是防御型无人机，按攻击对象的不同，可以将攻击型无人机所能选择的策略分为“鹰策略”(攻击对象为攻击型)和“鸽策略”(攻击对象为防御型)两种情况，后转步骤二。

本实施例中，设定红方的攻击型无人机数量attack_r为20架，防御型无人机defend_r为30架，蓝方的攻击型无人机数量attack_b为30架，防御型无人机defend_b为20架，后转步骤二。

步骤二：无人机集群对抗运动控制

在集群对抗运动控制中，无人机运动的策略集可以表示为：move_strategy＝{聚集、避障、速度一致、攻击}，对抗双方的无人机均通过和邻居进行信息交互，来决定下一步的运动。

(1)选择邻居集合

红蓝双方均采用基于距离的邻居选择机制，邻居集合表示为：

其中，

表示α方的第i个个体的邻居集合，j表示

中的个体，当α＝r时，i＝1...M，j＝1...M且j≠i，当α＝b时，i＝1...N，j＝1...N且j≠i，R_com表示双方无人机的通信半径。

本实施例中，设定红蓝双方的通信半径R_com为500m，通过式(3)可以求解出任意时刻双方各架无人机的邻居集合

每架无人机和其邻居集合进行交互。

(2)和邻居保持速度一致

红蓝双方均采用速度平均机制来使无人机的速度和所有邻居的平均速度趋于一致，按下式计算相对应的加速度：

其中，

表示α方的第i个个体的速度协同加速度，k_v表示速度协同加速度的控制增益，

表示个体i所有邻居的平均速度，

表示α方的第i个个体的邻居数量，j表示

中的个体。

求解完邻居集合后，双方中的每架无人机采用速度平均机制来使无人机的速度和所有邻居的平均速度趋于一致，按式(4)求解相对应的加速度，设定速度协同加速度的控制增益k_v为1。

(3)机间聚集

当无人机与邻居之间距离较远时，邻居会对无人机产生吸引力，使无人机机朝邻居运动。无人机所受到邻居引力合力产生的加速度可以表示为：

其中，

表示对α方无人机i产生吸引力的邻居集合，j表示

中的个体，||·||表示对向量取2范数。

本实施例中，双方无人机均和自己邻居内的无人机进行位置信息交互，设定双方每架无人机周围的排斥环半径R_rep为200m，无人机周围吸引环的半径R_att为500m。无人机判断自己邻居集合中位于排斥环半径和吸引环半径中间的个体有哪些，这些个体构成集合

对该无人机产生吸引力，吸引力的合力产生的加速度用式(5)计算，设定聚集加速度的控制增益k_att为5。

(4)机间避障

其中，

表示对α方无人机i产生吸引力的邻居集合，j表示

中的个体。

无人机判断自己邻居集合中位于排斥环半径内的个体有哪些，这些个体构成集合

对该无人机产生排斥力，排斥力的合力产生的加速度用式(6)计算，设定聚集加速度的控制增益k_rep为5。

(5)接近敌方

对于蓝方无人机而言，设定其速度方向是朝着红方无人机基地运动的，不需要施加接近敌方的外力，对于红方无人机而言，当其探测到蓝方无人机集群后，朝着蓝方无人机集群运动并进行拦截，红方无人机受到蓝方无人机集群引力产生的加速度可以表示为：

其中，

表示蓝方无人机集群中心坐标。此部分只针对红方无人机，首先对所有蓝方无人机的位置加和求平均，计算出蓝方无人机集群的中心坐标

进而用式(7)计算红方的第i个个体的接近蓝方的加速度

设定接近敌机加速度的控制增益k_{b_r}为10。

(6)更新位置和速度

对于红方无人机集群中的无人机来说，每架无人机所受合外力产生的加速度表示为：

其中，α＝r。对于蓝方无人机集群中的无人机来说，每架无人机所受合外力产生的加速度表示为：

其中，α＝b，本实施例中，按式(8)、(9)得到红蓝双方各自的加速度

然后按式(1)进行位置和速度的更新，后转步骤三。

步骤三：基于鹰鸽智能博弈的攻防策略设计

(1)判断红蓝双方无人机集群之间的距离

其中，

本实施中，首先对所有红方无人机的位置加和求平均，计算出红方无人机集群的中心坐标

然后对所有蓝方无人机的位置加和求平均，计算出蓝方无人机集群的中心坐标

进而求得双方无人机集群中心间的距离dis_{r_b}。设定双方开始对峙的半径R_opp为500m，如果双方集群中心距离小于R_opp，则表示对抗双方在速度上均可压制住对方，双方保持相对静止，否则转到步骤二继续进行对抗运动控制。

(2)对红蓝双方的无人机进行分组

设定双方无人机集群均分成num_group个小组，M/num_group∈Z，N/num_group∈Z，Z表示整数集合。计算红方无人机

到蓝方无人机集群中心

的距离，按照从小到大进行排列，分成num_group个小组，前attack_r/num_group个小组为攻击型小组，剩下的defend_r/num_group个小组为防御型小组。计算蓝方无人机

到红方无人机集群中心

本实施例中，设定双方的无人机集群均分成num_group＝5个作战小组，所以每个作战小组均有10架无人机。按红方无人机集群中设定的攻击型和防御型的无人机数量，红方有2个攻击型小组，3个防御型小组。按蓝方无人机集群中设定的攻击型和防御型的无人机数量，蓝方有3个攻击型小组，2个防御型小组。分组采用距离敌方无人机集群中心坐标的远近进行划分，距离敌方近的无人机构成攻击型小组，剩下的构成防御型小组。

(3)确定红蓝双方攻防纯策略集合——鹰策略或鸽策略

设定α方攻击型无人机小组中，有

个小组采用“鹰策略”攻击敌方攻击型，有

个小组采用“鸽策略”攻击敌方防御型，

所以α方的第j个策略表示为

个攻击型小组攻击攻击型，用

个小组攻击敌方防御型}，故α方的策略总数为attack_α/num_group+1个，

后转步骤四。

本实施例中，因为红方有攻击型小组2个，所以红方采用“鹰策略”攻击敌方攻击型小组的可能情况为

相对应红方采用“鸽策略”攻击敌方防御型小组的可能情况为

红方的攻防策略共计3种情况：

以上α＝r。

对于蓝方而言，有攻击型小组3个，所以蓝方采用“鹰策略”攻击敌方攻击型小组的可能情况为

相对应蓝方采用“鸽策略”攻击敌方防御型小组的可能情况为

蓝方的攻防策略共计4种情况：

以上α＝b。

综上所述，红蓝双方对抗采取攻防纯策略共有3×4＝12种情况，后转步骤四

步骤四：基于鹰鸽智能博弈的红蓝双方支付矩阵求解

(1)计算红方的损失

其中，

表示红方攻击型小组被攻击后的损失，

表示红方防御型小组被攻击后的损失，

表示红方总的损失。p_attack表示双方攻击型小组被攻击的概率，p_defend表示双方防御型小组被攻击的概率，a表示双方攻击型小组被击落后的损失，b表示双方防御型小组被击落后的损失。

本实施例中，针对步骤三中设计的12种双方攻防纯策略，按式(11)计算每种情况下红方被蓝方攻击后的损失

设定攻击型小组被攻击的概率p_attack＝0.6，防御型小组被攻击的概率p_defend＝0.5，攻击型小组被击落后的损失a＝1，防御型小组被击落后的损失b＝1.5。

(2)计算蓝方的损失

其中，

表示蓝方攻击型小组被攻击后的损失，

表示蓝方防御型小组被攻击后的损失，

表示蓝方总的损失。

本实施例中，针对步骤三中设计的12种双方攻防策略，按式(12)计算每种情况下的蓝方被红方攻击后的损失

(3)计算红蓝双方鹰、鸽混合策略下的支付矩阵

其中，

表示红方的收益，定义蓝方的损失为红方的收益；

表示蓝方的收益，定义红方的损失为蓝方的收益。用收益和损失的比值定义本方的支付值，

表示红方采用第i个策略，蓝方采用时第j个策略时红方的支付值，

表示红方采用第i个策略，蓝方采用第j个策略时蓝方的支付值，红方支付矩阵

蓝方的

本实施例中，前两条求出了双方在各种纯策略情况下的损失，定义敌方的损失定义为我方的收益，并用收益和损失的比值定义本方的支付函数，按式(13)可以得到红方的支付矩阵A：

蓝方的支付矩阵B：

矩阵A、B的行表示红方的3种策略，列表示蓝方的4种情况，后转步骤五。

步骤五：基于鹰鸽智能博弈的红蓝双方混合策略求解

(1)设计代价函数

设定α方以概率

选择策略集合s_α中的

E_r＝β^r·A·(β^b)′ (14)

其中，A表示红方支付矩阵，E_r表示红方的期望支付值。

蓝方的期望支付值表示为：

E_b＝β^r·B·(β^b)′ (15)

本实施例中，将步骤四中求得的红蓝双方的支付矩阵A、B代入式(14)、(15)求得在混合策略下，红方的期望支付值和蓝方的期望支付值，然后综合考虑式(16)中纳什均衡解的求解条件，计算出用于双方对抗时混合策略求取的代价函数。

(2)用改进鸽群优化算法求解混合策略

在D维搜索空间随机初始化L只鸽子，第i只鸽子的位置表示为P_i＝[p_i1,p_i2,...p_iD]，速度表示为V_i＝[v_i1,v_i2,...v_iD]，其中i＝1,2,...,L，用鸽子的位置表示要求解代价函数的自变量，即混合策略中各个纯策略被选择的概率。改进鸽群优化算法分成两个独立的环节，首先每只鸽子按照下式更新位置P_i和速度V_i：

其中，k表示当前的迭代次数，P_i ^k表示鸽子i在k时刻的位置，P_i ^k-1表示鸽子i在k-1时刻的位置，V_i ^k表示鸽子i在k时刻的速度，V_i ^k-1表示鸽子i在k-1时刻的速度，R表示地图和指南针因子，P_gbest表示在k-1次迭代循环后通过比较所有鸽子的位置而得到的全局最好的位置，

表示在k-1次迭代循环后通过比较第i只鸽子的位置而得到的个体最好的位置，rand表示0-1之间的均匀随机数，当k＞nc₁，进入下一环节进行更新，nc₁表示第一个环节的最大迭代次数。

其中，

表示在k-1时刻鸽群的中心位置坐标，L^k表示k时刻鸽子的数量，L^k-1表示k-1时刻鸽子的数量，在求解最小化问题时，

ε表示很小的数，当k＞nc₁+nc₂时，结束循环，得到最优解P_gbest，nc₂表示第二个环节的最大迭代次数。

P_gbest即为所求混合策略中各纯策略被选择的概率，将P_gbest代入式(14)、(15)中计算红方、蓝方的期望支付值，如果红方的期望支付值大于蓝方的期望支付值，转到步骤六，否则回到步骤五中的第(2)部分，重新求解。

本实施例中，用鸽子的位置表示要求解代价函数的自变量Π＝{β^r,β^b}，所以搜索空间的维数D＝3+4＝7，设定鸽子数L＝50，鸽子的初始位置P_i随机生成，服从[0,1]之间的正态分布，鸽子的初始速度V_i随机生成，服从[-0.2,0.2]之间的正态分布，将初始位置代入式(17)中可以得到每只鸽子所对应的代价函数，从中选出代价函数值最小的鸽子，作为初始全局最优的解，每只鸽子的初始位置则为它们的初始个体最优位置，然后按式(18)进行每只鸽子位置和速度的更新，然后更新全局最优和个体最优位置，再进行循环迭代，一直到迭代次数到达第一个环节的最大迭代次数，设定第一个环节的最大迭代次数nc₁为40次，地图和指南针因子R＝0.2。

接下来进入改进优化算法的第二个环节，首先按式(19)计算第一环节结束时刻的鸽群的中心坐标，然后更新每只鸽子的位置，在每次循环的最后将鸽子数量减半，即淘汰距离目标点远的鸽子，按上述过程进行迭代，一直到迭代次数到达第二个环节的最大迭代次数，设定第二个环节的最大迭代次数nc₂为10次。结束两次循环后，可以得到代价函数最小的混合策略P_gbest。

将求得的混合策略代入式(14)、(15)，求得该混合策略对应下红方的期望支付值E_r，蓝方的期望支付值E_b，如果红方的期望支付值大于蓝方的期望支付值，转到步骤六，否则回到步骤五中的第(2)部分，重新求解。

步骤六：输出红蓝双方对抗结果

(1)红蓝双方对抗中运动控制相关仿真结果

输出双方无人机集群从初始散乱状态到实现聚集再到形成对峙的运动轨迹，并且输出整个对抗运动过程中双方各自的速度变化曲线。进一步用序参量表示群集运动的一致性，对于红方，序参量

对于蓝方，序参量

φ值越大，表示集群的有序程度越高。

本实施例中，图3至图7给出了红蓝双方对抗中运动控制相关仿真结果，其中图3给出了红蓝双方对抗运动轨迹图，可以看出双方无人机集群在对抗运动过程中，从散乱状态逐渐形成一个有序的整体，朝着敌方运动，并且在双方集群中心距离小于对峙距离时，对抗运动控制停止，双方保持相对静止状态。图4是双方对抗运动终止时刻无人机集群位置分布，可以看出双方形成的有序整体是一个圆形，机间距离均匀稳定，这样的形状可以增强无人机集群的态势感知能力和攻击能力。图5a、b分别表示红方无人机集群x、y轴方向速度变化曲线，可以看出在对抗运动过程中，红方无人机集群可以快速的实现速度一致性。图6a、b分别表示蓝方无人机集群x、y轴方向速度变化曲线，可以看出在对抗运动过程中，蓝方无人机集群可以快速的实现速度一致性。图7以序参量的变化曲线来表示双方在对抗运动过程中运动方向趋于一致的程度，可以看出双方经过短时间相互作用后，运动方向均达成一致。

(2)红蓝双方对抗中攻防策略选择控制相关仿真结果

输出混合策略求解过程中代价函数的变化曲线，观察是否满足求解精度，然后输出混合策略中以较大概率出现的双方攻防策略分布图。

本实施例中，图8至图11给出了红蓝双方对抗中攻防策略选择控制相关仿真结果，图8为在混合策略求解过程中代价函数的变化曲线，为了方便观察下降的程度，对式(17)中计算的代价函数取对数，可以看出代价函数在迭代30次的时候保持不变，值大概在10^-0.5左右，满足精度要求。图9给出了混合策略的求解结果，在混合策略中，红方选择己方策略集合中第2种策略的概率是0.85671，选择第3种策略的概率是0.14329，选择第1种策略的概率是0，蓝方选择己方策略集合中的第1种策略的概率是0.29481，选择第3种策略的概率是0.70519，选择第2种和第四种策略的概率是0。如果红蓝双方进行一次对抗，概率表示的是双方对纯策略的偏好程度，如果红蓝双方进行重复对抗，概率表示双方选择各个纯策略被选择的频率。此外图中给出了双方在该种混合策略下的期望支付值，红方的期望支付值为1.2528，大于蓝方的期望支付值0.84385，表明在实际作战过程中，红方的获胜概率大于蓝方。图10、图11给出了在本次求解的混合策略中，出现次数较高的两种情况，图10表示红方采取第2种策略，蓝方采取第3种策略的双方对抗策略布局图，图11表示红方采取第2种策略，蓝方采取第2种策略的双方对抗策略布局图。