CN112307613A

CN112307613A - 基于自适应权重的无人机集群空-地对抗博弈仿真方法

Info

Publication number: CN112307613A
Application number: CN202011154243.2A
Authority: CN
Inventors: 王尔申; 宏晨; 郭靖; 佟刚; 郭婧; 肖明明; 房启志; 王传云; 王宝广; 黄煜峰; 曲萍萍; 徐嵩
Original assignee: Shenyang Aerospace University
Current assignee: Shenyang Aerospace University
Priority date: 2020-10-26
Filing date: 2020-10-26
Publication date: 2021-02-02
Anticipated expiration: 2040-10-26
Also published as: CN112307613B

Abstract

本发明提供一种基于自适应权重的无人机集群空‑地对抗博弈仿真方法，涉及无人机群技术领域。该方法首先初始化无人机集群空‑地对抗模型，并依据参与者初始作战态势及博弈决策信息，为每个参与者的作战单位设置具有自适应效果的收益权重系数；再基于参与者的状态和决策信息的自适应权重方法为参与者动态更新收益权重系数，并利用迭代法求出无人机集群与地面防空阵地对抗过程中各作战单位的目标收益；最后得到整个对抗过程中各参与者的总收益，完成对抗博弈过程的仿真模拟。本发明方法基于非完全信息下的动态博弈论，通过引入自适应权重，建立非完全信息条件下的无人机集群对抗动态博弈模型，从而提高了无人机集群作战模型的准确性。

Description

基于自适应权重的无人机集群空-地对抗博弈仿真方法

技术领域

本发明涉及无人机群技术领域，尤其涉及一种基于自适应权重的无人机集群空-地对抗博弈仿真方法。

背景技术

无人机集群通过感知环境，对周围态势进行判断，依据一定的行为规则，采取攻击、避让、分散、集中、协作、援助等有利策略，使得在整体上涌现出集群对抗系统的动态特性。目前，针对无人机集群对抗的仿真模型，常用微分对策，生物智能，非线性状态空间等方法建立对抗模型。而在建立的数学模型中处理动态特性时，模型仿真对抗过程不能准确反映实战过程。因此，如何在不完全信息环境下，有效反映无人机集群对抗过程已成为研究无人机作战的一个重要研究课题。

近年来，非完全信息动态博弈在经济、网络安全以及无人机协同作战等应用领域有很大的发展，针对人类经济活动、人机对抗等非完全信息条件下的动态博弈逐渐成为研究热点。在随着无人机智能化水平的提高和集群控制技术的发展，无人机集群对抗将成为未来无人机空战的关键技术。由于无人机集群对抗的复杂性，简单的仿真模型并不能有效反映出复杂的实战对抗过程。

发明内容

本发明要解决的技术问题是针对上述现有技术的不足，提供一种基于自适应权重的无人机集群空-地对抗博弈仿真方法，实现对无人机集群空-地对抗博弈过程的仿真模拟。

为解决上述技术问题，本发明所采取的技术方案是：基于自适应权重的无人机集群空-地对抗动态博弈仿真方法，包括以下步骤：

步骤1、初始化无人机集群空-地对抗模型，具体为：

设置对抗博弈双方的对抗作战参数，对抗规则及作战约束条件；设置作为对抗博弈参与者的无人机集群与地面防空阵地的策略集合空间；设置对抗博弈双方的博弈收益函数；设置对抗作战的获胜条件；确立无人机集群对抗博弈效果的度量指标；

步骤2、根据无人机集群空-地对抗博弈模型，依据参与者初始作战态势及博弈决策信息，为每个参与者的作战单位设置具有自适应效果的收益权重系数；

步骤3、基于参与者的状态和决策信息的自适应权重方法为参与者动态更新收益权重系数，利用迭代法求出无人机集群与地面防空阵地对抗过程中各作战单位的目标收益，具体方法为：

步骤3.1、设置参与者的状态矩阵

其中，X＝[red,blue]为参与者，red表示地面防空阵地，blue表示无人机集群，N^X为参与者X的单位数量，

表示在k时刻参与者X的第i个作战单位的状态矩阵，

为k时刻参与者X所在位置的二维坐标，P_i ^X(k)为在k时刻参与者X的第i个作战单位的数量，W_i ^X(k)为在k时刻参与者X的第i个作战单位的武器载荷；参与者的作战单位分别为：参与者red＝[RER,RAD]和参与者blue＝[BR,BC]，其中，RER为电子雷达，RAD为防空系统，BR为侦察无人机，BC为战斗无人机；

步骤3.2、设置参与者的控制矩阵

其中，

和

分别是k时刻参与者X在x轴和y轴方向的二维位移变量，

为k时刻参与者X的火力值，

为k时刻参与者X选择攻击目标进行攻击的概率，针对不同策略参与者X有不同的选择概率；

步骤3.3、设置策略空间S(k)＝{s_red,k(p_red,k),s_blue,k(p_blue,k)}，从s_red,k(p_red,k),s_blue,k(p_blue,k)中给出对抗过程中参与者的决策信息；其中，p_red,k,p_blue,k分别为k时刻非完全信息下的参与者red和blue的策略选择概率，s_red,k(p_red,k),s_blue,k(p_blue,k)分别参与者red和blue在k时刻依概率p_red,k,p_blue,k给出的策略集合；

步骤3.4、迭代更新每个参与者的作战单位的收益权重系数

如果k时刻策略S(k)对参与者X有影响，则按如下公式更新收益权重系数

否则，

即保持收益权重系数不变；

其中，

表征参与者双方的收益权重系数，

为参与者blue方的收益权重系数，

为参与者red方的收益权重系数；

分别为以初始状态为基准的归一化的参战数量、武器载荷量，

为指数均衡因子，

为幂均衡因子，

为火力均衡因子；

为

的归一化值，

为参与者blue的第i个作战单位攻击参与者red的第j个作战单位时的命中概率；

根据参与者双方的参战对象不同，参与者blue的命中概率的迭代更新方程如下公式所示：

其中，

为在k+1时刻参与者blue的第i个作战单位攻击red的第j个单位的命中概率，

为参与者blue命中率的衰减函数，

为k时刻电子雷达的火力值；

步骤3.5、根据

保存的收益权重系数信息，利用迭代法求出无人机集群与地面防空阵地对抗过程中各作战单位的目标收益，如下公式所示：

其中，J^blue(k)和J^red(k)分别表示在k时刻参与者blue和red的目标收益，

和

分别为参与者X分别在目标收益J^blue(k)和J^red(k)里的子收益函数，

与

分别表示参与者blue和red的子收益函数系数；

步骤4、根据无人机集群与地面防空阵地对抗过程中各作战单位的目标收益，得到整个对抗过程中各参与者的总收益，完成对抗博弈过程的仿真模拟；

根据无人机集群与地面防空阵地对抗过程中各作战单位的目标收益，得到整个对抗过程中各参与者的总收益如下公式所示：

其中，J^X为整个对抗过程中参与者X的总收益，J^X(k)为k时刻参与者X的目标收益，K是对抗结束的时刻。

采用上述技术方案所产生的有益效果在于：本发明提供的基于自适应权重的无人机集群空-地对抗博弈仿真方法，基于非完全信息下的动态博弈论，通过引入自适应权重，建立非完全信息条件下的无人机集群对抗动态博弈模型，从而提高了无人机集群作战模型的准确性；自适应权重利用了对抗过程中的参与者信息以及动态决策信息进行动态更新的方法，可以使得对抗过程中的收益函数更准确反映整个战场态势，使得仿真对抗更符合实战，从而有效提高仿真模型的准确性和有效性。自适应权重利用了对抗过程中的参与者信息以及动态决策信息进行动态更新的方法，可以使得对抗过程中的收益函数更准确反映整个战场态势，使得仿真对抗更符合实战，从而有效提高仿真模型的准确性和有效性。

附图说明

图1为本发明实施例提供的基于自适应权重的无人机集群空-地对抗动态博弈仿真方法的流程图；

图2为本发明实施例提供的静态权重和自适应权重下无人机集群与地面防空阵地对抗过程中目标收益的变化曲线图，其中，(a)为静态权重下目标收益的变化曲线，(b)为自适应权重下目标收益的变化曲线；

图3为本发明实施例提供的无人机集群与地面防空阵地对抗结束时对抗双方的作战单位数量直方图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

本实施例中，基于自适应权重的无人机集群空-地对抗动态博弈仿真方法，如图1所示，包括以下步骤：

步骤1、初始化无人机集群空-地对抗模型，具体为：

设置对抗博弈双方的对抗作战参数，对抗规则及作战约束条件；设置作为对抗博弈参与者的无人机集群与地面防空阵地的策略集合空间；设置对抗博弈双方的博弈收益函数；设置对抗作战的获胜条件；确立无人机集群对抗博弈效果的度量指标；本实施例设置无人机集群空-地对抗模型中的参与者分别为代表地面防空阵地的红方(red)和代表无人机集群的蓝方(blue)，红方的作战单位为1个单位的电子侦察雷达(RER1)和1个单位的电子干扰雷达(RER2)和2个单位的防空系统(RAD1，RAD2)，蓝方的作战单位为2个单位的侦察无人机(BR1，BR2)和2个单位的战斗无人机(BC1，BC2)。同时，本实施例中，设定对抗博弈双方的博弈收益函数为对抗博弈双方对每个作战单位的收益之和；设置对抗作战的获胜条件为任意一方在对抗过程中的作战单位数量损失超过了既定的阈值；确立无人机集群对抗博弈效果的度量指标，包括：自适应权重下有无电子干扰策略的收益差比。

步骤3.1、设置参与者的状态矩阵

表示在k时刻参与者X的第i个作战单位的状态矩阵，

步骤3.2、设置参与者的控制矩阵

其中，

和

分别是k时刻参与者X在x轴和y轴方向的二维位移变量，

为k时刻参与者X的火力值，

为k时刻参与者X选择攻击目标进行攻击的概率，针对不同策略参与者X有不同的选择概率，本实施例中，参与者red的第i个作战单位选择参与者blue的第j个作战单位进行攻击的概率为

参与者的不同作战单位的攻击目标选择概率，具体如表1所示；

表1参与者的不同作战单位的攻击目标选择概率

表中，RER2＝0表示对蓝方不施加电子干扰，RER2＝1表示施加电子干扰。0.6(0.8)表示不加电子干扰时，战斗无人机BC1选择防空系统RAD1进行攻击的概率为0.6，施加电子干扰时，战斗无人机BC1选择防空系统RAD1进行攻击的概率为0.8；

步骤3.4、迭代更新每个参与者的作战单位的收益权重系数

否则，

即保持收益权重系数不变；

其中，

表征参与者双方的收益权重系数，

为参与者blue方的收益权重系数，

为参与者red方的收益权重系数；

分别为以初始状态(即k＝0时)为基准的归一化的参战数量、武器载荷量，

为指数均衡因子，

为幂均衡因子，

为火力均衡因子；

为

的归一化值，

是参与者blue的第i个作战单位攻击参与者red的第j个作战单位时的命中概率；

收益权重系数

的更新公式中，

作为指数均衡因子是为了均衡指数函数对收益权重的影响，

作为幂均衡因子是为了均衡参战数量和武器载荷量对收益权重的影响，

作为火力均衡因子是为了平衡火力值

对收益权重的影响；

其中，

为参与者blue命中率的衰减函数，

为k时刻电子雷达的火力值；

参与者blue的命中概率的迭代更新方程表示参与者blue的第i个作战单位对参与者red的第j个作战单位的命中率是随着电子雷达的火力值动态衰减；

本实施例中，为无人机集群中两参与者的各作战单位设置的初始收益权重系数如表2所示，两参与者的各作战单位的命中概率如表3所示，参与者蓝方的收益权重系数中各均衡因子如表4所示，参与者红方的收益权重系数中各均衡因子如表5所示；

表2参与者的各作战单位的初始收益权重系数

表3参与者的各作战单位的命中概率

表4参与者蓝方的收益权重系数中各均衡因子

表5参与者红方的收益权重系数中各均衡因子

步骤3.5、根据

和

与

分别表示参与者blue和red的子收益函数系数；

步骤4、根据无人机集群与地面防空阵地对抗过程中作战单位的目标收益，得到整个对抗过程中各参与者的总收益，完成对抗博弈过程的仿真模拟；

本实施例中，设置对抗实验的对抗结束时刻K＝16，对抗开始和结束时参与者的收益如表6所示。

表6参与者的收益

本实施例还给出静态权重和自适应权重下无人机集群与地面防空阵地对抗过程中目标收益的变化曲线图，如图2所示，图中，矩形表示蓝方无人机集群，圆圈表示红方地面部队，三角表示双方的收益和，实心表示有电子干扰EI(Electromagnetic Interference)，空心表示无电子干扰NEI(Non-electromagnetic Interference)。纵坐标为目标收益J，横坐标为对抗时间步k，施加电子干扰EI的对抗区间为[7,15]。图2(a)表示静态权重下无人机集群与地面防空阵地对抗过程中参与者的目标收益变化情况，从图中可以看出，在无电子干扰NEI情况下，红方的目标收益NEI-JR减小，蓝方的目标收益NEI-JB增大，蓝方在对抗中更占优势；在施加电子干扰EI情况下，红方的目标收益EI-JR增大，蓝方的目标收益EI-JB减小，红方在对抗中更占优势。无论有无电子干扰，收益和EI+与NEI+均减小。

图2(b)表示自适应权重下无人机集群与地面防空阵地对抗过程中参与者的目标收益变化情况，从图中可以看出，在无电子干扰NEI情况下，红方的目标收益NEI-JR减小，蓝方的目标收益NEI-JB增大。蓝方在对抗中更占优势；在施加电子干扰EI情况下，红方的目标收益EI-JR增大，蓝方的目标收益EI-JB减小，红方在对抗中更占优势。施加电子干扰EI情况下的收益和EI+增大，无电子干扰NEI情况下收益和NEI+减小。

无人机集群对抗过程是一种高度复杂的非线性动态过程。对比施加电子干扰EI和无电子干扰NEI条件下的目标收益函数，发现静态权重下，无人机集群与地面防空阵地对抗过程中参与者的目标收益随着对抗演化，呈现了单调下降趋势，而自适应权重下，参与者的目标收益随着对抗演化，呈现非单调性。说明静态权重下的目标收益曲线对复杂对抗过程的适应性不足，自适应权重下的目标收益曲线可以更加合理地表征对抗过程，使得改进的目标收益函数具有一定的动态适应性。

本实施例还用静态权重下和动态权重下的博弈收益差之比作为无人机集群对抗博弈的度量指标来评估对抗博弈过程中目标收益的调控效果，如下公式所示：

其中，δ^X(k)为k时刻施加电子干扰策略的收益差值与未施加电子干扰策略的收益差值的比值，

为k时刻静态权重下施加电子干扰策略时参与者的收益，

为k时刻动态权重下施加电子干扰策略时参与者的收益，

为k时刻静态权重和动态权重下施加电子干扰策略时参与者的收益差值；

为k时刻静态权重下未施加电子干扰策略时参与者的收益，

为k时刻动态权重下未施加电子干扰策略时参与者的收益，

为k时刻静态权重和动态权重下未施加电子干扰策略时参与者的收益差值；δ^X(k)的值越大，则施加电子干扰策略时参与者的收益变化越大，说明了自适应权重调控收益函数的能力越强，灵敏度越高。

本实施例中，无人机集群与地面防空阵地对抗结束时，对抗双方的作战单位数量直方图如图3所示，NEI是未施加电子干扰时双方作战单位的剩余数量，EI是施加电子干扰时双方作战单位的剩余数量。本实施例中，双方获胜的条件是可攻击单位总数量的损失超过80％。图3中，在未施加电子干扰NEI情况下，蓝方作战单位BC0+BC1的损失未超过80％，红方作战单位RAD0+RAD1的损失超过80％，因此在未施加电子干扰NEI情况下，蓝方较易获胜；而在施加电子干扰EI情况下，蓝方作战单位BC0+BC1的损失超过80％，而红方作战单位RAD0+RAD1的损失未超过80％，因此在施加电子干扰EI情况下，红方较易获胜。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

Claims

1.一种基于自适应权重的无人机集群空-地对抗动态博弈仿真方法，其特征在于：包括以下步骤：

步骤1、初始化无人机集群空-地对抗模型，具体为：

步骤3、基于参与者的状态和决策信息的自适应权重方法为参与者动态更新收益权重系数，并利用迭代法求出无人机集群与地面防空阵地对抗过程中各作战单位的目标收益；

步骤4、根据无人机集群与地面防空阵地对抗过程中各作战单位的目标收益，得到整个对抗过程中各参与者的总收益，完成对抗博弈过程的仿真模拟。

2.根据权利要求1所述的基于自适应权重的无人机集群空-地对抗动态博弈仿真方法，其特征在于：所述步骤3的具体方法为：

步骤3.1、设置参与者的状态矩阵

表示在k时刻参与者X的第i个作战单位的状态矩阵，

为k时刻参与者X所在位置的二维坐标，P_i ^X(k)为在k时刻参与者X的第i个作战单位的数量，W_i ^X(k)为在k时刻参与者X的第i个作战单位的武器载荷；参与者的作战单位分别为：参与者red＝[RER,RAD]和参与者blue＝[BR,BC]，其中RER为电子雷达，RAD为防空系统，BR为侦察无人机，BC为战斗无人机；

步骤3.2、设置参与者的控制矩阵