CN110442146B

CN110442146B - 无人机编队目标分配与空间占位联合决策方法及系统

Info

Publication number: CN110442146B
Application number: CN201910662544.7A
Authority: CN
Inventors: 胡笑旋; 马滢滢; 罗贺; 王国强; 雷星; 靳鹏; 马华伟; 夏维; 王菊; 李晓多
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2019-07-22
Filing date: 2019-07-22
Publication date: 2022-10-25
Anticipated expiration: 2039-07-22
Also published as: CN110442146A

Abstract

本申请提供了一种无人机编队目标分配与空间占位联合决策方法及系统，其中，建立零和矩阵博弈模型，并通过求解模型的混合策略纳什均衡解来解决多无人机目标分配与空间占位联合决策问题，即为对抗中的某一方确定最有优势的占位策略和目标分配策略。进一步地，使用迭代求解的方法对零和矩阵博弈模型进行求解，首先建立可扩展博弈，求解可扩展博弈得到当前混合策略纳什均衡，求解对抗中某一方最有优势的博弈策略并更新可扩展博弈，再对可扩展博弈进行求解，直到更新后的可扩展博弈与更新前的可扩展博弈相同，该方法能够有效降低计算量，提高计算效率。

Description

无人机编队目标分配与空间占位联合决策方法及系统

技术领域

本申请涉及安保领域，具体涉及一种无人机编队目标分配与空间占位联合决策方法及系统。

背景技术

无人机能够在多种环境下自主的完成给定任务，有效降低人力成本。相较于有人机，无人机具有无人员伤亡、机动性强、重量较轻、成本较低等特点，已经成为现代空战武器装备的重要成员之一。由于单个无人机所携带武器和传感器数量及性能有限，其执行空战任务的能力受到相应的限制，而多个无人机进行有效协同可以更好的完成空战任务，因此，多无人机超视距协同空战决策技术已受到了越来越多的关注。

针对多无人机超视距协同空战决策问题，目前大多研究的是多无人机协同目标分配问题，类似于多机协同目标分配问题，即在满足约束的前提下，最有效的为每个飞机分配所要对抗的目标。现有技术中，多无人机协同目标分配是在双方无人机位置已知的前提下进行的。双方无人机的位置是影响无人机对目标优势的关键因素，进而会对协同目标分配的效果产生巨大的影响，因此，在协同目标分配之前决策一个有效的无人机占位策略可以进一步提高多无人机协同目标分配取得的期望优势值。而现有技术中在目标分配时并没有考虑多无人机的占位。

另外，现有技术中在求解对抗中的某一方的最有优势的博弈策略时，随着无人机数量或占位位置的增加，博弈的策略急剧增加，给求解带来了很大的难度，严重降低了求解效率。

发明内容

(一)解决的技术问题

针对现有技术的不足，本申请提供了一种无人机编队目标分配与空间占位联合决策方法，解决了现有技术中无法为对抗中的某一方确定最有优势的博弈策略以及在最有优势的博弈策略过程中由于博弈策略数量大带来的求解效率低的技术问题。

(二)技术方案

为实现以上目的，本申请通过以下技术方案予以实现：

第一方面，本申请实施例提供了一种无人机编队目标分配与空间占位联合决策方法，包括：

基于第一无人机编队中的无人机数量和第一无人机编队的占位区域，确定第一无人机编队的多个第一占位策略；

基于第二无人机编队中的无人机数量和第二无人机编队的占位区域，确定第二无人机编队的多个第二占位策略；

基于第一无人机编队的第一占位策略和第二无人机编队的第二占位策略、第一无人机编队的无人机数量和第二无人机编队的无人机数量，确定第一无人机编队的多个目标分配策略和第二无人机编队的多个目标分配策略；

将第一无人机编队的每个第一占位策略分别作为一个第一博弈策略，第二无人机编队的每个第二占位策略分别作为一个第二博弈策略，并将博弈策略对下的第一无人机编队的最优目标分配策略对应的期望优势值减去第二无人机编队的最优目标分配策略对应的期望优势值作为该博弈策略对的支付值，将无人机编队目标分配与空间占位联合决策建模为零和矩阵博弈；其中，博弈策略对包括一个第一博弈策略和一个第二博弈策略；

在第零次迭代时，记k＝0，从第一无人机编队的博弈策略集中选取m个第一博弈策略、第二无人机编队的博弈策略集中选取n个第二博弈策略，得到第k次迭代时可扩展博弈的博弈策略集合；其中，m和n为正整数；

遍历第k次迭代时可扩展博弈的博弈策略集合中每个博弈策略对，基于每个博弈策略对、每个博弈策略对下第一无人机编队的目标分配策略集合和每个博弈策略对下第二无人机编队的目标分配策略集合，计算第一无人机编队的最优目标分配策略以及相应的最大期望优势值和第二无人机编队的最优目标分配策略以及相应的最大期望优势值，并计算第一无人机编队的支付值，生成m行n列的第k次迭代时可扩展博弈的博弈矩阵；

对第k次迭代时可扩展博弈的博弈矩阵进行求解，得到第k次迭代时可扩展博弈的混合策略纳什均衡解；所述混合策略纳什均衡解包括第一无人机编队对应的第一均衡混合策略和第二无人机编队对应的第二均衡混合策略；其中，所述第一均衡混合策略包括所述第一无人机编队执行第k次迭代时可扩展博弈的博弈策略集合中的每个第一博弈策略的概率，所述第二均衡混合策略包括所述第二无人机编队执行第k次迭代时可扩展博弈的博弈策略集合中的每个第二博弈策略的概率；

确定第一无人机编队对第k次迭代时第二均衡混合策略的第三博弈策略；确定第二无人机编队对第k次迭代时第一均衡混合策略的第四博弈策略；

判断第一无人机编队的第三博弈策略是否已存在于第k次迭代时可扩展博弈的博弈策略集合中，若不存在，则将第一无人机编队的第三博弈策略添加到第k次迭代时可扩展博弈的博弈策略集合中；

判断第二无人机编队的第四博弈策略是否已存在于第k次迭代时可扩展博弈的博弈策略集合中，若不存在，则将第二无人机编队的第四博弈策略添加到第k次迭代时可扩展博弈的博弈策略集合中；

计算添加到第k次迭代时可扩展博弈的博弈策略集合中的第三博弈策略与其他第二博弈策略对对应的支付值，计算添加到第k次迭代时可扩展博弈集中的第四博弈策略与其他第一博弈策略对对应的支付值，生成第k+1次迭代时的可扩展博弈的博弈矩阵，且k＝k+1；

若第k-1次迭代时第一无人机编队的第三博弈策略或/和第二无人机编队的第四博弈策略不存在于第k-1次迭代时可扩展博弈的策略集中，则，返回所述对第k次迭代时可扩展博弈的博弈矩阵进行求解，得到第k次迭代时可扩展博弈的混合策略纳什均衡解的步骤；

若第k-1次迭代时第一无人机编队的第三博弈策略和第二无人机编队的第四博弈策略均存在于第k-1次迭代时可扩展博弈的博弈策略集合中，则基于所述第k-1次迭代时的第一均衡混合策略，按照博弈策略的概率从第k-1次迭代时可扩展博弈的多个第一博弈策略中选取第一无人机编队执行的第一博弈策略；

基于第一无人机编队执行的博弈策略，确定第一无人机编队目标分配与空间占位联合决策的最优占位策略和最优目标分配策略。

在一种可能的实施方式中，在第零次迭代时，从第一无人机编队的博弈策略集中选取m个第一博弈策略、第二无人机编队的博弈策略集中选取n个第二博弈策略，得到第零次迭代时可扩展博弈的博弈策略集合；其中，m和n为正整数；包括：

使用均匀分布机制选择第一无人机编队的第一博弈策略、第二无人机编队的第二博弈策略作为第零次迭代时可扩展博弈的博弈策略集合。

获取第一无人机编队的无人机数量|M|、第一无人机编队对抗区域的划分的子区域数量g；

第一无人机编队的m个第一博弈策略对应的占位策略按如下方式进行选取：

其中，i∈{1,2,...,m},

为向上取整；

获取第二无人机编队的无人机数量|N|、第二无人机编队对抗区域的划分的子区域数量g；

第二无人机编队的n个第二博弈策略对应的占位策略按如下方式进行选取：

其中，j∈{1,2,...,n}。

在一种可能的实施方式中，基于第k次迭代时可扩展博弈集中的博弈策略对(s_R,s_B)，计算相应的第一无人机编队的支付值，包括：

在博弈策略对(s_R,s_B)下第一无人机编队的支付值由如下公式计算可得：

其中，

为第一无人机编队目标分配的最大期望优势值，

为第二无人机编队目标分配的最大期望优势值，u(s_R,s_B)为该博弈策略对对应的第一无人机编队的支付值；

在一种可能的实施方式中，基于第k次迭代时可扩展博弈的博弈矩阵，对其进行求解，得到第k次迭代时可扩展博弈的混合策略纳什均衡解，包括：

遍历第k次迭代的可扩展博弈的所有的博弈策略对，并基于第一无人机编队和第二无人机编队在每个博弈策略对下的协同目标分配模型，计算相应的第一无人机编队在每个博弈策略对下的支付值，生成第k次迭代的可扩展博弈的博弈矩阵，如公式(4)所示：

其中，U^k为第k次迭代的可扩展博弈的博弈矩阵，

为第一无人机编队在第k次迭代时可扩展博弈的第i个博弈策略，

为第二无人机编队在第k次迭代时可扩展博弈的第j个博弈策略，

为第一无人机编队在第k次迭代时可扩展博弈的博弈策略数量，

为第二无人机编队在第k次迭代时可扩展博弈的博弈策略数量；

基于第k次迭代时可扩展博弈的博弈矩阵，生成第k次迭代时可扩展博弈的线性互补规划模型，并使用线性规划算法对其进行求解，得到第k次迭代时可扩展博弈的混合策略纳什均衡解。

在一种可能的实施方式中，基于第k次迭代时可扩展博弈下第二无人机编队的第二均衡混合策略，得到第一无人机编队的第三博弈策略，包括：

针对矩阵博弈中每个第一博弈策略，基于第k次迭代时可扩展博弈下第二无人机编队的第二均衡混合策略，计算第一无人机编队在所述第一博弈策略下的期望支付值；

使用枚举方法找到在所有的第一博弈策略中使第一无人机编队期望支付值最大第一博弈策略，将该第一博弈策略作为第一无人机编队在第k次迭代时的第三博弈策略。

在一种可能的实施方式中，基于第k次迭代时可扩展博弈下第一无人机编队的第一均衡混合策略，得到第二无人机编队的第四博弈策略，包括：

针对矩阵博弈中每个第二博弈策略，基于第k次迭代时可扩展博弈下第一无人机编队的第一均衡混合策略，计算第二无人机编队在所述第二博弈策略下的期望支付值；

使用枚举方法找到在所有的第二博弈策略中使第二无人机编队期望支付值最大的第二博弈策略，将该第二博弈策略作为第二无人机编队在第k次迭代时的第四博弈策略。

第二方面，本申请实施例提供了一种无人机编队目标分配与空间占位联合决策系统，包括：

矩阵博弈模型建立模块，用于基于第一无人机编队中的无人机数量和第一无人机编队的占位区域，确定第一无人机编队的多个第一占位策略；基于第二无人机编队中的无人机数量和第二无人机编队的占位区域，确定第二无人机编队的多个第二占位策略；用于基于第一无人机编队的第一占位策略和第二无人机编队的第二占位策略、第一无人机编队的无人机数量和第二无人机编队的无人机数量，确定第一无人机编队的多个目标分配策略和第二无人机编队的多个目标分配策略；用于将第一无人机编队的每个第一占位策略分别作为一个第一博弈策略，第二无人机编队的每个第二占位策略分别作为一个第二博弈策略，并将博弈策略对下的第一无人机编队的最优目标分配策略对应的期望优势值减去第二无人机编队的最优目标分配策略对应的期望优势值作为该博弈策略对的支付值，将无人机编队目标分配与空间占位联合决策建模为零和矩阵博弈；其中，博弈策略对包括一个第一博弈策略和一个第二博弈策略；

初始可扩展博弈生成模块，用于在第零次迭代时，记k＝0，从第一无人机编队的博弈策略集中选取m个第一博弈策略、第二无人机编队的博弈策略集中选取n个第二博弈策略，得到第k次迭代时可扩展博弈的博弈策略集合；其中，m和n为正整数；遍历第k次迭代时可扩展博弈的博弈策略集合中每个博弈策略对，基于每个博弈策略对、每个博弈策略对下第一无人机编队的目标分配策略集合和每个博弈策略对下第二无人机编队的目标分配策略集合，计算第一无人机编队的最优目标分配策略以及相应的最大期望优势值和第二无人机编队的最优目标分配策略以及相应的最大期望优势值，并计算第一无人机编队的支付值，生成m行n列的第k次迭代时可扩展博弈的博弈矩阵；

可扩展博弈求解模块，用于对第k次迭代时可扩展博弈的博弈矩阵进行求解，得到第k次迭代时可扩展博弈的混合策略纳什均衡解；所述混合策略纳什均衡解包括第一无人机编队对应的第一均衡混合策略和第二无人机编队对应的第二均衡混合策略；其中，所述第一均衡混合策略包括所述第一无人机编队执行第k次迭代时可扩展博弈的博弈策略集合中的每个第一博弈策略的概率，所述第二均衡混合策略包括所述第二无人机编队执行第k次迭代时可扩展博弈的博弈策略集合中的每个第二博弈策略的概率；

第三博弈策略生成模块，用于定第一无人机编队对第k次迭代时第二均衡混合策略的第三博弈策略；

第四博弈策略生成模块，用于确定第二无人机编队对第k次迭代时第一均衡混合策略的第四博弈策略；

可扩展博弈更新模块，用于判断第一无人机编队的第三博弈策略是否已存在于第k次迭代时可扩展博弈的博弈策略集合中，若不存在，则将第一无人机编队的第三博弈策略添加到第k次迭代时可扩展博弈的博弈策略集合中；判断第二无人机编队的第四博弈策略是否已存在于第k次迭代时可扩展博弈的博弈策略集合中，若不存在，则将第二无人机编队的第四博弈策略添加到第k次迭代时可扩展博弈的博弈策略集合中；

策略筛选模块，用于在第k-1次迭代时第一无人机编队的第三博弈策略和第二无人机编队的第四博弈策略均存在于第k-1次迭代时可扩展博弈的博弈策略集合中时，基于所述第k-1次迭代时的第一均衡混合策略，按照博弈策略的概率从第k-1次迭代时可扩展博弈的多个第一博弈策略中选取第一无人机编队执行的第一博弈策略；

目标策略确定模块，用于基于第一无人机编队执行的博弈策略，确定第一无人机编队目标分配与空间占位联合决策的最优占位策略和最优目标分配策略。

(三)有益效果

本申请实施例提供了一种无人机编队目标分配与空间占位联合决策方法及系统。具备以下有益效果：

本申请实施例中，建立零和矩阵博弈模型，并通过求解模型的混合策略纳什均衡解来解决多无人机目标分配与空间占位联合决策问题，具体地，首先确定对抗双方可能的占位策略，之后基于双方无人机的占位策略决策己方每个无人机所对抗的目标，从而使己方协同目标分配时的期望优势值尽可能的大，期望劣势尽可能的小，即为对抗中的某一方确定最有优势的占位策略和目标分配策略。进一步地，本申请使用迭代求解的方法对零和矩阵博弈模型进行求解，首先建立可扩展博弈，求解可扩展博弈得到当前混合策略纳什均衡，求解对抗中某一方最有优势的博弈策略并更新可扩展博弈，再对可扩展博弈进行求解，直到更新后的可扩展博弈与更新前的可扩展博弈相同，该方法能够有效降低计算量，提高计算效率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示意性的示出了本申请一实施例的无人机编队目标分配与空间占位联合决策方法的流程图；

图2示意性的示出了本申请一实施例的无人机编队目标分配与空间占位联合决策系统的框图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请提出了一种无人机编队目标分配与空间占位联合决策方法及系统，该方法或系统解决了超视距空战中多无人机目标分配与空间占位联合决策问题，具体地，对抗双方首先决策己方每个无人机的占位位置，再基于双方无人机的占位位置决策己方每个无人机对抗的目标，从而使己方占据尽可能大的优势、尽可能小的劣势。本申请通过分析双方无人机所在的位置对双方优势与劣势的影响，将该问题建模为零和矩阵博弈模型。同时，本申请使用迭代求解的方法对零和矩阵博弈模型进行求解，首先建立可扩展博弈，求解可扩展博弈得到当前混合策略纳什均衡，求解对抗中某一方最有优势的博弈策略并更新可扩展博弈，再对可扩展博弈进行求解，直到更新后的可扩展博弈与更新前的可扩展博弈相同，该方法能够有效降低计算量，提高计算效率。

下面，对本申请的无人机编队目标分配与空间占位联合决策方法进行详细说明。

本申请的无人机编队目标分配与空间占位联合决策方法将第一无人机编队和第二无人机编队的目标分配与空间占位联合决策划分为两阶段决策，首先第一无人机编队和第二无人机编队在对抗区域中进行占位决策，再基于双方的占位策略进行目标分配。具体地，如图1所示，无人机编队目标分配与空间占位联合决策方法包括如下步骤：

S110、分别确定两个无人机编队的占位策略，具体地：基于第一无人机编队中的无人机数量和第一无人机编队的占位区域，确定第一无人机编队的多个第一占位策略；基于第二无人机编队中的无人机数量和第二无人机编队的占位区域，确定第二无人机编队的多个第二占位策略。

本步骤中，基于第一无人机编队中的无人机的数量和第一无人机编队的占位区域，确定第一无人机编队的多个第一占位策略，具体可以利用如下步骤实现：

步骤一、获取第一无人机编队中的无人机数量和第一无人机编队的占位区域。

步骤二、将所述第一无人机编队的占位区域分割为多个第一子区域。

步骤三、基于第一无人机编队中的无人机数量和所述多个第一子区域，确定第一无人机编队的多个第一占位策略；其中所述第一占位策略包括第一无人机编队中的每个无人机所占据的第一子区域。

本步骤中，基于第二无人机编队中的无人机数量和第二无人机编队的占位区域，确定第二无人机队的多个第二占位策略，具体可以如下步骤实现：

步骤一、获取第二无人机编队中的无人机数量和第二无人机编队的占位区域。

步骤二、将所述第二无人机编队的占位区域分割为多个第二子区域。

步骤三、基于第二无人机编队中的无人机数量和所述多个第二子区域，确定第二无人机编队的多个第二占位策略；其中所述第二占位策略包括第二无人机编队中的每个无人机所占据的第二子区域。

S120、建模零和矩阵博弈，求解零和矩阵博弈，具体地：基于第一无人机编队的第一占位策略和第二无人机编队的第二占位策略、第一无人机编队的无人机数量和第二无人机编队的无人机数量，确定第一无人机编队的多个目标分配策略和第二无人机编队的多个目标分配策略；将第一无人机编队的每个第一占位策略分别作为一个第一博弈策略，第二无人机编队的每个第二占位策略分别作为一个第二博弈策略，并将博弈策略对下的第一无人机编队的最优目标分配策略对应的期望优势值减去第二无人机编队的最优目标分配策略对应的期望优势值作为该博弈策略对的支付值，将无人机编队目标分配与空间占位联合决策建模为零和矩阵博弈；其中，博弈策略对包括一个第一博弈策略和一个第二博弈策略；

本步骤中，基于第一无人机编队中占位策略、第二无人机编队的占位策略、第一无人机编队的无人机数量和第二无人机编队的无人机数量，确定第一无人机编队的多个目标分配策略和第二无人机编队的多个目标分配策略，包括：

获取第一无人机编队中的无人机数量和第一无人机编队的第一占位策略、获取第二无人机编队中的无人机数量和第二无人机编队的第二占位策略；

基于第一无人机编队中的无人机数量和第一占位策略、第二无人机编队中的无人机数量和第二占位策略，确定第一无人机编队的多个目标分配策略；其中所述第一无人机编队的目标分配策略包括第一无人机编队中的每个无人机所对抗的第二无人机编队中的无人机；

基于第一无人机编队中的无人机数量和第一占位策略、第二无人机编队中的无人机数量和第二占位策略，确定第二无人机编队的多个目标分配策略；其中所述第二无人机编队的目标分配策略包括第二无人机编队中的每个无人机所对抗的第一无人机编队中的无人机。

S130、生成第k次迭代时可扩展博弈的博弈矩阵，具体地：在第零次迭代时，记k＝0，从第一无人机编队的博弈策略集中选取m个第一博弈策略、第二无人机编队的博弈策略集中选取n个第二博弈策略，得到第k次迭代时可扩展博弈的博弈策略集合；其中，m和n为正整数；遍历第k次迭代时可扩展博弈的博弈策略集合中每个博弈策略对，基于每个博弈策略对、每个博弈策略对下第一无人机编队的目标分配策略集合和每个博弈策略对下第二无人机编队的目标分配策略集合，计算第一无人机编队的最优目标分配策略以及相应的最大期望优势值和第二无人机编队的最优目标分配策略以及相应的最大期望优势值，并计算第一无人机编队的支付值，生成m行n列的第k次迭代时可扩展博弈的博弈矩阵；

本步骤中，针对任一博弈策略对，可以利用如下步骤确定该博弈策略对下第一无人机编队的最优目标分配策略以及相应的最大期望优势值：

步骤一、建立第一无人机编队的目标分配模型，如公式(5)-(9)：

其中，s_R表示第一博弈策略，s_B表示第二博弈策略；R表示第一无人机编队，B表示第二无人机编队；M表示第一无人机编队的无人机集合，i表示M中的第i个无人机，N表示第二无人机编队的无人机集合，j表示N中的第j个无人机；p_i,j ^R表示无人机i相对于无人机j的优势值；

公式(5)表示第一无人机编队目标分配模型的目标函数；公式(6)表示第一无人机编队中的每个无人机i只能对抗第二无人机编队中的一个无人机；公式(7)表示对抗无人机j的第一无人机编队的无人机数量不能大于第一预定数量C_j；公式(8)表示当无人机i相对于无人机j的优势值大于第一预定优势值SF_R时，不再增加分配对抗无人机j的第一无人机编队的无人机；a_i,j为二元决策变量，无人机i对抗无人机j时，a_i,j取值为1，否则取值为0；

步骤二、对第一无人机编队在博弈策略对(s_R,s_B)下的目标分配模型进行求解，得到第一无人机编队在博弈策略对(s_R,s_B)下的最优目标分配策略a^*以及相应的期望优势值

本步骤中，针对任一博弈策略对，可以利用如下步骤确定该博弈策略对下第二无人机编队的最优目标分配策略以及相应的最大期望优势值：

步骤一、建立第二无人机编队的目标分配模型，如公式(10)-(14)：

其中，s_R表示第一博弈策略，s_B表示第二博弈策略；R表示第一无人机编队，B表示第二无人机编队；M表示第一无人机编队的无人机集合，i表示M中的第i个无人机，N表示第二无人机编队的无人机集合，j表示N中的第j个无人机；p_j,i ^B表示无人机j相对于无人机i的优势值；

公式(10)为第二无人机编队目标分配模型的目标函数；公式(11)表示第二无人机编队中的每个无人机j只能对抗第一无人机编队中的一个无人机；公式(12)表示对抗i的第二无人机编队的无人机数量不能大于第二预定数量C_i；公式(13)表示当无人机j相对于无人机i的优势值大于第二预定优势值时，不再增加分配对抗无人机i的第二无人机编队的无人机；b_j,i为二元决策变量，无人机j对抗无人机i时，b_j,i取值为1，否则取值为0。

步骤二、对第二无人机编队在博弈策略对(s_R,s_B)下的目标分配模型进行求解，得到第二无人机编队在博弈策略对(s_R,s_B)下的最优目标分配策略以及相应的最大期望优势值，分别记为b^*、

上述步骤中在求解R的多机协同目标分配模型时，需要首先计算i对j的优势值

这里主要考虑超视距空战中影响优势的距离因素和高度因素。

1)距离优势函数

i相对于j的距离优势由如下距离优势函数计算得到：

其中

(x_i,y_i,z_i)、(x_j,y_j,z_j)分别为i与j在占位区域中的三维坐标，r_i,j表示i与j之间的相对距离，r_i ^min、r_i ^max分别表示i所携带的导弹的最小和最大发射距离。

2)高度优势函数

i相对于j的高度优势由如下高度优势函数计算得到：

其中，h_i和h_j为i和j的高度，h_ibest为i的最佳飞行高度。

综合上述两个优势函数得到i相对于j的优势函数为：

其中，w₁+w₂＝1。

由(17)可计算得到M中每个无人机对N中每个无人机的优势值，并根据MR求解得到(s_R,s_B)下R的最大预期优势值

同理可得到

本步骤中，计算可扩展博弈的博弈策略集中每个博弈策略对下第一无人机编队的支付值，包括：

在博弈策略对(s_R,s_B)下第一无人机编队的支付值由公式(3)计算可得：

其中，

为第一无人机编队的最大期望优势值，

为第二无人机编队的最大期望优势值，u(s_R,s_B)为该博弈策略对对应的第一无人机编队的支付值；第二无人机编队在(s_R,s_B)下的支付值为-u(s_R,s_B)。

本步骤中，在第零次迭代时，从第一无人机编队的博弈策略集中选取m个第一博弈策略、第二无人机编队的博弈策略集中选取n个第二博弈策略，得到第零次迭代时可扩展博弈的博弈策略集合；其中，m和n为正整数；包括：

第一博弈策略对应的占位策略按如下方式进行选取：

其中，i∈{1,2,...,m},

为向上取整；

第二博弈策略对应的占位策略按如下方式进行选取：

其中，j∈{1,2,...,n}。

本步骤中，生成m行n列的第k次迭代时可扩展博弈的博弈矩阵，包括：

遍历第k次迭代的可扩展博弈的博弈矩阵的所有的博弈策略对，并计算相应的第一无人机编队在每个博弈策略对下的支付值，生成第k次迭代的可扩展博弈的博弈矩阵，如公式(4)所示：

其中，U^k为第k次迭代的可扩展博弈的博弈矩阵，

为第一无人机编队在第k次迭代时可扩展博弈的博弈矩阵的第i个博弈策略，

为第二无人机编队在第k次迭代时可扩展博弈的博弈矩阵的第j个博弈策略，

为第二无人机编队在第k次迭代时可扩展博弈的博弈策略数量。

S140、对可扩展博弈的博弈矩阵求解，具体地：对第k次迭代时可扩展博弈的博弈矩阵进行求解，得到第k次迭代时可扩展博弈的混合策略纳什均衡解；所述混合策略纳什均衡解包括第一无人机编队对应的第一均衡混合策略和第二无人机编队对应的第二均衡混合策略；其中，所述第一均衡混合策略包括所述第一无人机编队执行第k次迭代时可扩展博弈的博弈策略集合中的每个第一博弈策略的概率，所述第二均衡混合策略包括所述第二无人机编队执行第k次迭代时可扩展博弈的博弈策略集合中的每个第二博弈策略的概率；

本步骤中，基于第k次迭代时可扩展博弈的博弈矩阵，对其进行求解，得到第k次迭代时可扩展博弈的混合策略纳什均衡解，包括：

其中，U^k为第k次迭代的可扩展博弈的博弈矩阵，

S150、确定第三博弈策略和第四博弈策略，具体地：确定第一无人机编队对第k次迭代时第二均衡混合策略的第三博弈策略；确定第二无人机编队对第k次迭代时第一均衡混合策略的第四博弈策略；

本步骤中，基于第k次迭代时可扩展博弈下第二无人机编队的第二均衡混合策略，得到第一无人机编队的第三博弈策略，包括：

本步骤中，基于第k次迭代时可扩展博弈下第一无人机编队的第一均衡混合策略，得到第二无人机编队的第四博弈策略，包括：

S160、从多个第一博弈策略中选取第一无人机编队执行的第一博弈策略，具体地：若第k-1次迭代时第一无人机编队的第三博弈策略和第二无人机编队的第四博弈策略均存在于第k-1次迭代时可扩展博弈的博弈策略集合中，则基于所述第k-1次迭代时的第一均衡混合策略，按照博弈策略的概率从第k-1次迭代时可扩展博弈的多个第一博弈策略中选取第一无人机编队执行的第一博弈策略；

S170、确定优占位策略和最优目标分配策略，具体地：基于第一无人机编队执行的博弈策略，确定第一无人机编队目标分配与空间占位联合决策的最优占位策略和最优目标分配策略。

上述实施中，超视距空战中多无人机协同占位决策问题被建模为零和矩阵博弈模型，其中，R和B的占位策略作为博弈策略，R的优势与劣势的差值作为博弈策略组合下的效用值。

将上述零和矩阵博弈模型描述为G＝(N,S,U)，具体如下：N＝{R,B}为博弈的参与人；S＝S_R×S_B为紧凑的战略行动空间，其中，S_R、S_B分别为R和B的可行策略集。记s_R a d_R(s_R对应为R在第一阶段决策中的占位策略d_R)，s_R∈S_R为R的一个策略，s_B a d_B(s_B对应为B在第一阶段决策中的占位策略d_B)，s_B∈S_B为B的一个策略，用τ_R、τ_B分别表示R和B所有可能策略的数量，则

其中，τ_R、τ_B分别为从C_R、C_B的立方体集合中选择|M|、|N|个立方体的所有可能情况数量，即

则

为博弈的效用矩阵，其中，u(s_R,s_B)为R在策略对(s_R,s_B)下的效用值，由R与B第二阶段决策优势的差值计算得到，即

和

分别为R和B协同目标分配取得的最大期望优势值。

对应于上述方法，本申请还提供了一种无人机编队目标分配与空间占位联合决策系统，如图2所示，包括：

矩阵博弈模型建立模块210，用于基于第一无人机编队中的无人机数量和第一无人机编队的占位区域，确定第一无人机编队的多个第一占位策略；基于第二无人机编队中的无人机数量和第二无人机编队的占位区域，确定第二无人机编队的多个第二占位策略；用于基于第一无人机编队的第一占位策略和第二无人机编队的第二占位策略、第一无人机编队的无人机数量和第二无人机编队的无人机数量，确定第一无人机编队的多个目标分配策略和第二无人机编队的多个目标分配策略；用于将第一无人机编队的每个第一占位策略分别作为一个第一博弈策略，第二无人机编队的每个第二占位策略分别作为一个第二博弈策略，并将博弈策略对下的第一无人机编队的最优目标分配策略对应的期望优势值减去第二无人机编队的最优目标分配策略对应的期望优势值作为该博弈策略对的支付值，将无人机编队目标分配与空间占位联合决策建模为零和矩阵博弈；其中，博弈策略对包括一个第一博弈策略和一个第二博弈策略；

初始可扩展博弈策略生成模块220，用于在第零次迭代时，记k＝0，从第一无人机编队的博弈策略集中选取m个第一博弈策略、第二无人机编队的博弈策略集中选取n个第二博弈策略，得到第k次迭代时可扩展博弈的博弈策略集合；其中，m和n为正整数；遍历第k次迭代时可扩展博弈的博弈策略集合中每个博弈策略对，基于每个博弈策略对、每个博弈策略对下第一无人机编队的目标分配策略集合和每个博弈策略对下第二无人机编队的目标分配策略集合，计算第一无人机编队的最优目标分配策略以及相应的最大期望优势值和第二无人机编队的最优目标分配策略以及相应的最大期望优势值，并计算第一无人机编队的支付值，生成m行n列的第k次迭代时可扩展博弈的博弈矩阵；

可扩展博弈求解模块230，用于对第k次迭代时可扩展博弈的博弈矩阵进行求解，得到第k次迭代时可扩展博弈的混合策略纳什均衡解；所述混合策略纳什均衡解包括第一无人机编队对应的第一均衡混合策略和第二无人机编队对应的第二均衡混合策略；其中，所述第一均衡混合策略包括所述第一无人机编队执行第k次迭代时可扩展博弈的博弈策略集合中的每个第一博弈策略的概率，所述第二均衡混合策略包括所述第二无人机编队执行第k次迭代时可扩展博弈的博弈策略集合中的每个第二博弈策略的概率；

第三博弈策略生成模块240，用于定第一无人机编队对第k次迭代时第二均衡混合策略的第三博弈策略；

第四博弈策略生成模块250，用于确定第二无人机编队对第k次迭代时第一均衡混合策略的第四博弈策略；

可扩展博弈更新模块260，用于判断第一无人机编队的第三博弈策略是否已存在于第k次迭代时可扩展博弈的博弈策略集合中，若不存在，则将第一无人机编队的第三博弈策略添加到第k次迭代时可扩展博弈的博弈策略集合中；

策略筛选模块270，用于在第k-1次迭代时第一无人机编队的第三博弈策略和第二无人机编队的第四博弈策略均存在于第k-1次迭代时可扩展博弈的博弈策略集合中时，基于所述第k-1次迭代时的第一均衡混合策略，按照博弈策略的概率从第k-1次迭代时可扩展博弈的多个第一博弈策略中选取第一无人机编队执行的第一博弈策略；

目标策略确定模块280，用于基于第一无人机编队执行的博弈策略，确定第一无人机编队目标分配与空间占位联合决策的最优占位策略和最优目标分配策略。

本申请实施例的方法中的每个步骤是于本申请实施例的系统在确定最优占位策略和最优目标分配策略过程中的步骤一一对应的，本申请实施例的系统在确定最优占位策略和最优目标分配策略过程中每个步骤均包含在本申请实施例的方法中，因此，对于重复的部分，这里不再进行赘述。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种无人机编队目标分配与空间占位联合决策方法，其特征在于，包括：

遍历第k次迭代时可扩展博弈的博弈策略集合中每个博弈策略对，基于每个博弈策略对、每个博弈策略对下第一无人机编队的目标分配策略集合和第二无人机编队的目标分配策略集合，计算第一无人机编队的最优目标分配策略以及相应的最大期望优势值和第二无人机编队的最优目标分配策略以及相应的最大期望优势值，并计算第一无人机编队的支付值，生成m行n列的第k次迭代时可扩展博弈的博弈矩阵；

2.根据权利要求1所述的方法，其特征在于，在第零次迭代时，从第一无人机编队的博弈策略集中选取m个第一博弈策略、第二无人机编队的博弈策略集中选取n个第二博弈策略，得到第零次迭代时可扩展博弈的博弈策略集合；其中，m和n为正整数；包括：

使用均匀分布机制选择第一无人机编队的第一博弈策略、第二无人机编队的第二博弈策略作为第零次迭代时可扩展博弈的博弈策略集合；