CN110443473B

CN110443473B - 对抗环境下多无人机协同目标分配方法及系统

Info

Publication number: CN110443473B
Application number: CN201910661663.0A
Authority: CN
Inventors: 王国强; 马滢滢; 胡笑旋; 罗贺; 雷星; 马华伟; 夏维; 靳鹏; 张鹏; 李晓多
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2019-07-22
Filing date: 2019-07-22
Publication date: 2021-10-26
Anticipated expiration: 2039-07-22
Also published as: CN110443473A

Abstract

本申请提供一种对抗环境下多无人机协同目标分配方法及系统，其中，基于对抗双方可能的占位策略和目标分配策略，决策己方每个无人机所对抗的目标，建立零和矩阵博弈模型，通过求解模型的混合策略纳什均衡解来解决对抗环境下多无人机协同目标分配问题。进一步地，对零和矩阵博弈模型进行求解时，建立可扩展博弈的博弈矩阵并求解得到当前混合策略纳什均衡，再以变占位迭代搜索的方式，求解博弈双方对对方执行可扩展矩阵博弈均衡解的第三博弈策略和第四博弈策略，并利用迭代的方法确定用于求解的对抗中的某一方确定最有优势的博弈策略的可扩展博弈的博弈矩阵，求解确定的可扩展博弈的博弈矩阵，能够有效降低计算量，提高计算效率。

Description

对抗环境下多无人机协同目标分配方法及系统

技术领域

本发明涉及安保领域，具体涉及一种对抗环境下多无人机协同目标分配方法及系统。

背景技术

无人机能够在多种环境下自主的完成给定任务，有效降低人力成本。相较于有人机，无人机具有无人员伤亡、机动性强、重量较轻、成本较低等特点，已经成为现代空战武器装备的重要成员之一。由于单个无人机所携带武器和传感器数量及性能有限，其执行空战任务的能力受到相应的限制，而多个无人机进行有效协同可以更好的完成空战任务，因此，多无人机超视距协同空战决策技术已受到了越来越多的关注。

针对多无人机超视距协同空战决策问题，目前大多研究的是多无人机协同目标分配问题，类似于多机协同目标分配问题，即在满足约束的前提下，最有效的为每个飞机分配所要对抗的目标。现有技术中，多无人机协同目标分配是在双方无人机位置已知的前提下进行的。双方无人机的位置是影响无人机对目标优势的关键因素，进而会对协同目标分配的效果产生巨大的影响，因此，在协同目标分配之前决策一个有效的无人机占位策略可以进一步提高多无人机协同目标分配取得的期望优势值。但是实际中，对抗双方在决策时无法获得对方的占位策略，双方的决策可视为同时决策，因此，现有技术中无法为对抗中的某一方确定最有优势的目标分配策略。

另外，现有技术中在求解对抗中的某一方的最有优势的博弈策略时，随着无人机数量或占位位置的增加，博弈的策略急剧增加，给求解带来了很大的难度，严重降低了求解效率。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种对抗环境下多无人机协同目标分配方法及系统，解决了现有技术中无法为对抗中的某一方确定最有优势的博弈策略以及在最有优势的博弈策略过程中由于博弈策略数量大带来的求解效率低的技术问题。

(二)技术方案

为实现以上目的，本发明通过以下技术方案予以实现：

第一方面，本申请实施例提供了一种对抗环境下多无人机协同目标分配方法，包括：

获取第一无人机编队与第二无人机编队进行对抗时各自的占位区域；

确定第一无人机编队的多个第一占位策略；确定第二无人机编队的多个第二占位策略；

确定第一无人机编队的多个目标分配策略和第二无人机编队的多个目标分配策略；目标分配策略包括第一无人机编队的每个无人机对抗的第二无人机编队的无人机或第二无人机编队的每个无人机对抗的第一无人机编队的无人机；

基于第一无人机编队的博弈策略集和第二无人机编队的博弈策略集，建立零和矩阵博弈模型；其中，第一无人机编队的博弈策略对与第一占位策略一一对应，第二无人机编队的博弈策略与第二占位策略一一对应；

从第一无人机编队的博弈策略集中选取m个第一博弈策略、第二无人机编队的博弈策略集中选取n个第二博弈策略，得到第k此迭代时的可扩展博弈的博弈策略集，此时k＝0；其中，m和n为正整数；

生成第k次迭代时m行n列的可扩展博弈的博弈矩阵；

对第k次迭代时的可扩展博弈进行求解，得到第k次迭代时的可扩展博弈的混合策略纳什均衡解；所述混合策略纳什均衡解包括第一无人机编队对应的第一均衡混合策略和第二无人机编队对应的第二均衡混合策略；其中，所述第一均衡混合策略包括所述第一无人机编队执行可扩展博弈策略集中的每个第一博弈策略的概率，所述第二均衡混合策略包括所述第二无人机编队执行可扩展博弈策略集中的每个第二博弈策略的概率；

从第一无人机编队对应的第一均衡混合策略中筛选概率最大的第一博弈策略，将其对应的第一占位策略作为第一无人机编队的当前最优策略；并基于第一无人机编队的当前最优策略进行变占位迭代搜索，再基于变占位迭代搜索得到的最优策略，确定第一无人机编队对第二均衡混合策略的第三博弈策略；

从第二无人机编队对应的第二均衡混合策略中筛选概率最大的第二博弈策略，将其对应的第二占位策略作为第二无人机编队的当前最优策略，并基于第二无人机编队的当前最优策略进行变占位迭代搜索，再基于变占位迭代搜索得到的最优策略，确定第二无人机编队对第一均衡混合策略的第四博弈策略；

对第k次迭代时可扩展博弈进行更新，并令k＝k+1；

若第k-1次迭代时第一无人机编队的第三博弈策略或/和第二无人机编队的第四博弈策略不存在于第k-1次迭代时可扩展博弈的策略集中，则，返回所述对第k次迭代时可扩展博弈的博弈矩阵进行求解，得到第k次迭代时可扩展博弈的混合策略纳什均衡解的步骤；

若第k-1次迭代时第一无人机编队的最优策略和第二无人机编队的最优策略均存在于第k-1次迭代时可扩展博弈策略集中，则基于所述第k-1次迭代时的第一均衡混合策略，按照博弈策略的概率从第k-1次迭代时可扩展博弈的多个第一博弈策略中选取第一无人机编队执行的第一博弈策略；

基于第一无人机编队执行的博弈策略，确定对抗环境下第一无人机编队的最优占位策略以及协同目标分配策略。

在一种可能的实施方式中，所述基于第一无人机编队的当前最优策略进行变占位迭代搜索，并基于变占位迭代搜索得到的最优策略，确定第一无人机编队对第二均衡混合策略的第三博弈策略，包括：

基于当前最优策略，生成第一无人机编队的当前邻居占位策略集合；

计算第二无人机编队执行第k次迭代时的第二均衡混合策略，第一无人机编队执行所述邻居占位策略集合中的每一个策略时的支付值，并找到支付值最大的邻居占位策略；

判断支付值最大的邻居占位策略是否是当前最优策略，若不是，则将该邻居占位策略作为新的当前最优策略，并返回所述基于当前最优策略，生成邻居占位策略集合的步骤；若是，则将当前最优策略对应的博弈策略作为第k次迭代时第一无人机编队对第二均衡混合策略的第三博弈策略。

在一种可能的实施方式中，所述基于第二无人机编队的当前最优策略进行变占位迭代搜索，并基于变占位迭代搜索得到的最优策略，确定第二无人机编队对第一均衡混合策略的第四博弈策略，包括：

基于当前最优策略，生成第二无人机编队的当前邻居占位策略集合；

计算第一无人机编队执行第k次迭代时的第二均衡混合策略，第二无人机编队执行所述邻居占位策略集合中的每一个策略时的支付值，并找到支付值最大的邻居占位策略；

判断支付值最大的邻居占位策略是否是当前最优策略，若不是，则将该邻居占位策略作为新的当前最优策略，并返回所述基于当前最优策略，生成邻居占位策略集合的步骤；若是，则将当前最优策略对应的博弈策略作为第k次迭代时第二无人机编队对第一均衡混合策略的第四博弈策略。

在一种可能的实施方式中，所述第一无人机编队的邻居占位策略集合包括第一无人机编队的当前最优策略中有一个无人机从它所占的第一子区域移向其他未被占据的第一子区域生成的新的占位策略，所有生成的新的占位策略以及当前最优策略形成第一无人机编队当前最优策略的邻居占位策略集合。

在一种可能的实施方式中，所述第二无人机编队邻居占位策略集合包括第二无人机编队的当前最优策略中有一个无人机从它所占的第二子区域移向其他未被占据的第二子区域生成的新的占位策略，所有生成的新的占位策略以及当前最优策略形成第二无人机编队当前最优策略的邻居占位策略集合。

第二方面，本申请提供了一种对抗环境下多无人机协同目标分配系统，包括：

矩阵博弈模型建立模块，用于获取第一无人机编队与第二无人机编队进行对抗时各自的占位区域；确定第一无人机编队的多个第一占位策略；确定第二无人机编队的多个第二占位策略；确定第一无人机编队的多个目标分配策略和第二无人机编队的多个目标分配策略；目标分配策略包括第一无人机编队的每个无人机对抗的第二无人机编队的无人机或第二无人机编队的每个无人机对抗的第一无人机编队的无人机；基于第一无人机编队的博弈策略集和第二无人机编队的博弈策略集，建立零和矩阵博弈模型；其中，第一无人机编队的博弈策略对应为一个占位策略，第二无人机编队的博弈策略对应为一个占位策略；

可扩展博弈生成求解模块，用于从第一无人机编队的博弈策略集中选取m个第一博弈策略、第二无人机编队的博弈策略集中选取n个第二博弈策略，得到第k此迭代时的可扩展博弈的博弈策略集，此时k＝0；其中，m和n为正整数；生成第k次迭代时m行n列的可扩展博弈的博弈矩阵；对第k次迭代时的可扩展博弈进行求解，得到第k次迭代时的可扩展博弈的混合策略纳什均衡解；所述混合策略纳什均衡解包括第一无人机编队对应的第一均衡混合策略和第二无人机编队对应的第二均衡混合策略；其中，所述第一均衡混合策略包括所述第一无人机编队执行可扩展博弈策略集中的每个第一博弈策略的概率，所述第二均衡混合策略包括所述第二无人机编队执行可扩展博弈策略集中的每个第二博弈策略的概率；

邻居占位策略集合生成模块，用于用于从第一无人机编队对应的第一均衡混合策略中筛选概率最大的第一博弈策略，将其对应的第一占位策略作为第一无人机编队的当前最优策略；基于当前最优策略，生成第一无人机编队的当前邻居占位策略集合；

从第二无人机编队对应的第二均衡混合策略中筛选概率最大的第二博弈策略，将其对应的第二占位策略作为第二无人机编队的当前最优策略；基于当前最优策略，生成第二无人机编队的当前邻居占位策略集合；

变占位迭代搜索模块，基于第一无人机编队的当前最优策略进行变占位迭代搜索，再基于变占位迭代搜索得到的最优策略，确定第一无人机编队对第二均衡混合策略的第三博弈策略；

基于第二无人机编队的当前最优策略进行变占位迭代搜索，再基于变占位迭代搜索得到的最优策略，确定第二无人机编队对第一均衡混合策略的第四博弈策略；

可扩展博弈更新模块，用于对第k次迭代时可扩展博弈进行更新，并令k＝k+1；若第k-1次迭代时第一无人机编队的第三博弈策略或/和第二无人机编队的第四博弈策略不存在于第k-1次迭代时可扩展博弈的策略集中，则，返回所述对第k次迭代时可扩展博弈的博弈矩阵进行求解，得到第k次迭代时可扩展博弈的混合策略纳什均衡解的步骤；

策略筛选模块，用于若第k-1次迭代时第一无人机编队的最优策略和第二无人机编队的最优策略均存在于第k-1次迭代时可扩展博弈策略集中，则基于所述第k-1次迭代时的第一均衡混合策略，按照博弈策略的概率从第k-1次迭代时可扩展博弈的多个第一博弈策略中选取第一无人机编队执行的第一博弈策略；

目标策略确定模块，用于基于第一无人机编队执行的博弈策略，确定对抗环境下第一无人机编队的最优占位策略以及协同目标分配策略。

在一种可能的实施方式中，所述变占位迭代搜索模块在基于第一无人机编队的当前最优策略进行变占位迭代搜索，并基于变占位迭代搜索得到的最优策略，确定第一无人机编队对第二均衡混合策略的第三博弈策略时，包括：

在一种可能的实施方式中，所述变占位迭代搜索模块在基于第二无人机编队的当前最优策略进行变占位迭代搜索，并基于变占位迭代搜索得到的最优策略，确定第二无人机编队对第一均衡混合策略的第四博弈策略时，包括：

在一种可能的实施方式中，所述第一无人机编队的邻居占位策略集合包括第一无人机编队的当前最优策略中有一个无人机从它所占的第一子区域移向其他未被占据的第一子区域生成的新的占位策略，所有生成的新的占位策略以及当前最优策略形成第一无人机编队当前最优策略的邻居占位策略集合；

所述第二无人机编队邻居占位策略集合包括第二无人机编队的当前最优策略中有一个无人机从它所占的第二子区域移向其他未被占据的第二子区域生成的新的占位策略，所有生成的新的占位策略以及当前最优策略形成第二无人机编队当前最优策略的邻居占位策略集合。

(三)有益效果

本发明实施例提供了一种对抗环境下多无人机协同目标分配方法及系统。具备以下有益效果：

本发明实施例基于对抗双方可能的占位策略和目标分配策略，决策己方每个无人机所对抗的目标，建立零和矩阵博弈模型，通过求解模型的混合策略纳什均衡解来解决对抗环境下多无人机协同目标分配问题。进一步地，对零和矩阵博弈模型进行求解时，建立可扩展博弈的博弈矩阵并求解得到当前混合策略纳什均衡，再以变占位迭代搜索的方式，求解博弈双方对对方执行可扩展矩阵博弈均衡解的第三博弈策略和第四博弈策略，并利用迭代的方法确定用于求解的对抗中的某一方确定最有优势的博弈策略的可扩展博弈的博弈矩阵，求解确定的可扩展博弈的博弈矩阵，能够有效降低计算量，提高计算效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示意性的示出了本申请一实施例的对抗环境下多无人机协同目标分配方法的流程图；

图2示意性的示出了本申请一实施例的对抗环境下多无人机协同目标分配系统的框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请提出了一种对抗环境下多无人机协同目标分配方法及系统，该方法或系统解决了对抗环境下多无人机协同目标分配方法问题，具体地，基于对抗双方可能的占位策略和目标分配策略，决策己方每个无人机所对抗的目标，建立零和矩阵博弈模型，通过求解模型的混合策略纳什均衡解来解决对抗环境下多无人机协同目标分配问题。进一步地，对零和矩阵博弈模型进行求解时，建立可扩展博弈的博弈矩阵并求解得到当前混合策略纳什均衡，再以变占位迭代搜索的方式，求解博弈双方对对方执行可扩展矩阵博弈均衡解的第三博弈策略和第四博弈策略，并利用迭代的方法确定用于求解的对抗中的某一方确定最有优势的博弈策略的可扩展博弈的博弈矩阵，求解确定的可扩展博弈的博弈矩阵，能够有效降低计算量，提高计算效率。

下面，对本申请的对抗环境下多无人机协同目标分配方法进行详细说明。

具体地，如图1所示，对抗环境下多无人机协同目标分配方法包括如下步骤：

S110、确定对抗双方的多个占位策略，具体地：获取第一无人机编队与第二无人机编队进行对抗时各自的占位区域；基于第一无人机编队中的无人机的数量和第一无人机编队的占位区域，确定第一无人机编队的多个第一占位策略；基于第二无人机编队中的无人机的数量和第二无人机编队的占位区域，确定第二无人机编队的多个第二占位策略。

本步骤中，基于第一无人机编队中的无人机的数量和第一无人机编队的占位区域，确定第一无人机编队的多个第一占位策略，具体可以利用如下步骤实现：

步骤一、获取第一无人机编队中的无人机的数量和第一无人机编队的占位区域。

步骤二、将所述第一无人机编队的占位区域分割为多个第一子区域。

步骤三、基于第一无人机编队中的无人机的数量和所述多个第一子区域，确定第一无人机编队的多个第一占位策略；其中所述第一占位策略包括第一无人机编队中的每个无人机所占据的第一子区域。

本步骤中，基于第二无人机编队中的无人机的数量和第二无人机编队的占位区域，确定第二无人机队的多个第二占位策略，具体可以如下步骤实现：

步骤一、获取第二无人机编队中的无人机的数量和第二无人机编队的占位区域。

步骤二、将所述第二无人机编队的占位区域分割为多个第二子区域。

步骤三、基于第二无人机编队中的无人机的数量和所述多个第二子区域，确定第二无人机编队的多个第二占位策略；其中所述第二占位策略包括第二无人机编队中的每个无人机所占据的第二子区域。

第一无人机编队R和第二无人机编队B在一个三维区域

中进行对抗，其中，Ω为一个由三部分组成的立方体区域，R和B分别位于Ω的两侧，

为R的占位区域，

为B的占位区域，

为双方的间隔区域。按空间维度将占位区域离散为大小均匀的立方体。

记R的同质无人机集合为M，B的同质无人机集合为N，Ω_R离散的立方体集合为

Ω_B离散的立方体集合为

R选择C_R、B选择C_B中的一些立方体作为己方无人机的占位位置，即占位策略。用

表示R的占位策略，

其中，当选择立方体

为R无人机的占位位置时，

否则，

决策后，M中的无人机按照其占据的立方体位置从小到大进行排序。同理，我们用

表示B的占位策略，

S120、基于对抗双方的占位策略，确定目标分配策略，建立博弈策略集，并基于每个博弈策略对的支付值，建立零和矩阵博弈，具体地：确定第一无人机编队的多个目标分配策略和第二无人机编队的多个目标分配策略；目标分配策略包括第一无人机编队的每个无人机对抗的第二无人机编队的无人机或第二无人机编队的每个无人机对抗的第一无人机编队的无人机；基于第一无人机编队的博弈策略集和第二无人机编队的博弈策略集，建立零和矩阵博弈模型；其中，第一无人机编队的博弈策略对应为一个占位策略，第二无人机编队的博弈策略对应为一个占位策略。

进一步地，基于第一无人机编队的第一占位策略和第二无人机编队的第二占位策略、第一无人机编队的无人机数量和第二无人机编队的无人机数量，确定第一无人机编队的多个目标分配策略和第二无人机编队的多个目标分配策略；目标分配策略包括第一无人机编队的每个无人机对抗的第二无人机编队的无人机或第二无人机编队的每个无人机对抗的第一无人机编队的无人机；确定每个第一博弈策略对应的第一占位策略，得到第一无人机编队与第二无人机编队对抗时的博弈策略集，确定每个第二博弈策略对应的第二占位策略，得到第二无人机编队与第一无人机编队对抗时博弈策略集；基于第一无人机编队的博弈策略集和第二无人机编队的博弈策略集，确定多个博弈策略对，并将博弈策略对下的第一无人机编队对抗第二无人机编队的最优目标分配策略对应的期望优势值减去第二无人机编队对抗第一无人机编队的最优目标分配策略对应的期望优势值作为该博弈策略对的支付值，将其建模为零和矩阵博弈；其中，博弈策略对包括一个第一博弈策略和一个第二博弈策略。

本步骤中，基于第一无人机编队中占位策略、第二无人机编队的占位策略、第一无人机编队的无人机数量和第二无人机编队的无人机数量，确定第一无人机编队的多个目标分配策略和第二无人机编队的多个目标分配策略，包括：

获取第一无人机编队中的无人机数量和第一无人机编队的第一占位策略、获取第二无人机编队中的无人机数量和第二无人机编队的第二占位策略；

基于第一无人机编队中的无人机数量和第一占位策略、第二无人机编队中的无人机数量和第二占位策略，确定第一无人机编队的多个目标分配策略；其中所述第一无人机编队的目标分配策略包括第一无人机编队中的每个无人机所对抗的第二无人机编队中的无人机；

基于第一无人机编队中的无人机数量和第一占位策略、第二无人机编队中的无人机数量和第二占位策略，确定第二无人机编队的多个目标分配策略；其中所述第二无人机编队的目标分配策略包括第二无人机编队中的每个无人机所对抗的第一无人机编队中的无人机。

S130、筛选对抗的双方的博弈策略，并基于筛选得到的博弈策略，继而生成m行n列的可扩展博弈的博弈矩阵。具体地，从第一无人机编队的博弈策略集中选取m个第一博弈策略、第二无人机编队的博弈策略集中选取n个第二博弈策略，得到第k此迭代时的可扩展博弈的博弈策略集，此时k＝0；其中，m和n为正整数；生成第k次迭代时m行n列的可扩展博弈的博弈矩阵。

进一步地，从第一无人机编队的博弈策略集中选取m个第一博弈策略、第二无人机编队的博弈策略集中选取n个第二博弈策略，得到可扩展博弈的博弈策略集；其中，m和n为正整数；遍历博弈策略集中每个博弈策略对，基于每个博弈策略对、每个博弈策略对下第一无人机编队的目标分配策略集合和每个博弈策略对下第二无人机编队的目标分配策略集合，计算第一无人机编队与第二无人机编队对抗时，第一无人机编队的第三博弈策略以及相应的最大期望优势值和第二无人机编队与第一无人机编队对抗时，第二无人机编队的第四博弈策略以及相应的最大期望优势值，并计算第一无人机编队的支付值，生成m行n列的可扩展博弈的博弈矩阵。

本步骤中，针对任一博弈策略对，可以利用如下步骤确定该博弈策略对下第一无人机编队的最第三博弈策略以及相应的最大期望优势值：

步骤一、建立第一无人机编队的目标分配模型，如公式(1)-(5)：

若

满足

则对于r≠i，a_r,j＝0 (4)

其中，s_R表示第一博弈策略，s_B表示第二博弈策略；R表示第一无人机编队，B表示第二无人机编队；M表示第一无人机编队的无人机集合，i表示M中的第i个无人机，N表示第二无人机编队的无人机集合，j表示N中的第j个无人机；p_i,j ^R表示无人机i相对于无人机j的优势值；

公式(1)表示第一无人机编队目标分配模型的目标函数；公式(2)表示第一无人机编队中的每个无人机i只能对抗第二无人机编队中的一个无人机；公式(3)表示对抗无人机j的第一无人机编队的无人机数量不能大于第一预定数量C_j；公式(4)表示当无人机i相对于无人机j的优势值大于第一预定优势值SF_R时，不再增加分配对抗无人机j的第一无人机编队的无人机；a_i,j为二元决策变量，无人机i对抗无人机j时，a_i,j取值为1，否则取值为0；

步骤二、对第一无人机编队在博弈策略对(s_R,s_B)下的目标分配模型进行求解，得到第一无人机编队在博弈策略对(s_R,s_B)下的第三博弈策略a^*以及相应的期望优势值

本步骤中，针对任一博弈策略对，可以利用如下步骤确定该博弈策略对下第二无人机编队的第四博弈策略以及相应的最大期望优势值：

步骤一、建立第二无人机编队的目标分配模型，如公式(6)-(10)：

若

满足

则对于，r≠j b_r,i＝0 (9)

其中，s_R表示第一博弈策略，s_B表示第二博弈策略；R表示第一无人机编队，B表示第二无人机编队；M表示第一无人机编队的无人机集合，i表示M中的第i个无人机，N表示第二无人机编队的无人机集合，j表示N中的第j个无人机；p_j,i ^B表示无人机j相对于无人机i的优势值；

公式(6)为第二无人机编队目标分配模型的目标函数；公式(7)表示第二无人机编队中的每个无人机j只能对抗第一无人机编队中的一个无人机；公式(8)表示对抗i的第二无人机编队的无人机数量不能大于第二预定数量C_i；公式(9)表示当无人机j相对于无人机i的优势值大于第二预定优势值时，不再增加分配对抗无人机i的第二无人机编队的无人机；b_j,i为二元决策变量，无人机j对抗无人机i时，b_j,i取值为1，否则取值为0。

步骤二、对第二无人机编队在博弈策略对(s_R,s_B)下的目标分配模型进行求解，得到第二无人机编队在博弈策略对(s_R,s_B)下的第四博弈策略以及相应的最大期望优势值，分别记为b^*、

上述步骤中在求解R的多机协同目标分配模型时，需要首先计算i对j的优势值

这里主要考虑超视距空战中影响优势的距离因素和高度因素。

1)距离优势函数

i相对于j的距离优势由如下距离优势函数计算得到：

其中

(x_i,y_i,z_i)、(x_j,y_j,z_j)分别为i与j在占位区域中的三维坐标，r_i,j表示i与j之间的相对距离，

分别表示i所携带的导弹的最小和最大发射距离。

2)高度优势函数

i相对于j的高度优势由如下高度优势函数计算得到：

其中，h_i和h_j为i和j的高度，h_ibest为i的最佳飞行高度。

综合上述两个优势函数得到i相对于j的优势函数为：

其中，w₁+w₂＝1。

由(13)可计算得到M中每个无人机对N中每个无人机的优势值，并根据MR求解得到(s_R,s_B)下R的最大预期优势值

同理可得到

本步骤中，计算可扩展博弈策略集中每个博弈策略对下第一无人机编队的支付值，包括：

在博弈策略对(s_R,s_B)下第一无人机编队的支付值由公式(15)计算可得：

其中，

为第一无人机编队的最大期望优势值，

为第二无人机编队的最大期望优势值，u(s_R,s_B)为该博弈策略对对应的第一无人机编队的支付值；第二无人机编队在(s_R,s_B)下的支付值为_u(s_R,s_B)。

本步骤中，生成可扩展博弈的博弈矩阵，包括：

遍历第k次迭代的可扩展矩阵博弈的所有的博弈策略对，并计算相应的第一无人机编队在每个博弈策略对下的支付值，生成第k次迭代的可扩展博弈的博弈矩阵，如公式(16)所示：

其中，U^k为第k次迭代的可扩展博弈的博弈矩阵，

为第一无人机编队在第k次迭代时可扩展博弈的博弈矩阵的第i个博弈策略，

为第二无人机编队在第k次迭代时可扩展博弈的博弈矩阵的第j个博弈策略，

为第一无人机编队在第k次迭代时可扩展博弈的博弈策略数量，

为第二无人机编队在第k次迭代时可扩展博弈的博弈策略数量。

S140、对第k次迭代时的可扩展博弈进行求解，得到第k次迭代时的可扩展博弈的混合策略纳什均衡解；所述混合策略纳什均衡解包括第一无人机编队对应的第一均衡混合策略和第二无人机编队对应的第二均衡混合策略；其中，所述第一均衡混合策略包括所述第一无人机编队执行可扩展博弈策略集中的每个第一博弈策略的概率，所述第二均衡混合策略包括所述第二无人机编队执行可扩展博弈策略集中的每个第二博弈策略的概率。

本步骤中，基于第k次迭代时可扩展博弈的博弈矩阵，对其进行求解，得到第k次迭代时可扩展博弈的混合策略纳什均衡解，包括：

基于第k次迭代时可扩展博弈的博弈矩阵，从算法库中选择一种纳什均衡的求解算法对其进行求解，得到第k次迭代时可扩展博弈的混合策略纳什均衡解。

S150、利用变占位迭代搜索，确定第一无人机编队的第三博弈策略和第二无人机编队的第四博弈策略，具体地：从第一无人机编队对应的第一均衡混合策略中筛选概率最大的第一博弈策略，将其对应的第一占位策略作为第一无人机编队的当前最优策略；并基于第一无人机编队的当前最优策略进行变占位迭代搜索，再基于变占位迭代搜索得到的最优策略，确定第一无人机编队对第二均衡混合策略的第三博弈策略；从第二无人机编队对应的第二均衡混合策略中筛选概率最大的第二博弈策略，将其对应的第二占位策略作为第二无人机编队的当前最优策略，并基于第二无人机编队的当前最优策略进行变占位迭代搜索，再基于变占位迭代搜索得到的最优策略，确定第二无人机编队对第一均衡混合策略的第四博弈策略；对第k次迭代时可扩展博弈进行更新，并令k＝k+1。

本步骤中，基于第一无人机编队的当前最优策略进行变占位迭代搜索，并基于变占位迭代搜索得到的最优策略，确定第一无人机编队对第二均衡混合策略的第三博弈策略，包括：

本步骤中，所述基于第二无人机编队的当前最优策略进行变占位迭代搜索，并基于变占位迭代搜索得到的最优策略，确定第二无人机编队对第一均衡混合策略的第四博弈策略，包括：

本步骤中，所述第一无人机编队的邻居占位策略集合包括第一无人机编队的当前最优策略中有一个无人机从它所占的第一子区域移向其他未被占据的第一子区域生成的新的占位策略，所有生成的新的占位策略以及当前最优策略形成第一无人机编队当前最优策略的邻居占位策略集合。

本步骤中，所述第二无人机编队邻居占位策略集合包括第二无人机编队的当前最优策略中有一个无人机从它所占的第二子区域移向其他未被占据的第二子区域生成的新的占位策略，所有生成的新的占位策略以及当前最优策略形成第二无人机编队当前最优策略的邻居占位策略集合。

S160、迭代更新求解扩展博弈的博弈矩阵，若第k-1次迭代时第一无人机编队的第三博弈策略或/和第二无人机编队的第四博弈策略不存在于第k-1次迭代时可扩展博弈的策略集中，则，返回所述对第k次迭代时可扩展博弈的博弈矩阵进行求解，得到第k次迭代时可扩展博弈的混合策略纳什均衡解的步骤。

S170、筛选第一无人机编队执行的第一博弈策略，具体地：若第k-1次迭代时第一无人机编队的最优策略和第二无人机编队的最优策略均存在于第k-1次迭代时可扩展博弈策略集中，则基于第k-1次迭代时的所述第一均衡混合策略，按照博弈策略的概率从第k-1次迭代时可扩展博弈的多个第一博弈策略中选取第一无人机编队执行的第一博弈策略。

S180、基于第一无人机编队执行的博弈策略，确定对抗环境下第一无人机编队的最优占位策略以及协同目标分配策略。

上述实施中，对抗环境下多无人机协同目标分配问题被建模为零和矩阵博弈模型，其中，R和B的占位策略作为博弈策略，R的优势与劣势的差值作为博弈策略组合下的效用值。

将上述零和矩阵博弈模型描述为G＝(N,S,U)，具体如下：N＝{R,B}为博弈的参与人；S＝S_R×S_B为紧凑的战略行动空间，其中，S_R、S_B分别为R和B的可行策略集。记

(s_R对应为R在第一阶段决策中的占位策略d_R)，s_R∈S_R为R的一个策略，

(s_B对应为B在第一阶段决策中的占位策略d_B)，s_B∈S_B为B的一个策略，用τ_R、τ_B分别表示R和B所有可能策略的数量，则

其中，τ_R、τ_B分别为从C_R、C_B的立方体集合中选择|M|、|N|个立方体的所有可能情况数量，即

则

为博弈的效用矩阵，其中，u(s_R,s_B)为R在策略对(s_R,s_B)下的效用值，由R与B第二阶段决策优势的差值计算得到，即

和

分别为R和B协同目标分配取得的最大期望优势值。

上述U如公式(17)所示：

其中，U为博弈矩阵，

为第一无人机编队的第i个博弈策略，

为第二无人机编队的第j个博弈策略，τ_R为第一无人机编队的博弈策略数量，τ_B为第二无人机编队的博弈策略数量。

在第0次迭代时，使用均匀分布机制选择博弈双方的纯策略作为可扩展博弈的策略集，即|M|个无人机在g个立方体中选择第

个立方体作为无人机的占位位置。如|M|＝4，g＝8时，其初始占位策略为(0,1,0,1,0,1,0,1)。

在第k次迭代时，使用2-opt生成当前最优策略的邻居占位策略。2-opt变换是指

中有一个无人机从其占据的立方体

移向其他未被无人机占据的立方体

例如，在一个划分成4个立方体的占位区域

中，R方4个无人机的一个占位策略为[0,1,0,1]，即2个无人机分别占据立方体2和4，通过2-opt变换来生成的这个占位策略的邻居策略集合为

其中，每一行代表一个输入策略的邻居策略。

对应于上述方法，本申请还提供了一种对抗环境下多无人机协同目标分配系统，如图2所示，包括：

矩阵博弈模型建立模块210，用于获取第一无人机编队与第二无人机编队进行对抗时各自的占位区域；确定第一无人机编队的多个第一占位策略；确定第二无人机编队的多个第二占位策略；确定第一无人机编队的多个目标分配策略和第二无人机编队的多个目标分配策略；目标分配策略包括第一无人机编队的每个无人机对抗的第二无人机编队的无人机或第二无人机编队的每个无人机对抗的第一无人机编队的无人机；基于第一无人机编队的博弈策略集和第二无人机编队的博弈策略集，建立零和矩阵博弈模型；其中，第一无人机编队的博弈策略对应为一个占位策略，第二无人机编队的博弈策略对应为一个占位策略；

可扩展博弈生成求解模块220，用于从第一无人机编队的博弈策略集中选取m个第一博弈策略、第二无人机编队的博弈策略集中选取n个第二博弈策略，得到第k此迭代时的可扩展博弈的博弈策略集，此时k＝0；其中，m和n为正整数；生成第k次迭代时m行n列的可扩展博弈的博弈矩阵；对第k次迭代时的可扩展博弈进行求解，得到第k次迭代时的可扩展博弈的混合策略纳什均衡解；所述混合策略纳什均衡解包括第一无人机编队对应的第一均衡混合策略和第二无人机编队对应的第二均衡混合策略；其中，所述第一均衡混合策略包括所述第一无人机编队执行可扩展博弈策略集中的每个第一博弈策略的概率，所述第二均衡混合策略包括所述第二无人机编队执行可扩展博弈策略集中的每个第二博弈策略的概率；

邻居占位策略集合生成模块230，用于用于从第一无人机编队对应的第一均衡混合策略中筛选概率最大的第一博弈策略，将其对应的第一占位策略作为第一无人机编队的当前最优策略；基于当前最优策略，生成第一无人机编队的当前邻居占位策略集合；

变占位迭代搜索模块240，基于第一无人机编队的当前最优策略进行变占位迭代搜索，再基于变占位迭代搜索得到的最优策略，确定第一无人机编队对第二均衡混合策略的第三博弈策略；

可扩展博弈更新模块250，用于对第k次迭代时可扩展博弈进行更新，并令k＝k+1；若第k-1次迭代时第一无人机编队的第三博弈策略或/和第二无人机编队的第四博弈策略不存在于第k-1次迭代时可扩展博弈的策略集中，则，返回所述对第k次迭代时可扩展博弈的博弈矩阵进行求解，得到第k次迭代时可扩展博弈的混合策略纳什均衡解的步骤；

策略筛选模块260，用于若第k-1次迭代时第一无人机编队的最优策略和第二无人机编队的最优策略均存在于第k-1次迭代时可扩展博弈策略集中，则基于所述第k-1次迭代时第一均衡混合策略，按照博弈策略的概率从第k-1次迭代时可扩展博弈的多个第一博弈策略中选取第一无人机编队执行的第一博弈策略；

目标策略确定模块270，用于基于第一无人机编队执行的博弈策略，确定对抗环境下第一无人机编队的最优占位策略以及协同目标分配策略。

在一些实施中，所述变占位迭代搜索模块在基于第一无人机编队的当前最优策略进行变占位迭代搜索，并基于变占位迭代搜索得到的最优策略，确定第一无人机编队对第二均衡混合策略的第三博弈策略时，包括：

在一些实施中，所述变占位迭代搜索模块在基于第二无人机编队的当前最优策略进行变占位迭代搜索，并基于变占位迭代搜索得到的最优策略，确定第二无人机编队对第一均衡混合策略的第四博弈策略时，包括：

在一些实施中，所述第一无人机编队的邻居占位策略集合包括第一无人机编队的当前最优策略中有一个无人机从它所占的第一子区域移向其他未被占据的第一子区域生成的新的占位策略，所有生成的新的占位策略以及当前最优策略形成第一无人机编队当前最优策略的邻居占位策略集合；

本发明实施例的方法中的每个步骤是于本发明实施例的系统在确定最优占位策略以及协同目标分配策略过程中的步骤一一对应的，本发明实施例的系统在确定最优占位策略以及协同目标分配策略过程中每个步骤均包含在本发明实施例的方法中，因此，对于重复的部分，这里不再进行赘述。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种对抗环境下多无人机协同目标分配方法，其特征在于，包括：

基于第一无人机编队的博弈策略集和第二无人机编队的博弈策略集，建立零和矩阵博弈模型；其中，第一无人机编队的博弈策略与第一占位策略一一对应，第二无人机编队的博弈策略与第二占位策略一一对应；

从第一无人机编队的博弈策略集中选取m个第一博弈策略、第二无人机编队的博弈策略集中选取n个第二博弈策略，得到第k次迭代时的可扩展博弈的博弈策略集，此时k=0；其中，m和n为正整数；

生成第k次迭代时m行n列的可扩展博弈的博弈矩阵；

对第k次迭代时可扩展博弈进行更新，并令k=k+1；

若第k-1次迭代时第一无人机编队的第三博弈策略或/和第二无人机编队的第四博弈策略不存在于第k-1次迭代时可扩展博弈的策略集中，则，返回所述对第k次迭代时的可扩展博弈进行求解，得到第k次迭代时可扩展博弈的混合策略纳什均衡解的步骤；

若第k-1次迭代时第一无人机编队的最优策略和第二无人机编队的最优策略均存在于第k-1次迭代时可扩展博弈策略集中，则基于第k-1次迭代时的第一均衡混合策略，按照博弈策略的概率从第k-1次迭代时可扩展博弈的多个第一博弈策略中选取第一无人机编队执行的第一博弈策略；

2.根据权利要求1所述的方法，其特征在于，所述基于第一无人机编队的当前最优策略进行变占位迭代搜索，再基于变占位迭代搜索得到的最优策略，确定第一无人机编队对第二均衡混合策略的第三博弈策略，包括：

判断支付值最大的邻居占位策略是否是当前最优策略，若不是，则将该邻居占位策略作为新的当前最优策略，并返回所述基于当前最优策略，生成第一无人机编队的当前邻居占位策略集合的步骤；若是，则将当前最优策略对应的博弈策略作为第k次迭代时第一无人机编队对第二均衡混合策略的第三博弈策略。

3.根据权利要求1所述的方法，其特征在于，所述基于第二无人机编队的当前最优策略进行变占位迭代搜索，再基于变占位迭代搜索得到的最优策略，确定第二无人机编队对第一均衡混合策略的第四博弈策略，包括：

计算第一无人机编队执行第k次迭代时的第一均衡混合策略，第二无人机编队执行所述邻居占位策略集合中的每一个策略时的支付值，并找到支付值最大的邻居占位策略；

判断支付值最大的邻居占位策略是否是当前最优策略，若不是，则将该邻居占位策略作为新的当前最优策略，并返回所述基于当前最优策略，生成第二无人机编队的当前邻居占位策略集合的步骤；若是，则将当前最优策略对应的博弈策略作为第k次迭代时第二无人机编队对第一均衡混合策略的第四博弈策略。

4.根据权利要求2所述的方法，其特征在于，所述第一无人机编队的当前邻居占位策略集合包括第一无人机编队的当前最优策略中有一个无人机从它所占的第一子区域移向其他未被占据的第一子区域生成的新的占位策略，所有生成的新的占位策略以及当前最优策略形成第一无人机编队当前最优策略的邻居占位策略集合。

5.根据权利要求3所述的方法，其特征在于，所述第二无人机编队的当前邻居占位策略集合包括第二无人机编队的当前最优策略中有一个无人机从它所占的第二子区域移向其他未被占据的第二子区域生成的新的占位策略，所有生成的新的占位策略以及当前最优策略形成第二无人机编队当前最优策略的邻居占位策略集合。

6.一种对抗环境下多无人机协同目标分配系统，其特征在于，包括：

可扩展博弈生成求解模块，用于从第一无人机编队的博弈策略集中选取m个第一博弈策略、第二无人机编队的博弈策略集中选取n个第二博弈策略，得到第k次迭代时的可扩展博弈的博弈策略集，此时k=0；其中，m和n为正整数；生成第k次迭代时m行n列的可扩展博弈的博弈矩阵；对第k次迭代时的可扩展博弈进行求解，得到第k次迭代时的可扩展博弈的混合策略纳什均衡解；所述混合策略纳什均衡解包括第一无人机编队对应的第一均衡混合策略和第二无人机编队对应的第二均衡混合策略；其中，所述第一均衡混合策略包括所述第一无人机编队执行可扩展博弈策略集中的每个第一博弈策略的概率，所述第二均衡混合策略包括所述第二无人机编队执行可扩展博弈策略集中的每个第二博弈策略的概率；

邻居占位策略集合生成模块，用于从第一无人机编队对应的第一均衡混合策略中筛选概率最大的第一博弈策略，将其对应的第一占位策略作为第一无人机编队的当前最优策略；基于当前最优策略，生成第一无人机编队的当前邻居占位策略集合；

可扩展博弈更新模块，用于对第k次迭代时可扩展博弈进行更新，并令k=k+1；若第k-1次迭代时第一无人机编队的第三博弈策略或/和第二无人机编队的第四博弈策略不存在于第k-1次迭代时可扩展博弈的策略集中，则，返回所述对第k次迭代时的可扩展博弈进行求解，得到第k次迭代时可扩展博弈的混合策略纳什均衡解的步骤；

策略筛选模块，用于若第k-1次迭代时第一无人机编队的最优策略和第二无人机编队的最优策略均存在于第k-1次迭代时可扩展博弈策略集中，则基于第k-1次迭代时的第一均衡混合策略，按照博弈策略的概率从第k-1次迭代时可扩展博弈的多个第一博弈策略中选取第一无人机编队执行的第一博弈策略；

7.根据权利要求6所述的系统，其特征在于，所述变占位迭代搜索模块在基于第一无人机编队的当前最优策略进行变占位迭代搜索，再基于变占位迭代搜索得到的最优策略，确定第一无人机编队对第二均衡混合策略的第三博弈策略时，包括：

8.根据权利要求6所述的系统，其特征在于，所述变占位迭代搜索模块在基于第二无人机编队的当前最优策略进行变占位迭代搜索，再基于变占位迭代搜索得到的最优策略，确定第二无人机编队对第一均衡混合策略的第四博弈策略时，包括：

9.根据权利要求6所述的系统，其特征在于，所述第一无人机编队的邻居占位策略集合包括第一无人机编队的当前最优策略中有一个无人机从它所占的第一子区域移向其他未被占据的第一子区域生成的新的占位策略，所有生成的新的占位策略以及当前最优策略形成第一无人机编队当前最优策略的邻居占位策略集合；