CN112742028A

CN112742028A - 一种对抗博弈的编队决策方法、系统、介质及设备

Info

Publication number: CN112742028A
Application number: CN202110089433.9A
Authority: CN
Inventors: 黄健; 高家隆; 张家瑞; 纪广; 韩润海
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2021-01-22
Filing date: 2021-01-22
Publication date: 2021-05-04
Anticipated expiration: 2041-01-22
Also published as: CN112742028B

Abstract

本发明公开了一种对抗博弈的编队决策方法、系统、介质及设备，此方法包括：对全局坐标系下获得的情报依据位置关系进行栅格化处理、对敏感事件进行监测、依据编队的任务范围分发对应其坐标系下的情报信息，并且根据态势图及特殊事件触发因素决策各编队移动的航线及相应任务；接收分发的情报信息，判断是否受领任务；受领任务则判断任务类型是否变更，任务类型变更则调整任务状态及执行方式，并下发任务指令，如果任务类型没有变更，只是更新了本次任务目标，则调整任务目标，并下发任务指令；编队各成员根据任务指令行动，如果没有具体行动则保持在编队中所处位置。本发明具有采用模块化多编队指挥控制、有效降低问题域维度、高效简洁等优点。

Description

一种对抗博弈的编队决策方法、系统、介质及设备

技术领域

本发明主要涉及对抗博弈技术领域，具体涉及一种对抗博弈的编队决策方法、系统、介质及设备。

背景技术

近年来，随着人工智能的再次兴起，越来越多具备感知决策能力的智能体在对抗博弈类问题中表现抢眼，比如已经在国际象棋、围棋还有冷扑中击败人类顶尖高手，在这些智能体竞技水平不断提高的同时，以深度神经网络、深度强化学习为代表的人工智能技术也在不断拓展其涉及的博弈问题边界，并已经从基本的棋牌类博弈问题渐渐转移到更复杂多样的电子竞技游戏中，而这一类新兴的人工智能博弈问题，因其具有决策博弈中可以操控的对象种类繁多，且每个对象种类都有其特定的功能，以及博弈各方所做的决策和控制对博弈结果的非显式影响，所以很难直接从状态获得当前局势的优劣判断等特点，这些特点带来的组合爆炸问题为博弈过程中策略的搜索寻优过程带来了很大的挑战。

大多数商业或学术团队对于这类组合爆炸问题，通常从两个方面入手：一是提升算力，通过大规模并行的运算架构，用产生的海量数据不断训练神经网络来获得更好的博弈表现；二是通过引入假设约束等手段简化模型，从而减少问题域的空间维度，达到降低算力需求的目的。

在解决对抗博弈问题方面，现有的技术方案基本分为以下几类：

一是对抗搜索：现有方法主要是在博弈树中搜索决策双方的均衡解，该类方法假设博弈双方的获胜条件截然相反，也就是一方需要得分越高越好，而另一方则希望得分越低越好。通常的对抗搜索方法有两种：记忆化法和Alpha-Beta剪枝法。此外再补充最近大火的冷扑大师所采用的CounterFactual Regret Minimization(CFR，反事实遗憾最小化)。

记忆化法，思路非常简单，它的大致思路就是，对于当前的某一种状态，在求解后将结果记录下来，下一次再访问到时直接将存下来的结果返回即可。

Alpha-Beta剪枝法，α-β剪枝的名称来自计算过程中传递的两个边界，这些边界基于已经看到的搜索树部分来限制可能的解决方案集。其中，α表示目前所有可能解中的最大下界，β表示目前所有可能解中的最小上界。因此，如果搜索树上的一个节点被考虑作为最优解的路上的节点(或者说是这个节点被认为是有必要进行搜索的节点)，那么它一定满足以下条件(N是当前节点的估价值)：α≤N≤β，在进行求解的过程中，α和β会逐渐逼近。如果对于某一个节点，出现了α>β的情况，那么，说明这个点一定不会产生最优解了，所以，就不再对其进行扩展(也就是不再生成子节点)，这样就完成了对博弈树的剪枝。

CFR方法，CFR是基于非完全信息的博弈的。所谓非完全信息，就是在做决策的时候，有一部分信息是对玩家未知的，比如在德州扑克中，对手手上的牌就是一个未知信息。首先对于一局游戏(如德州)，可以把其转化成是一个树状结构。每一个盘面的状态(包括玩家手上的牌，当前的下注等游戏相关信息)都是树的一个节点。在树的每一个节点上，玩家都可以从一系列的动作中(下注，放弃等)选择一个，然后盘面状态发生转换，从节点A变成节点B。因此每一个当前状态下的可能动作都代表树的一条边。玩家不断的在不同的盘面状态下做决策，使盘面状态发生改变，直到终局(树的叶子节点)。而玩家在当前状态下的决策函数(策略)就是当前状态下所有可能动作的一个概率分布。而每一局游戏，都可以看作是从根节点到叶子节点的一条路径。到叶子节点的时候的最终结果(输或赢了多少钱)就是这局游戏对玩家的效用。在1v1的游戏中，这是一个零和游戏，即是玩家A和玩家B总的效用为0。由于这是一个不完全信息的游戏，因此对于没有上帝视角的玩家而言，一些不同的状态给他带了的信息是一样的。因此从玩家的角度，所有生成同样的信息的状态可以归为一个集合。其任务就是要实现一个合理的搜索方法,可以在不同的盘面状态下，制定出不同的策略(概率分布函数)，从而在终局的时候实现更好的效用。为此CFR的方法是定义了一个Regrets值，其含义是，在当前状态下，选择行为A，而不是行为B，后悔的值是多少。RegretMatching的方法。其本质的思路是，如果在之前的游戏情况中，没有选取某一个行为的后悔值最大，那么在下一次就更偏向于选择该行为。

二是智能体：现有方法主要分为规则智能体和强化学习智能体两大类。

规则智能体是这样一种智能体，给定它所感知到的和它所拥有的先验知识，以一种被期望最大化其性能指标的方式运行。性能指标定义了智能体成功的标准。此类智能体也被称之为理性智能体(Rational Agent)。智能体的合理性是通过其性能指标，其拥有的先验知识，它可以感知的环境及其可以执行的操作来衡量的。通常的类型是由人工智能中的单反射性智能体、基于模型的反射性智能体、基于目标的智能体、基于效用的智能体实现。对于人工智能来说，这些理性智能体还有很多，这只是一个概述。这类理性智能体的设计研究是人工智能的重要组成部分，因为它在各种领域中有着广泛的应用。但是，这些智能体不能独立工作，通常需要人工智能算法来驱动。这些涉及的人工智能算法大多可归类为搜索、规划、规则判断。

强化学习智能体。强化学习(reinforcement learninge人工智能中策略学习的一种)是一种重要的机器学习方法，又称再励学习、评价学习，是从动物学习、参数扰动自适应控制等理论发展而来。所谓强化学习是指从环境状态到动作映射的学习，以使动作从环境中获得的累积奖赏值最大.该方法不同于监督学习技术那样通过正例、反例来告知采取何种行为，而是通过试错来发现最优行为策略。常用的强化学习算法包括TD(TemporalDifference)算法、Q学习算法、Sarsa算法等。

目前最相近的机器学习智能体技术方案有：

1、Alpha-Star：

第一步MDP建模：1、结构化建模动作空间：选择动作类型(攻击，行走，建造)->选择执行单位->选择目标->确定下一次动作执行时间；2、观测空间：所有可见的单位和其属性信息(考虑战争迷雾，不考虑屏幕信息)。

第二步监督学习预训练：1、用人类数据约束探索行为，缩小探索空间，避免产生大量无效的探索/无用的采样；2、利用人类数据构造伪奖赏(pseudo-reward)，引导策略(一定程度地)模仿人类行为，缓解稀疏奖赏的问题，加速策略训练；3、用人类数据约束对抗环境的生成，避免生成与真实情况差异过大的环境/对抗策略，缩小鲁棒训练时所需要的的规模。

第三步强化学习进行后续对抗训练：基于策略种群的训练：Agent对手是一个联邦而不是自己，联邦也可看作是一组对手策略池，这个对手池内的每个对手可能有完全不同的策略(战术)。智能体训练目标是要打败联邦中所有对手，而不是单纯做自博弈打败自己当前的对手；多样性训练：对抗策略的整体目标是使得联邦中的策略有更为鲁棒的特性(即不存在一个可以打败联邦所有策略的策略)，进而使得与联邦对抗的主智能体策略更为鲁棒。

上述技术存在的问题有：

1、问题空间依然非常大。假设不考虑设置下一次动作执行时间，若我方M个单位都有可能在当前决策时刻被选中执行攻击、行走等N类任务，且动作对象的选择也有至多L种可能，则当前决策分支就有N*M*L个，假设总共可以进行的仿真决策深度为D，则可完整的决策树会有(N·M·L)^D种可能的策略序列。

2、联邦学严重依赖于算力堆叠。为了训练AlphaStar，DeepMind调动了的Google的v3云TPU。构建了高度可拓展的分布式训练方式，同时运行16000场比赛及16个智能体任务。每个智能体都具有8个TPU核心的设备进行推理。游戏异步运行在相当于150个28核处理器的可抢占式CPU上。

3、决策指挥任务非常繁琐：由于博弈的智能体需要将控制直达个体，所以往往需要频繁输出控制指令给个体才能达到正常选手微操的效果，这对智能体决策造成非常繁重的指挥控制负担，并且对于本身就稀疏的奖励机制将使训练智能体变得更艰难。

发明内容

本发明要解决的技术问题就在于：针对现有技术存在的问题，本发明提供一种采用模块化多编队指挥控制、有效降低问题域维度、高效简洁的对抗博弈的编队决策方法、系统、介质及设备。

为解决上述技术问题，本发明提出的技术方案为：

一种对抗博弈的编队决策方法，包括步骤：

对全局坐标系下获得的情报依据位置关系进行栅格化处理、对敏感事件进行监测、依据编队的任务范围分发对应其坐标系下的情报信息，并且根据态势图及特殊事件触发因素决策各编队移动的航线及相应任务；

接收分发的情报信息，判断是否受领任务；如果没有受领任务则按照先前明确的航线继续控制编队中心移动，如果受领了任务则判断任务类型是否变更，如果任务类型变更则调整任务状态及执行方式，并下发任务指令，如果任务类型没有变更，只是更新了本次任务目标，则调整任务目标，并下发任务指令；

编队各成员根据任务指令行动，如果没有具体行动则保持在编队中所处位置。

作为上述技术方案的进一步改进：

还包括成员补给调度：明确优先得到补给的编队、加强编队配属而进行成员的调度、对于弹药不足或者续航能力不足的成员个体脱离编队和返航补给的控制。

本发明还公开了一种对抗博弈的编队决策系统，包括

总决策主体，用于对全局坐标系下获得的情报依据位置关系进行栅格化处理、对敏感事件进行监测、依据编队的任务范围分发对应其坐标系下的情报信息，并且根据态势图及特殊事件触发因素决策各编队移动的航线及相应任务；

编队决策主体，用于接收分发的情报信息，判断是否受领任务；如果没有受领任务则按照先前明确的航线继续控制编队中心移动，如果受领了任务则判断任务类型是否变更，如果任务类型变更则调整任务状态及执行方式，并下发任务指令，如果任务类型没有变更，只是更新了本次任务目标，则调整任务目标，并下发任务指令；

编队各成员，用于根据任务指令行动，如果没有具体行动则保持在编队中所处位置。

作为上述技术方案的进一步改进：

所述编队分为：执行与博弈收益直接相关的主要任务编队、与获取环境情报信息有关的情报信息编队、由辅助功能单位组成的辅助编队和专职补给保障编队。

所述编队的数据结构包括编队状态和订阅情报，所述编队状态表征的是编队内成员属性的统计特征，主要包括编队中心当前所处的位置、编队剩余火力、编队当前含有的成员数量、编队当前的任务类型、编队遂行任务的能力向量以及任务的执行情况；所述订阅情报包括编队内部的成员信息、任务区域范围内的友邻信息以及敌情信息，所有位置关系表示为以编队中心建立的局部坐标系中。

编队在执行任务指令的过程中，同时进行编队队形的控制以及目标分配；其中接收到的任务指令由任务类型和任务参数两个维度共同描述而确定；任务类型决定编队队形的构型，任务参数决定目标分配的方式和重点；其中编队的队形控制使用PI控制或者虚拟力方法或输出调节控制，根据任务本身对编队队形的定义以及过程中的队形变化规律，控制编队成员保持在各点位相对稳定运动，同时使用替补方案鲁棒解决成员减员情况；对于编队成员个体，目标分配命令与保持编队队形命令产生冲突时，以目标分配命令优先执行。

还包括成员补给调度模块，用于明确优先得到补给的编队、加强编队配属而进行成员的调度、对于弹药不足或者续航能力不足的成员个体脱离编队和返航补给的控制。

所述总决策主体包括情报处理模块和任务统筹模块，所述情报处理模块用于将可见的敌情和我情分类存储于单位数据库中，在获得单位数据库后，将已知敌我单位信息绘制于栅格态势地图中，并且区分种类相互克制关系，绘制相对应的价值图和威胁图，以及依据探测范围绘制情报范围图；此外，情报处理模块还用于将全局情报根据各编队所处位置及任务空间范围，转换至其所处的中心点坐标系下并分发；所述任务统筹模块用于将决策输出转换为具体对应编队的任务，并且更新该编队的任务和任务参数；同时用于管理各编队决策主体既有航点、任务类型、任务参数、任务状态和任务进度。

本发明进一步公开了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序在被处理器运行时执行如上所述的对抗博弈的编队决策方法的步骤。

本发明还公开了一种计算机设备，包括存储器和处理器，所述存储器上存储有计算机程序，所述计算机程序在被处理器运行时执行如上所述的对抗博弈的编队决策方法的步骤。

与现有技术相比，本发明的优点在于：

(1)形式化状态空间和决策空间。作为决策依据的输入信息高度形式化，由规则的栅格图、固定格式的元素构成的列表构成；作为决策输出，则可以用决策的编队标识、任务类型、任务参数、航点形式化描述。

(2)编队降低了博弈的复杂度。对各编队直接决策，从而降低博弈各方成员对象过多带来的决策复杂度，为规则类智能体或者机器学习型智能体的引入提供便利。

(3)高效简洁的决策实现方式。整体战术的复杂性是通过各模块化编成的编队相互配合实现的，利用编队队形变换和由编队任务控制下的降低维度的(编队的情报是经过筛选的，维度已经降低了)目标分配，实现精细的兵种配合。每一个决策周期，编队总指挥官只选择一个编队对象下达任务，而没有被下达任务的对象将继续执行先前被下达的任务，直至任务达成。

(4)最优结果的可解释性和可操作性强。由于编队总指挥官的决策是时序可列的，直接对应于对各编队的任务规划，具有非常好的可解释性和可操作性。

(5)降低决策的问题空间。通过将众多实体单位按照相近功能进行编队，使直接掌控的单位变成数量相对较少的编队，此外，在编队编排上使单个编队只能执行对应兵种单位所能执行的相对固定的几类战术，从而降低了输入的状态空间和输出和决策空间维度。

附图说明

图1为本发明的博弈智能体的主要构成要素图。

图2为本发明的编队总指挥官的决策控制流程图。

图3为本发明的编队指挥员的控制流程图。

图4为本发明的编队指挥员的数据结构和功能模块图。

图5为本发明的成员补给调度方法流程图。

图6为本发明的编队总指挥官的数据结构和功能模块图。

具体实施方式

以下结合说明书附图和具体实施例对本发明作进一步描述。

本发明的对抗博弈的编队决策方法，包括步骤：

在一具体实施例中，还包括成员补给调度：明确优先得到补给的编队、加强编队配属而进行成员的调度、对于弹药不足或者续航能力不足的成员个体脱离编队和返航补给的控制。

本发明还相应公开了一种对抗博弈的编队决策系统，包括

总决策主体(或称编队总指挥官，下同)，用于对全局坐标系下获得的情报依据位置关系进行栅格化处理、对敏感事件进行监测、依据编队的任务范围分发对应其坐标系下的情报信息，并且根据态势图及特殊事件触发因素决策各编队移动的航线及相应任务；

编队决策主体(或称编队指挥员，下同)，用于接收分发的情报信息，判断是否受领任务；如果没有受领任务则按照先前明确的航线继续控制编队中心移动，如果受领了任务则判断任务类型是否变更，如果任务类型变更则调整任务状态及执行方式，并下发任务指令，如果任务类型没有变更，只是更新了本次任务目标，则调整任务目标，并下发任务指令；

本发明的对抗博弈的编队决策方法及系统，特点是集中决策、分布执行。在常见的非完美信息连续对抗博弈中，允许各阵营决策方通过对所属对象的控制产生复杂的对抗行为，阵营内和不同阵营间众多对象的行为持续相互作用，最终影响博弈的结果，产生不同的收益。

如图1所示，本发明的系统主要由三类要素构成：一是编队总指挥官，也就是在博弈问题中产生决策的人工智能的主体，可以设计为不可摧毁的虚拟智能体，也可以是达到某种程度就会被消灭的智能体实例；二是敌我态势，通过汇总各对象获取的情报以及本身掌握的我方信息得到的己知敌情和我情，可用于获取敌我双方在空间上的分布，以及对态势的分析；三是各编队，各编队的类型与具体的博弈场景有关，通常可以分为执行与博弈收益直接相关的主要任务编队、与获取环境情报信息有关的情报信息编队、由只具备辅助功能单位组成的辅助编队以及专职补给保障的编队，此外各编队也有一个虚拟的编队指挥员，主要根据上级指挥官分配的任务可以对编队内成员产生相应的控制指令。

如图2和图3所示，本发明的决策与控制流程为：编队指挥官处于决策层，各编队指挥员处于控制层，流程遵循的是双OODA循环。编队指挥官决策并明确各编队的任务，各编队指挥员只能执行编队指挥官的决策，并依据设计规则或者策略控制编队各成员执行明确的行动。

编队总指挥官的决策流程如图2所示，主要包括对全局坐标系下获得的情报依据位置关系进行栅格化处理、对敏感事件进行监测、依据编队的任务范围分发对应其坐标系下的情报信息，并且根据态势图及特殊事件触发等因素决策各编队移动的航线及相应任务。

编队指挥员的控制流程如图3所示，主要包括接收编队总指挥官分发的情报信息，判断是否受领任务；如果没有受领任务则按照先前由编队总指挥官明确的航线继续控制编队中心移动，如果受领了任务则判断任务类型是否变更，如果变更则调整任务状态及执行方式，如果任务类型没有变更，但是只是更新了本次任务的目标，则调整后继续执行任务。

编队各成员根据编队指挥员的指令行动，如果没有具体行动则保持在编队中所处位置。

本发明基于编队决策的对抗博弈智能体设计方法和系统样例，针对多对象博弈对抗中的组合爆炸问题，采用模块化多编队决策控制的方法降低博弈策略的维度。

本发明从模块化编队指挥控制的思路出发，提出了一套具备通用功能的编队决策和控制实现方法，该方法不仅能够有效降低博弈策略的问题域维度，避免了该类复杂博弈场景的组合爆炸问题，同时可以为机器学习方法的引入提供基本的输入输出模版，并且最终训练模型的结果有较好的易读性，可以直接解析为博弈运筹规划的过程。

如图4所示，在一具体实施例中，编队的数据结构包含两种：

一是编队状态，表征的是编队内成员属性的统计特征，主要包括编队中心当前所处的位置、编队剩余弹药(或者剩余火力)、编队当前含有的成员数量、编队当前的任务类型、编队遂行任务的能力向量(用向量表征不同类型任务的执行能力)以及任务的执行情况。在该智能体的实现过程中编队中心既可采用一个实体来管理，也可以用虚拟的中心节点对象来管理。

二是由上级编队指挥官分发获得的订阅情报，情报内容主要包括编队内部的成员信息、任务区域范围内的友邻信息以及敌情信息，这些信息与任务的遂行高度相关，所有位置关系表示为以编队中心建立的局部坐标系中(以ρ，θ描述的极坐标，或者是可以描述三维空间关系的柱坐标系)；

在一具体实施例中，本发明的编队总指挥官的规划和编队指挥员的控制的主要功能是根据实际任务需要，使编队各成员处于有利于决策执行的行动点位上，并且可以在保持编队队形的同时遂行具体任务，其具体实现依赖于编队内的功能模块，如图4所示，由编队指挥员的编队任务控制器根据接收到的任务来控制编队成员执行任务，在执行的过程中，同时进行编队队形的控制以及目标分配。

其中接收到的任务由任务类型和任务参数两个维度共同描述而确定，任务类型决定编队队形的构型，任务参数决定目标分配的方式和重点。编队的队形控制使用PI控制(或者虚拟力方法、输出调节控制等)，根据任务本身对编队队形的定义以及过程中的队形变化规律，控制编队成员保持在各点位相对稳定运动，同时使用替补方案鲁棒解决成员减员情况。若对于编队成员个体，目标分配命令与保持编队队形命令产生冲突时，以目标分配命令优先执行。任务的基本类型可以包括：突击、包抄、穿插等。

在一具体实施例中，还包括成员补给调度模块。由于后勤补给问题通常也会出现在较为复杂的对抗博弈场景中，在以编队决策为框架的本发明中，该功能主要用于明确优先得到补给的编队，以及为了加强编队配属而进行成员的调度，此外还包括对于弹药不足或者续航能力不足的成员个体的脱离编队和返航补给的控制。

在一具体实施例中，多编队协同决策与控制的核心是根据对抗博弈的具体需求，以获取最大的博弈收益为目的，协调决策不同编队相应的具体编队任务，并且控制各个编队的移动和位置。

编队总指挥官作为决策者，其主要的模块包括：情报处理模块和任务统筹模块。其中数据结构则包括输入的原生情报数据、所辖各编队及其成员的数据库、几类态势图(威胁、价值、情报)。

如图6所示，情报处理模块是由各类单元观察到的情报进行汇总的抽象模块，该模块会将可见的敌情、我情分类存储于单位数据库中，在获得如图6中表格所示的单位数据库后，情报处理模块还会将已知敌我单位信息绘制于栅格态势地图中，并且区分种类相互克制关系(兵种相克)，绘制相对应的价值图和威胁图，以及依据探测范围绘制的情报范围图。此外，情报处理模块还会将全局情报根据各编队所处位置及任务空间范围，转换至其所处的中心点坐标系下并分发。

如图6所示，任务统筹模块是将编队指挥官的决策输出转换为具体对应编队的任务(如编队移动、穿插、突击、包抄、包围等)，并且更新该编队的任务和任务参数，任务统筹模块管理各编队指挥员的既有航点、任务类型、任务参数、任务状态和任务进度。

本发明进一步公开了一种计算机可读存储介质，其上存储有计算机程序，计算机程序在被处理器运行时执行如上所述的对抗博弈的编队决策方法的步骤。本发明还公开了一种计算机设备，包括存储器和处理器，所述存储器上存储有计算机程序，所述计算机程序在被处理器运行时执行如上所述的对抗博弈的编队决策方法的步骤。本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，计算机程序可存储于一个计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，计算机程序包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。存储器可用于存储计算机程序和/或模块，处理器通过运行或执行存储在存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现各种功能。存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(SecureDigital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其它易失性固态存储器件等。

本发明通过以上的设计，具有以下优点：

以上仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，应视为本发明的保护范围。

Claims

1.一种对抗博弈的编队决策方法，其特征在于，包括步骤：

2.根据权利要求1所述的对抗博弈的编队决策方法，其特征在于，还包括成员补给调度：明确优先得到补给的编队、加强编队配属而进行成员的调度、对于弹药不足或者续航能力不足的成员个体脱离编队和返航补给的控制。

3.一种对抗博弈的编队决策系统，其特征在于，包括

4.根据权利要求3所述的对抗博弈的编队决策系统，其特征在于，所述编队分为：执行与博弈收益直接相关的主要任务编队、与获取环境情报信息有关的情报信息编队、由辅助功能单位组成的辅助编队和专职补给保障编队。

5.根据权利要求4所述的对抗博弈的编队决策系统，其特征在于，所述编队的数据结构包括编队状态和订阅情报，所述编队状态表征的是编队内成员属性的统计特征，主要包括编队中心当前所处的位置、编队剩余火力、编队当前含有的成员数量、编队当前的任务类型、编队遂行任务的能力向量以及任务的执行情况；所述订阅情报包括编队内部的成员信息、任务区域范围内的友邻信息以及敌情信息，所有位置关系表示为以编队中心建立的局部坐标系中。

6.根据权利要求3或4或5所述的对抗博弈的编队决策系统，其特征在于，编队在执行任务指令的过程中，同时进行编队队形的控制以及目标分配；其中接收到的任务指令由任务类型和任务参数两个维度共同描述而确定；任务类型决定编队队形的构型，任务参数决定目标分配的方式和重点；其中编队的队形控制使用PI控制或者虚拟力方法或输出调节控制，根据任务本身对编队队形的定义以及过程中的队形变化规律，控制编队成员保持在各点位相对稳定运动，同时使用替补方案鲁棒解决成员减员情况；对于编队成员个体，目标分配命令与保持编队队形命令产生冲突时，以目标分配命令优先执行。

7.根据权利要求3或4或5所述的对抗博弈的编队决策系统，其特征在于，还包括成员补给调度模块，用于明确优先得到补给的编队、加强编队配属而进行成员的调度、对于弹药不足或者续航能力不足的成员个体脱离编队和返航补给的控制。

8.根据权利要求3或4或5所述的对抗博弈的编队决策系统，其特征在于，所述总决策主体包括情报处理模块和任务统筹模块，所述情报处理模块用于将可见的敌情和我情分类存储于单位数据库中，在获得单位数据库后，将已知敌我单位信息绘制于栅格态势地图中，并且区分种类相互克制关系，绘制相对应的价值图和威胁图，以及依据探测范围绘制情报范围图；此外，情报处理模块还用于将全局情报根据各编队所处位置及任务空间范围，转换至其所处的中心点坐标系下并分发；所述任务统筹模块用于将决策输出转换为具体对应编队的任务，并且更新该编队的任务和任务参数；同时用于管理各编队决策主体既有航点、任务类型、任务参数、任务状态和任务进度。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序在被处理器运行时执行如权利要求1或2所述的对抗博弈的编队决策方法的步骤。

10.一种计算机设备，包括存储器和处理器，所述存储器上存储有计算机程序，其特征在于，所述计算机程序在被处理器运行时执行如权利要求1或2所述的对抗博弈的编队决策方法的步骤。