CN112182977B

CN112182977B - 一种无人集群协同博弈对抗的控制方法及系统

Info

Publication number: CN112182977B
Application number: CN202011086644.9A
Authority: CN
Inventors: 包卫东; 朱晓敏; 梁文谦; 王吉; 吴冠霖; 牛莅原; 陈超; 马力; 闫辉; 高雄; 张雄涛
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2020-10-12
Filing date: 2020-10-12
Publication date: 2023-05-16
Anticipated expiration: 2040-10-12
Also published as: CN112182977A

Abstract

本说明书提供一种无人集群协同博弈对抗的控制方法及系统，该方法可以包括：基于预建立的协同博弈对抗的元任务字典，提取无人集群对抗任务的对抗场景，对所述无人集群对抗任务进行协同分解，并执行分解后的对抗任务；当任一所述对抗任务的行动出现偏差时，基于所述对抗任务的实时态势执行信息对所述对抗任务的对抗计划进行调整。本发明能够实现对无人集群各类博弈对抗任务的规范化描述，支撑对抗任务的合理分配以及调整，确保无人平台能够发挥其最大博弈对抗效能；基于行动偏差的临机调整机理，实现无人集群博弈对抗快速、自动、精准分解分配的需求。

Description

一种无人集群协同博弈对抗的控制方法及系统

技术领域

本说明书涉及无人集群技术领域，尤其涉及一种无人集群协同博弈对抗的控制方法及系统。

背景技术

在强博弈对抗的复杂对抗环境下，由于异构无人集群对抗任务在时间、空间、信息和资源上离散分布，而且任务类型复杂多变，因而无人集群协同博弈对抗任务不能有效理解，存在无人集群行为规划效率低、自主决策能力弱等问题。

另一方面，无人集群对抗能力不断增强，执行的对抗任务越来越复杂，但是缺乏针对多无人平台、多目标、多任务类型的集群行为的有效规划和方法。

发明内容

有鉴于此，本发明的目的在于提出一种无人集群协同博弈对抗的控制方法及系统，以解决无人集群协同博弈对抗的行为规划与控制的问题。

基于上述目的，本发明提供了一种无人集群协同博弈对抗的控制方法，包括：

基于预建立的协同博弈对抗的元任务字典，提取无人集群对抗任务的对抗场景，对所述无人集群对抗任务进行协同分解，并执行分解后的对抗任务；

当任一所述对抗任务的行动出现偏差时，基于所述对抗任务的实时态势执行信息对所述对抗任务的对抗计划进行调整。

在一实施例中，所述基于预建立的协同博弈对抗的元任务字典，提取无人集群对抗任务的对抗场景，对所述无人集群对抗任务进行协同分解，并执行分解后的对抗任务，包括：

提取无人集群对抗任务的对抗场景；

将所述对抗场景与对抗任务模板库进行匹配，得到与所述无人集群对抗任务相匹配的标准任务，所述对抗任务模板库基于协同博弈对抗的元任务字典建立；

基于所述标准任务对所述无人集群对抗任务进行协同分解，得到对抗任务清单；

执行所述对抗任务清单中的任务。

在一实施例中，所述方法还包括：

根据联合博弈对抗任务的表达模型，确定协同博弈对抗的标准任务；

基于所述标准任务的任务类型、任务执行影响因素提取所述标准任务的元任务，建立协同博弈对抗的元任务字典。

在一实施例中，所述基于所述对抗任务的实时态势执行信息对所述对抗任务的对抗计划进行调整，包括：

获取正在执行的对抗任务的实时态势执行信息，所述实时态势执行信息包括实时态势信息及任务执行状态；

通过将所述实时态势执行信息与标准对抗任务进行比对，判断是否存在导致所述无人集群对抗任务无法完成的偏差；

在判断为存在所述偏差时，确定偏差类型；

基于确定的所述偏差类型确定偏差要素；

根据所述偏差要素在临机预案库中进行匹配，基于匹配成功的临机预案确定调整后的临机对抗计划；在未匹配成功时，根据所述偏差要素生成调整后的临机对抗计划。

在一实施例中，所述方法还包括：

根据预判断的对手行动方案和对抗经验数据进行对抗训练，确定最优对抗计划。

在一实施例中，所述根据预判断的对手行动方案和对抗经验数据进行对抗训练，确定最优对抗计划，包括：

根据对手行动判断对手行动意图，预判断对手行动方案；

将所述无人集群对抗任务的对抗行为抽象为行动序列的组合，以所述行动序列为研究对象，基于对抗经验数据及所述对手行动方案进行对抗训练，生成行动序列决策树；

基于行动序列决策树确定最优对抗计划。

在一实施例中，所述基于行动序列决策树确定最优对抗计划之后，所述方法还包括：

基于所述最优对抗计划获取对抗状态信息；

基于所述对抗状态信息进行对抗态势推测，得到推测结果；

基于所述推测结果和任务规划结果进行资源合理性评估。

基于上述目的，本发明还提供了一种无人集群协同博弈对抗的控制装置，包括：

分解模块，被配置为基于预建立的协同博弈对抗的元任务字典，提取无人集群对抗任务的对抗场景，对所述无人集群对抗任务进行协同分解，并执行分解后的对抗任务；

调整模块，被配置为当任一所述对抗任务的行动出现偏差时，基于所述对抗任务的实时态势执行信息对所述对抗任务的对抗计划进行调整。

在一实施例中，所述分解模块包括：

提取子模块，被配置为提取无人集群对抗任务的对抗场景；

匹配子模块，被配置为将所述对抗场景与对抗任务模板库进行匹配，得到与所述无人集群对抗任务相匹配的标准任务，所述对抗任务模板库基于协同博弈对抗的元任务字典建立；

分解子模块，被配置为基于所述标准任务对所述无人集群对抗任务进行协同分解，得到对抗任务清单；

执行子模块，被配置为执行所述对抗任务清单中的任务。

在一实施例中，所述分解模块还包括：

第一确定子模块，被配置为根据联合博弈对抗任务的表达模型，确定协同博弈对抗的标准任务；

建立子模块，被配置为基于所述标准任务的任务类型、任务执行影响因素提取所述标准任务的元任务，建立协同博弈对抗的元任务字典。

在一实施例中，所述调整模块包括：

获取子模块，被配置为获取正在执行的对抗任务的实时态势执行信息，所述实时态势执行信息包括实时态势信息及任务执行状态；

判断子模块，被配置为通过将所述实时态势执行信息与标准对抗任务进行比对，判断是否存在导致所述无人集群对抗任务无法完成的偏差；

第二确定子模块，被配置为在判断为存在所述偏差时，确定偏差类型；

第三确定子模块，被配置为基于确定的所述偏差类型确定偏差要素；

第四确定子模块，被配置为根据所述偏差要素在临机预案库中进行匹配，基于匹配成功的临机预案确定调整后的临机对抗计划；在未匹配成功时，根据所述偏差要素生成调整后的临机对抗计划。

在一实施例中，所述装置还包括：

确定模块，被配置为根据预判断的对手行动方案和对抗经验数据进行对抗训练，确定最优对抗计划。

在一实施例中，所述确定模块包括：

预判断子模块，被配置为根据对手行动判断对手行动意图，预判断对手行动方案；

生成子模块，被配置为将所述无人集群对抗任务的对抗行为抽象为行动序列的组合，以所述行动序列为研究对象，基于对抗经验数据及所述对手行动方案进行对抗训练，生成行动序列决策树；

第五确定子模块，被配置为基于行动序列决策树确定最优对抗计划。

在一实施例中，所述确定模块还包括：

获取子模块，被配置为基于所述最优对抗计划获取对抗状态信息；

推测子模块，被配置为基于所述对抗状态信息进行对抗态势推测，得到推测结果；

评估子模块，被配置为基于所述推测结果和任务规划结果进行资源合理性评估。

基于上述目的，本发明还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上任一项所述的方法。

基于上述目的，本发明还提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行如上任一所述方法。

从上面所述可以看出，本发明提供的无人集群协同博弈对抗的控制方法及系统，通过基于任务字典的协同任务分解机制，实现对无人集群各类对抗任务的规范化描述，支撑对抗任务的合理分配以及调整，确保无人平台能够发挥其最大博弈对抗效能；基于行动偏差的临机调整机理，实现无人集群对抗快速、自动、精准分解分配的需求。

附图说明

为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书一个或多个实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的无人集群协同博弈对抗的控制方法的流程图；

图2为本发明另一实施例提供的无人集群协同博弈对抗的控制方法的流程图；

图3为本发明一实施例提供的匹配机制流程图；

图4为本发明另一实施例提供的无人集群协同博弈对抗的控制方法的流程图；

图5为本发明另一实施例提供的无人集群协同博弈对抗的控制方法的流程图；

图6为本发明一实施例提供的场景图；

图7为本发明另一实施例提供的无人集群协同博弈对抗的控制方法的流程图；

图8为本发明一实施例提供的无人集群协同博弈对抗的控制装置的结构示意图；

图9示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图。

具体实施方式

为使本公开的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本公开进一步详细说明。

需要说明的是，除非另外定义，本说明书一个或多个实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本说明书一个或多个实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。

图1为本发明一实施例提供的无人集群协同博弈对抗的控制方法的流程图。

针对无人集群对抗平台类型众多、装备能力各异、对抗行为复杂、定量描述困难等难题，本实施例中，以多类、多样化的无人博弈对抗平台及同构/异构无人集群为研究对象，对无人集群对抗任务的正交完备元任务进行建模，基于无人平台所能携带的任务载荷类型和功能，构建无人对抗平台元任务字典；分析无人对抗平台侦察、打击、破障等对抗战法，建立统一、可复用的无人对抗行为表征框架及战法知识库，引导无人平台自主执行任务，为复杂对抗环境下的无人集群协同博弈对抗行为规划及临机调整提供支撑。

如图1所示，该方法可以包括以下步骤：

步骤S100、基于预建立的协同博弈对抗的元任务字典，提取无人集群对抗任务的对抗场景，对无人集群对抗任务进行协同分解，并执行分解后的对抗任务。

在一实施例中，根据联合博弈对抗任务的表达模型，确定协同博弈对抗的标准任务，并基于标准任务的任务类型、任务执行影响因素等提取博弈对抗的元任务，建立协同博弈对抗的元任务字典。元任务字典是无人集群对抗行为规划及临机调整的基础，元任务字典提供对抗任务统一的描述方式与内容，从而为对抗场景与标准对抗任务的自动匹配奠定基础。

元任务字典是对正交完备的基型元任务及其参数的范式化描述，能够根据无人集群的类型、性能参数、载荷种类、博弈对抗能力及用途等因素，建立无人集群与元任务字典之间的映射关系，从而实现对无人集群各类对抗任务的规范化描述，支撑对抗任务的合理分配以及调整，确保无人平台能够发挥其最大博弈对抗效能。

本实施例中，通过信号稀疏表示理论，对元任务集进行减并以及进一步的抽象，提取出最少数量的元任务，以及最少数量的任务描述参数，能够对无人博弈对抗任务实现精确化、数字化的描述，对所有类型的无人博弈对抗任务进行完备描述，从而大幅降低博弈对抗任务描述的复杂性。

由于对抗环境复杂、对抗态势瞬息万变、对抗任务复杂多变，为了高效快速的适应对抗态势、进行对抗任务自主分配，要对对抗任务进行分解。在自动分解算法中，分析无人集群对抗与有人装备对抗在对抗使命任务、对抗编组或编群方法等方面的差异，参照有人平台对抗任务的分解分配理论，研究无人集群依托“云”推送的无人博弈对抗资源状态能力评估理论，确定无人集群基于“任务-能力-博弈对抗资源”的任务分解机制进行分解。算法还基于任务需求、能力需求、能力约束和无人博弈对抗资源，研究基于集群对抗元任务和统一表征描述的任务分解形式化表达方法，任务网络结构表征模型；研究任务时间、任务目标、任务能力、无人集群任务载荷等多目标多约束条件下的任务分配模型和算法，从而最大发挥集群博弈对抗资源战斗力。

在一实施例中，在无人集群执行协同博弈对抗任务时，由于无人平台在空中和地面的对抗环境、机动能力等方面存在差异，因而需要对无人平台及由其编队形成的集群资源进行协同航迹/轨迹规划，在无人指挥中心的“云”对抗环境感知信息共享的前提下，建立空地一体的协同航迹/轨迹的协同机制及规划算法。通过各类空中无人平台协同航迹和地面无人平台轨迹规划的协同机制和空地协同策略，构建空地协同航迹/轨迹机动约束模型，针对异构无人平台的特性区别，建立航迹轨迹协同规划框架模型，借鉴蚁群算法，并行搜索算法及规划碰撞检测，实现对空地一体的协同航迹/轨迹规划，从而提升集群协同博弈对抗效能。

本实施例中，针对无人平台的大容量、高密度、高交叉重叠的攻防运用易在时空域产生打击误伤和冲突碰撞威胁的问题，构建了博弈对抗任务协同时域、协同空域的概念模型，以及无人集群时空域协同规划的内在机理、时空域冲突检测模型。通过将有人参与的集群博弈对抗机动自主能力和危险冲突预测能力与无人集群危险冲突自主决策能力进行对比分析，借鉴有人集群博弈对抗时空域规划理论和模型算法，建立协同任务时空域调控机制，以及调控方案优选理论，从而减少无人集群打击误伤和碰撞威胁，保障博弈对抗地域内空地协同行动的正常完成。

步骤S200、当任一无人集群对抗任务的任务或行动出现偏差时，基于对抗任务的实时态势执行信息对对抗任务的对抗计划进行调整。

其中，实时态势执行信息包括实时态势信息、任务执行状态。

实际的博弈对抗场景中，无人集群在执行不同类型的对抗任务时，由于地形变化、电磁环境及敌干扰等外部因素的影响，以及无人集群面临的能源消耗、弹药受限、通信能力、战损情况等内部因素的原因，很可能导致无人集群无法按时或者按计划完成对抗任务。本公开步骤中，依托“云”提供的实时共享集群对抗资源状态和能力评估(可以总结为实时态势执行信息)，提出了无人集群协同博弈对抗行为临机调整机制，主要包括：无人集群任务变化时任务分配的临机调整机制和集群博弈对抗行动发生偏差的行动临机调整机制。

在调整机制上，本实施例重点考虑行动偏差调整运用场景；在局部对抗意图发生变化，对任务分配进行调整，主要研究人在环的调整运用机制。当对抗环境的变化影响集群在执行机动、侦察、打击等具体行为，不能按照既定行为规划进行博弈对抗时，主要研究有人监督的自主决策调整运行机制，缩短OODA(real time operation，实时对抗)周期相关的即时响应时间。

在一实施例中，针对任务分配发生变化时的临机调整，基于无人博弈对抗特点和任务需求变化，研究任务网络结构中任务节点的属性特征；研究任务网络结构中任务节点变化类型，具体而言，如新增任务、取消任务、调整任务等，分析任务网络结构发生变化时对关联任务节点的影响，任务节点的变化对无人博弈对抗资源的影响。建立以最小代价原则调整任务-能力-对抗资源的任务分配调整机制。

在一实施例中，针对对抗行动发生变化时的临机调整，建立集群行动执行偏差计算模型，构建行动执行偏差要素库，分析得出行动执行偏差类型，分析计划偏差执行的行动影响机制(包括影响的行动、行动要素等)，构建基于偏差分析的预案匹配模型，从而实现无人集群自主、及时、准确地调整博弈对抗行动，提升无人集群博弈对抗的临机处置能力。

具体而言，临机调整要求在有限的时间内做出行动调整，快速性和时效性非常重要，在博弈对抗任务清单中的任务的执行过程中，采集实时态势信息及任务执行状态，并与标准任务的博弈对抗计划进行对比，从而能够及时、快速发现可能存在的偏差。需要说明的是，并非针对所有的偏差都进行调整，仅在所发生的偏差导致不能够完成对抗任务时，才对博弈对抗计划做出调整。

本实施例还可以包括以下步骤：

步骤S300、根据预判断的对手行动方案和对抗经验数据进行对抗训练，确定最优对抗计划。

针对无人集群对抗行为激烈、对抗不确定性大、决策难度大、自适应调整难等问题，本实施例基于深度学习的行动意图判别理论、深度强化学习的对抗行为规划动态选择与效能评估，结合智能自我博弈的对抗行为规划多样性演化机理，突破基于深度学习和自我博弈驱动的无人集群的决策优化关键技术，有效缩短“观察-调整-决策-行动”自适应反应周期，能够提高复杂对抗环境下集群自主决策的科学性、可行性和智能化水平。

图2为本发明另一实施例提供的无人集群协同博弈对抗的控制方法的流程图，图3为本发明一实施例提供的匹配机制流程图。

现有技术中，博弈对抗任务的生成过程比较繁琐，无法适应当前无人集群对抗对博弈对抗任务快速、自动、精准分解分配的需求。为解决无人集群对抗任务自动生成问题，本实施例基于多层次匹配的思想，创建基于元任务字典的协同任务分解方法。为解决任务生成缓慢的问题，采用剪枝理论，优化匹配机制，加快匹配效率；为解决任务精准生成问题，对任务分解算法进行优化，提高分解的合理性。因此，本实施例中提出了基于对抗场景要素的智能匹配流程，建立对抗场景-对抗任务能力-无人平台的匹配机制。

如图2和图3所示，结合匹配机制，上一实施例中的步骤S100可以包括如下步骤：

步骤S101、提取无人集群对抗任务的对抗场景。

步骤S102、将对抗场景与基于元任务字典的对抗任务模板库进行匹配，得到与无人集群对抗任务相匹配的标准任务。

步骤S103、基于标准任务对无人集群对抗任务进行分解，得到对抗任务清单。

步骤S104、执行对抗任务清单中的任务。

本实施例中，元任务字典需涵盖对正交完备的基型元任务及其描述参数的数字化、范式化描述，以及各类对抗样式与元任务字典的映射关系；对抗场景需包括时间、空间、对抗态势等要素。不同的对抗场景需求不同的对抗任务，不同的对抗任务适用于不同的对抗场景，故可探寻对抗场景和对抗任务的关联关系，根据对抗场景去匹配对抗样式及元任务字典中的对抗任务，达到任务分解的效果。

在本实施例中，首先确定无人集群协同博弈对抗任务的标准任务，建立协同博弈对抗元任务字典，元任务字典提供对抗任务统一的描述方式与内容，从而为对抗场景与标准对抗任务的自动匹配奠定基础。其次，可以确定若干个对抗任务样本，对博弈对抗任务样本的具体执行流程进行分析研究，得出各对抗样式下的对抗任务、所适应的对抗环境等对抗条件，结合元任务字典能够建立各情形下的对抗任务模板库，用来与对抗场景进行适配。再次，分析对抗场景各要素和对抗样式所需的对抗条件之间的关联关系，建立对抗场景要素与对抗样式的对抗条件之间的映射关系，支持对抗场景到元任务字典的匹配。最后，基于对抗任务样本的各类对抗任务的业务逻辑和对抗场景，结合元任务字典中不同粒度的对抗任务模板，建立任务自动分解模型，设计自动分解算法，对匹配到的对抗任务模板(标准对抗任务)进行细化分解和调整，最终生成集群对抗任务清单。

其中，有人、无人航迹/轨迹规划条件存在差异；博弈对抗平台类型存在差异，大多数为中低空平台；平台载荷存在差异，无人平台携带弹药油料载荷少，行动过程中无法停留补充；无人集群博弈对抗与有人装备博弈对抗在对抗使命任务、对抗编组或编群方法等方面都存在差异。无人驾驶对编队协同要求不同，集群编组保持队形能力和相互防碰撞要求高。因此，综合分析有无人平台规划要素(对抗任务、平台类型、目标威胁、地域环境)基础上，加入无人集群规划要素(协同性、载荷性、编队持续性、规避性)等，设计各要素的权重参数，在此基础上分析无人集群协同博弈对抗的任务分解分配，生成集群的任务网络。

图4为本发明另一实施例提供的无人集群协同博弈对抗的控制方法的流程图。实际博弈对抗场景中，瞬息万变的对抗态势往往会导致无人集群不能按既定计划完成任务，行动执行出现偏差。本实施例中，基于实时态势变化分析行动偏差情况进行快速临机处置，可以提升集群博弈对抗的临机处置能力和对抗生存能力。通过采取基于行动执行偏差的临机调整，能够解决集群博弈对抗环境中面临能源消耗、敌干扰等问题时，如何及时、准确的调整博弈对抗行动，完成对抗任务。

如图4所示，图1所示实施例中的步骤S200可以包括：

步骤S201、获取正在执行的任务的实时态势执行信息。

步骤S202、通过将实时态势执行信息与标准对抗任务的信息作比对，判断是否存在导致无人集群对抗任务无法完成的偏差。

步骤S203、在判断为存在偏差时，基于预先建立的行动执行偏差要素库分析偏差类型。

步骤S204、基于确定的偏差类型确定偏差要素。

步骤S205、根据偏差要素在临机预案库中进行匹配，确定需要调整的内容；基于匹配成功的临机预案确定调整后的临机对抗计划；如果未匹配成功，则根据偏差要素生成调整后的临机对抗计划。

本实施例中，预先依据影响无人集群对抗行动的任务类型和影响因素，建立行动执行偏差要素库，行动执行偏差要素库中记录了偏差类型及对应的偏差要素，从而根据所确定的偏差类型，能够确定偏差要素。

偏差类型可以包括：打击任务执行偏差、机动任务执行偏差、侦查任务执行偏差、协同任务执行偏差以及防护任务执行偏差。

具体而言，步骤S205包括以下步骤：

步骤S2051、根据偏差要素从临机预案库中确定需要调整的对抗因素。

其中，博弈对抗因素可以包括：战情研判、任务区分、博弈对抗编组、无人平台部署及行动计划。

步骤S2052、从临机预案要素库中匹配出对应于所确定的对抗因素的临机预案，如果未匹配到临机预案，执行步骤S2054。

步骤S2053、根据所选择的临机预案生成临机对抗计划。

步骤S2054、根据偏差要素生成调整后的临机对抗计划。

图5为本发明另一实施例提供的无人集群协同博弈对抗的控制方法的流程图，由于对抗任务规划的数据形式多样、随机性大、非线性、高维度等特点，采用传统的评估优化方法已经无法满足需求，因此，将深度强化学习技术应用到对抗任务规划的合理性分析中，通过对真实训练数据和仿真系统生成的模拟数据预处理生成标准化的训练样本，基于自我博弈驱动方法应用战法知识库发起动作决策，决策双方接收动作决策后根据战法知识库进行推演模拟并返回下一步的状态，在训练过程中利用新产生的数据持续对模型参数进行调优，实现对异构无人集群的任务决策优化，辅助决策人员优选任务规划结果。本实施例基于无人集群的决策优化分析需求，针对实时变化的对抗态势，通过分析对抗态势和博弈对抗任务规划的构成要素，抽取影响任务规划合理性的决策因素，以决策因素和决策分析合理性结果作为深度学习模型输入样本，以自我博弈驱动完成模型的训练、评估、优化。

无人集群执行博弈对抗任务，更加依靠规范化、程序化的对抗战法规则。本实施例基于无人对抗战法知识库构建技术，针对各类型无人集群执行对抗任务的需求，分析无人集群在执行博弈对抗任务的过程中，面对复杂情况所需要的分析判断规则，以及在各种条件下所需的行动规则，将战法规则转化为可复用、可维护的知识描述，形成战法知识库。研究战法知识库运用机制，分析各类战法知识的运用方法，以及基于战法知识库的对抗行为调控方法，确保不同类型的战法知识之间能够相互衔接、相互支撑，能够针对复杂的对抗情况变化，实现对抗行动的敏捷、可靠规划与调整。

其中战法知识，也可以理解为战法规则，包括无人博弈对抗集群在执行各种任务的过程中，面对各种情况所需要的分析判断规则，以及在各种条件下所需的行动规则。本申请中，将战法规则转化为可复用、可维护的知识描述，从而构建出战法知识库。通过战法知识库，对无人博弈对抗集群的对抗行为进行调控，确保不同类型的战法知识之间能够互相衔接互相支撑，针对复杂的对抗情况变化，也能够实现对抗行动的敏捷、可靠规划与调整。

深度学习模型是以数据作为支撑的，对抗态势的复杂性以及对战的不一致性使得训练数据的有效规模异常庞大，由于难以得到上千万场战争的真实数据来训练模型，于是伴随而来的是数据稀疏问题。所以本实施例中采用自我博弈驱动的方式完成无人集群对抗特征数据的生成和对抗任务决策优化。

如图5所示，步骤S300的优化对抗计划可以包括以下步骤：

步骤S301、根据对手行动判断对手行动意图，预判断对手行动方案。

精准判别对手行动意图是无人集群自主决策的前提，影响着博弈对抗行为规划的可行性。根据博弈对抗场景瞬息万变、随机性大、信息不完全、信息获取难等特点，在对抗态势信息的认知过程中，抽象层次越高，可量化程度越低，对行动意图判别就越具有主观性。为了克服主观性和不完全信息带来的弊端，本实施例对敌行动意图进行判断，通过用于深度神经网络模型的不完整对抗信息预处理方法、模拟人脑行动意图判别的深度神经网络模型构建方法、以及行动意图判别深度神经网络模型训练方法，提升面向无人集群博弈对抗敌行动意图判别能力。

步骤S302、将无人集群博弈对抗任务的对抗行为抽象为行动序列组合，以行动序列为研究对象，基于对抗经验数据及对手行动方案进行对抗训练，生成行动序列决策树。

步骤S303、基于行动序列决策树确定最优对抗计划。

本实施例中，面向高度复杂对抗的对抗环境，针对对手态势变化和我方态势变化，无人集群博弈对抗任务的规划需解决我方行动序列规划问题。如图6所示的场景，假定在进攻博弈对抗中，红蓝双方在初始对抗态势中，双方依据博弈对抗任务，对对方行动的预判，形成了各自的博弈对抗计划并进行实施。红方首先发起博弈对抗行动，蓝方依据红方采取的行动，对博弈对抗行动进行调整和实施，这样，对抗双方的对抗状态就发生了变化，随后红方依据更新的对抗态势和自身的状态变化，继续采取之前规划的行动，或对博弈对抗行动进行调整，实施调整之后的对抗行动，同样，蓝方也依据更新的对抗态势和自身的状态变化采取更新之后的下一步对抗行动，双方在状态-行动的驱动下进行博弈，并贯穿于博弈对抗全过程。在此，状态即为对抗环境、红蓝双方的对抗实力，而行动即为红蓝双方在一定状态下，规划的对抗行动序列。

这个过程中要解决的关键问题是：在对抗态势发生变化的情况下，要确定实现博弈对抗目的、完成对抗任务解决己方无人平台分布，同时破坏对手所做的全过程的行动规划。针对高度复杂对抗的对抗环境下博弈对抗任务规划的行动序列规划问题，本实施例采用了基于数据库的案例推理方法。该推理方法所得的可信度与效率受案例数据库的丰富程度的制约，当案例数据库较大时，可信度较高而效率较低，反之虽可提升效率但导致可信度降低。在博弈对抗运筹领域，借鉴AlphaGo的学习原理，将深度强化学习方法运用于解决无人集群高度复杂对抗对抗环境下对抗任务规划中的行动序列规划问题。深度强化学习方法是将深度学习的感知能力与强化的决策能力相结合，通过端对端的学习方式实现从原始输入到输出的直接控制，因此非常适用于对抗环境下博弈对抗任务规划领域。

具体而言，本步骤中将博弈对抗任务的对抗行为规划抽象为行动序列组合，以行动序列为研究对象，综合博弈论与演化计算方法，将博弈对抗数据、战法知识库等经验数据输入到多智能体博弈对抗模型中进行对抗训练，在训练过程中，通过对预判的对手行动方案生成我方行动序列决策树，并根据规划的行动序列或进行调整实施的行动序列，实现多智能体策略多样性演化，丰富无人集群博弈对抗决策空间，通过递进搜索最佳行动决策序列完成对抗行为的决策优化，确定最优对抗计划。从而解决传统深度强化学习方法产生的策略较为单一，无法应对复杂、多变的对抗态势，鲁棒性低的问题。

图7是本发明另一实施例提供的无人集群协同博弈对抗的控制方法的流程图，由于博弈对抗行为规划的结果直接影响到对抗进程，针对现阶段的无人集群对抗行为规划技术水平有限、对无人车和无人机部署位置选取、时空域规划冲突检测与消减等行为规划结果的可信度不高等问题，通过分析对抗行为规划的规划环节、规划业务和规划要素，建立对抗行为规划的效能评估表征要素及评价指标体系理论。针对效能评估指标存在相关性和模糊性，对其进行定量或定性分析都比较困难，使用传统的分析方法已经很难对行为规划的合理性进行科学准确的分析，因此采用深度神经网络模型融合专家评估经验的方法，重点研究基于深度强化神经网络模型的行为规划动态选择方法、对抗行为规划效能评估方法，建立效能评估模型，辅助评估对抗行为规划结果的合理性。

如图7所示，该方法还可以包括以下步骤：

步骤S304、基于最优对抗计划获取对抗状态信息。

其中，对抗状态信息可以包括：对抗态势信息、生成的对抗编组、对抗计划等信息。

步骤S305、基于对抗状态信息进行对抗态势推测，得到推测结果。

步骤S306、基于推测结果和任务规划结果进行资源合理性评估。

本实施例中，可以将对抗状态信息输入到对抗态势推测分析模块和任务规划结果合理性分析模块。对抗态势推测分析模块将对抗状态信息进行特征抽取及分析，获得感知域内的状态信息，经过深度学习网络，对当前的对抗状态的评估，得到对抗态势推测结果数据，并将推测结果数据发送给博弈对抗任务规划结果合理性分析模块，博弈对抗任务规划结果合理性分析模块基于推测结果数据和任务规划结果，运用融合自我博弈模型的深度强化学习网络，完成对无人平台选择、时效性、空间资源分配等资源的合理性分析评估，得到行动的策略空间，对各博弈对抗行动进行评估，将评估结果反馈给无人平台的决策人员，决策人员选择合适的博弈对抗行动进行指挥，博弈对抗行动影响之后的对抗态势。在这个过程中，从对抗环境中可以得到行动的回报值，回报值的高低直接决定了当前行动执行效果的优劣。为了能够获得整个对抗决策的胜利，需要对每一个策略节点(即状态下的行动空间)进行评估，从而找到最佳的行动决策序列，辅助决策人员针对高度复杂对抗的对抗环境，优化对抗任务规划结果。

需要说明的是，本说明书一个或多个实施例的方法可以由单个设备执行，例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下，由多台设备相互配合来完成。在这种分布式场景的情况下，这多台设备中的一台设备可以只执行本说明书一个或多个实施例的方法中的某一个或多个步骤，这多台设备相互之间会进行交互以完成所述的方法。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

图8为本发明一实施例提供的无人集群协同博弈对抗的控制装置的结构示意图，该装置可以包括：分解模块100和调整模块200。

其中，分解模块100被配置为基于预建立的协同博弈对抗的元任务字典，提取无人集群博弈对抗任务的对抗场景，对所述无人集群对抗任务进行协同分解，并执行分解后的博弈对抗任务；

调整模块200被配置为当任一所述对抗任务的行动出现偏差时，基于所述对抗任务的实时态势执行信息对所述对抗任务的对抗计划进行调整。

在一实施例中，分解模块100可以包括：

提取子模块，被配置为提取无人集群博弈对抗任务的对抗场景；

执行子模块，被配置为执行所述对抗任务清单中的任务。

在一实施例中，分解模块100还可以包括：

在一实施例中，调整模块200可以包括：

获取子模块，被配置为获取正在执行的博弈对抗任务的实时态势执行信息，所述实时态势执行信息包括实时态势信息及任务执行状态；

判断子模块，被配置为通过将所述实时态势执行信息与标准博弈对任务进行比对，判断是否存在导致所述无人集群对抗任务无法完成的偏差；

在一实施例中，该装置还可以包括：

在一实施例中，确定模块可以包括：

在一实施例中，确定模块还可以包括：

需要说明的是，本发明实施例的方法可以由单个设备执行，例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下，由多台设备相互配合来完成。在这种分布式场景的情况下，这多台设备中的一台设备可以只执行本发明实施例的方法中的某一个或多个步骤，这多台设备相互之间会进行交互以完成所述的方法。

上述实施例的装置用于实现前述实施例中相应的方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

本发明实施例提供的无人集群协同博弈对抗的控制方法及系统，通过基于元任务字典的协同博弈对抗任务分解机制、基于行动执行偏差的临机调整机理、基于深度学习和自我博弈驱动的决策优化技术，建立编队级无人平台协同博弈对抗规划决策体系，实现可变自主等级的异构无人集群协同博弈对抗任务智能行为规划与决策，依托无人集群指挥中心的“云”平台，达到典型无人集群协同博弈对抗任务进行分解不少于3种、构建正交完备的元任务类型不少于6种、编队级时空域规划调控冲突检测正确率不小于80％、基于对抗任务规范化描述生成对抗任务清单时间不大于30秒等主要性能指标，能够适应异构无人集群协同博弈对抗战术指挥。

本说明书实施例中所述支付涉及的技术载体，例如可以包括近场通信(NearField Communication，NFC)、WIFI、3G/4G/5G、POS机刷卡技术、二维码扫码技术、条形码扫码技术、蓝牙、红外、短消息(Short Message Service，SMS)、多媒体消息(MultimediaMessage Service，MMS)等。

本说明书实施例中所述生物识别所涉及的生物特征，例如可以包括眼部特征、声纹、指纹、掌纹、心跳、脉搏、染色体、DNA、人牙咬痕等。其中眼纹可以包括虹膜、巩膜等生物特征。

为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本说明书一个或多个实施例时可以把各模块的功能在同一个或多个软件和/或硬件中实现。

图9示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图，该设备可以包括：处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。

处理器1010可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本说明书实施例所提供的技术方案。

存储器1020可以采用ROM(Read Only Memory，只读存储器)、RAM(Random AccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器1020中，并由处理器1010来调用执行。

输入/输出接口1030用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口1040用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线1050包括一通路，在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本说明书实施例方案所必需的组件，而不必包含图中所示的全部组件。

本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本公开的范围(包括权利要求)被限于这些例子；在本公开的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本说明书一个或多个实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。

另外，为简化说明和讨论，并且为了不会使本说明书一个或多个实施例难以理解，在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外，可以以框图的形式示出装置，以便避免使本说明书一个或多个实施例难以理解，并且这也考虑了以下事实，即关于这些框图装置的实施方式的细节是高度取决于将要实施本说明书一个或多个实施例的平台的(即，这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如，电路)以描述本公开的示例性实施例的情况下，对本领域技术人员来说显而易见的是，可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本说明书一个或多个实施例。因此，这些描述应被认为是说明性的而不是限制性的。

尽管已经结合了本公开的具体实施例对本公开进行了描述，但是根据前面的描述，这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如，其它存储器架构(例如，动态RAM(DRAM))可以使用所讨论的实施例。

本说明书一个或多个实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本说明书一个或多个实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种无人集群协同博弈对抗的控制方法，其特征在于，包括：

提取无人集群对抗任务的对抗场景；

将所述对抗场景与对抗任务模板库进行匹配，得到与所述无人集群对抗任务相匹配的标准任务，所述对抗任务模板库基于预设的协同博弈对抗的元任务字典建立；其中，所述对抗任务模板中的各对抗任务模板设有相应的任务自动分解模型，所述任务自动分解模型根据有无人平台规划要素和无人集群规划要素的权重参数，对所述无人集群对抗任务进行分解；所述有无人平台规划要素包括对抗任务、平台类型、目标威胁、地域环境，所述无人集群规划要素包括协同性、载荷性、编队持续性、规避性；

基于所述标准任务，利用相应的任务自动分解模型对所述无人集群对抗任务进行协同分解，得到对抗任务清单；

执行所述对抗任务清单中的对抗任务；

无人集群在执行所述对抗任务时，当任一所述对抗任务的行动出现偏差时，基于所述对抗任务的实时态势执行信息对所述对抗任务的对抗计划进行调整。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，所述基于所述对抗任务的实时态势执行信息对所述对抗任务的对抗计划进行调整，包括：

在判断为存在所述偏差时，确定偏差类型；

基于确定的所述偏差类型确定偏差要素；

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，所述根据预判断的对手行动方案和对抗经验数据进行对抗训练，确定最优对抗计划，包括：

根据对手行动判断对手行动意图，预判断对手行动方案；

基于行动序列决策树确定最优对抗计划。

6.根据权利要求5所述的方法，其特征在于，所述基于行动序列决策树确定最优对抗计划之后，所述方法还包括：

基于所述最优对抗计划获取对抗状态信息；

基于所述对抗状态信息进行对抗态势推测，得到推测结果；

基于所述推测结果和任务规划结果进行资源合理性评估。

7.一种无人集群协同博弈对抗的控制装置，其特征在于，包括：

分解模块，被配置为提取无人集群对抗任务的对抗场景；将所述对抗场景与对抗任务模板库进行匹配，得到与所述无人集群对抗任务相匹配的标准任务，所述对抗任务模板库基于预设的协同博弈对抗的元任务字典建立；其中，所述对抗任务模板中的各对抗任务模板设有相应的任务自动分解模型，所述任务自动分解模型根据有无人平台规划要素和无人集群规划要素的权重参数，对所述无人集群对抗任务进行分解；所述有无人平台规划要素包括对抗任务、平台类型、目标威胁、地域环境，所述无人集群规划要素包括协同性、载荷性、编队持续性、规避性；基于所述标准任务，利用相应的任务自动分解模型对所述无人集群对抗任务进行协同分解，得到对抗任务清单；执行所述对抗任务清单中的对抗任务；

调整模块，被配置为无人集群在执行所述对抗任务时，当任一所述对抗任务的行动出现偏差时，基于所述对抗任务的实时态势执行信息对所述对抗任务的对抗计划进行调整。

8.根据权利要求7所述的装置，其特征在于，所述分解模块还包括：

9.根据权利要求7所述的装置，其特征在于，所述调整模块包括：

10.根据权利要求7所述的装置，其特征在于，所述装置还包括：

11.根据权利要求10所述的装置，其特征在于，所述确定模块包括：

12.根据权利要求11所述的装置，其特征在于，所述确定模块还包括：

13.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任意一项所述的方法。

14.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行权利要求1至6任一所述方法。