CN117634858A

CN117634858A - 基于即时优势窗口的人机混合方案生成方法和装置

Info

Publication number: CN117634858A
Application number: CN202410110587.5A
Authority: CN
Inventors: 徐新海; 章杰元; 李晟泽; 李渊; 张峰; 刘运韬; 顾孔静
Original assignee: National Defense Technology Innovation Institute PLA Academy of Military Science
Current assignee: National Defense Technology Innovation Institute PLA Academy of Military Science
Priority date: 2024-01-26
Filing date: 2024-01-26
Publication date: 2024-03-01

Abstract

本发明提供一种基于即时优势窗口的人机混合方案生成方法和装置，属于军事任务规划技术领域，该方法包括：获取用户配置的任务信息；对所述任务信息进行分解处理，得到至少一个子任务；从对抗样本数据中提取即时优势窗口，所述即时优势窗口包括：窗口目标，窗口所在区域，窗口优势，窗口持续时间；所述即时优势窗口用于表示针对所述窗口目标，在所述窗口所在区域不间断维持所述窗口优势达到所述窗口持续时间的时间长度；根据所述即时优势窗口以及至少一个子任务，生成任务规划方案。上述方案提升了任务规划的效率和全面性。

Description

基于即时优势窗口的人机混合方案生成方法和装置

技术领域

本发明涉及军事任务规划技术领域，尤其涉及一种基于即时优势窗口的人机混合方案生成方法和装置。

背景技术

在军事领域，传统的任务规划方案生成模式大多数是以人为主的，即依赖人类经验制订方案。这种模式下，充分发挥了人的主观能动性，但是任务环境复杂多变，单靠人工去预想各种可能情形、分解任务、形成方案是非常费时费力的，这也很能满足现代军事领域对时效性、精确性、充分性和适应性的要求。因此，对于本领域技术人员来说，亟需实现一种高效的任务规划方法。

发明内容

针对现有技术存在的问题，本发明实施例提供一种基于即时优势窗口的人机混合方案生成方法和装置。

本发明提供一种基于即时优势窗口的人机混合方案生成方法，包括：

获取用户配置的任务信息；

对所述任务信息进行分解处理，得到至少一个子任务；

从对抗样本数据中提取即时优势窗口，所述即时优势窗口包括：窗口目标，窗口所在区域，窗口优势，窗口持续时间；所述即时优势窗口用于表示针对所述窗口目标，在所述窗口所在区域不间断维持所述窗口优势达到所述窗口持续时间的时间长度；

根据所述即时优势窗口以及至少一个所述子任务，生成任务规划方案。

根据本发明提供的一种基于即时优势窗口的人机混合方案生成方法，所述对所述任务信息进行分解处理，得到至少一个子任务，包括：

利用己方决策模型对所述任务信息进行分解处理，得到至少一个所述子任务；所述己方决策模型为基于对手决策模型和任务样本数据训练得到的。

根据本发明提供的一种基于即时优势窗口的人机混合方案生成方法，所述根据所述即时优势窗口以及至少一个所述子任务，生成任务规划方案，包括：

根据所述至少一个子任务执行的时间先后顺序以及所述至少一个子任务与所述即时优势窗口的关联关系，生成所述任务规划方案。

根据本发明提供的一种基于即时优势窗口的人机混合方案生成方法，所述从对抗样本数据中提取即时优势窗口之前，还包括：

建立对手决策模型；

根据所述对手决策模型和所述己方决策模型进行对抗处理，得到对抗样本数据。

根据本发明提供的一种基于即时优势窗口的人机混合方案生成方法，所述根据所述即时优势窗口以及至少一个所述子任务，生成任务规划方案之后，还包括：

对所述任务规划方案中所述子任务的目标信息进行调整，所述目标信息包括以下至少一项：子任务力量、执行时间和执行区域。

根据本发明提供的一种基于即时优势窗口的人机混合方案生成方法，所述从对抗样本数据中提取即时优势窗口，包括：

根据所述任务信息，确定窗口要素的目标值；所述窗口要素包括窗口目标，窗口所在区域，窗口优势和窗口持续时间；

基于所述对抗样本数据，提取窗口要素的实际值；

根据所述窗口要素的实际值与所述窗口要素的目标值的匹配度，确定综合匹配度；

若存在综合匹配度大于或等于预设阈值的窗口，则将所述窗口作为所述即时优势窗口。

根据本发明提供的一种基于即时优势窗口的人机混合方案生成方法，所述对手决策模型为基于规则知识构建的。

本发明还提供一种基于即时优势窗口的人机混合方案生成装置，包括：

获取模块，用于获取用户配置的任务信息；

处理模块，用于对所述任务信息进行分解处理，得到至少一个子任务；

所述处理模块，还用于从对抗样本数据中提取即时优势窗口，所述即时优势窗口包括：窗口目标，窗口所在区域，窗口优势，窗口持续时间；所述即时优势窗口用于表示针对所述窗口目标，在所述窗口所在区域不间断维持所述窗口优势达到所述窗口持续时间的时间长度；

所述处理模块，还用于根据所述即时优势窗口以及至少一个子任务，生成任务规划方案。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述基于即时优势窗口的人机混合方案生成方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述基于即时优势窗口的人机混合方案生成方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述基于即时优势窗口的人机混合方案生成方法。

本发明提供的基于即时优势窗口的人机混合方案生成方法和装置，获取用户配置的任务信息；对所述任务信息进行分解处理，得到至少一个子任务；从对抗样本数据中提取即时优势窗口，所述即时优势窗口包括：窗口目标，窗口所在区域，窗口优势，窗口持续时间；所述即时优势窗口用于表示针对所述窗口目标，在所述窗口所在区域不间断维持所述窗口优势达到所述窗口持续时间的时间长度；根据所述即时优势窗口以及至少一个所述子任务，生成任务规划方案，通过引入即时优势窗口，简化了生成任务规划方案的过程，提升了任务规划的能力和效率，能够满足现代任务规划对时效性、精确性、充分性、适应性的要求。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的基于即时优势窗口的人机混合方案生成方法的流程示意图之一；

图2是本发明提供的基于即时优势窗口的人机混合方案生成方法的树形结构的任务规划方案示意图之一；

图3是本发明提供的基于即时优势窗口的人机混合方案生成方法的原理示意图；

图4是本发明提供的基于即时优势窗口的人机混合方案生成方法的树形结构的任务规划方案示意图之二；

图5是本发明提供的基于即时优势窗口的人机混合方案生成装置的结构示意图；

图6是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

首先，对本发明实施例涉及的名词和应用场景进行介绍：

即时优势窗口是军事领域的重要概念，一般是指一方聚合多域资源，在特定时域、地域对另一方形成局部综合优势。

本发明实施例提出了一种基于即时优势窗口的人机混合方案生成方法，通过引入即时优势窗口概念，提供了一种任务规划方案的自动生成方法，首先依据用户配置的任务信息，分解得到子任务，然后基于博弈对抗产生的样本数据，通过数据挖掘技术如模糊匹配，发现样本数据蕴含的即时优势窗口；基于挖掘出的即时优势窗口，得到任务规划方案，为未来智能任务规划提供了一种可行的技术途径，对提升任务规划能力和效率具有重要意义。

下面结合图1-图6以具体的实施例对本发明实施例的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

图1是本发明提供的基于即时优势窗口的人机混合方案生成方法的流程示意图。如图1所示，本实施例提供的方法，包括：

步骤101、获取用户配置的任务信息；

具体的，任务信息例如包括任务力量、任务区域、任务目标等。任务力量例如指任务过程中使用多少武器、人员等。

步骤102、对任务信息进行分解处理，得到至少一个子任务；

具体的，对任务信息进行分解处理，如任务信息Q，分解得到多个子任务。

例如，任务信息为打击任务，任务目标为打击对方机场，任务力量包括轰炸机、战斗机等，任务区域为机场周围区域，子任务包括：侦察任务、压制任务和轰炸任务。

步骤103、从对抗样本数据中提取即时优势窗口，即时优势窗口包括：窗口目标，窗口所在区域，窗口优势，窗口持续时间；即时优势窗口用于表示针对窗口目标，在窗口所在区域不间断维持窗口优势达到窗口持续时间的时间长度；

具体的，即时优势是指在特定时段和一定战场范围内的局部暂时优势，这种局部的暂时优势所覆盖的时空范围，可称之为“即时优势窗口”。即时优势窗口包括：窗口目标、区域、优势、时间四要素，可以表示成如下形式：

其中是窗口目标，/>是窗口所在区域，/>是呈现出的窗口优势，/>是窗口持续时间，具体而言是针对窗口目标/>，需要在区域/>不间断维持优势/>达到/>时间长度。

从对抗样本数据中抽取目标、区域、优势、时间四要素，确定是否包括即时优势窗口。

示例性地，以机场为打击目标的火力打击为例，具体而言，火力打击的即时优势窗口是指为使得第一方的轰炸机能够瘫痪机场，在机场周围空域获得能够持续一段时间的第二方的防空薄弱区域。

从对抗样本数据中抽取，目标、区域、优势、时间四要素，对该即时优势窗口进行建模，表示成如下形式：

其中目标，打击的目标实体为机场，区域表示的是距离机场位置的100公里处，半径为50公里的区域。优势/>，/>是第二方对空域的能力势场值，/>是阈值，第二方的能力势场值小于阈值，说明第一方具有优势。/>代表窗口持续时间，即/>能持续到轰炸机安全完成轰炸，如1小时。

步骤104、根据即时优势窗口以及至少一个子任务，生成任务规划方案。

具体的，以图2为例，任务被分解成子任务/>，子任务/>支撑即时优势窗口/>的达成，即时优势窗口/>是子任务/>执行的先决条件，即子任务/>需在即时优势窗口/>持续期间完成，因此，基于子任务的时间先后关系，以及子任务与即时优势窗口的关联关系，生成任务规划方案，例如图2中以树形结构表示。

本实施例的方法，获取用户配置的任务信息；对所述任务信息进行分解处理，得到至少一个子任务；从对抗样本数据中提取即时优势窗口，所述即时优势窗口包括：窗口目标，窗口所在区域，窗口优势，窗口持续时间；所述即时优势窗口用于表示针对所述窗口目标，在所述窗口所在区域不间断维持所述窗口优势达到所述窗口持续时间的时间长度；根据所述即时优势窗口以及至少一个所述子任务，生成任务规划方案，通过引入即时优势窗口，简化了生成任务规划方案的过程，提升了任务规划的能力和效率，能够满足现代任务规划对时效性、精确性、充分性、适应性的要求。

可选地，步骤102可以通过如下方式实现：

具体的，对手决策模型是用来训练己方决策模型的。

基于任务样本数据和对手决策模型，开展己方决策模型训练，得到己方决策模型/>。己方决策模型例如基于/>分解多智能体独立扩展（Q-decomposition Multi-agentIndependent eXtension，QMIX）、近端策略优化（Proximal Policy Optimization，PPO）等强化学习算法建立的。

其中，任务样本数据例如包括以下至少一项：任务力量、任务区域、任务目标、子任务信息等。

可选地，该方法还包括：

建立对手决策模型；

可选地，对手决策模型可以基于规则知识构建，得到对手决策模型。规则知识例如包括大量基于经验获取的军事策略规则。

通过双方模型与/>的反复对抗，产生大量对抗样本数据，从大量对抗样本数据中挖掘即时优势窗口。

上述实施方式中，通过训练得到己方决策模型，得到子任务，效率较高，而且基于对手决策模型对己方决策模型进行训练，提高了模型的准确性和精度。

可选地，步骤104可以通过如下方式实现：

具体的，以即时优势窗口为核心，获取任务信息对应的子任务/>，依据子任务出现的时间先后关系以及与即时优势窗口之间的关联关系，组织形成树形方案，即任务规划方案。以图2为例，任务/>被分解成子任务/>，子任务/>支撑即时优势窗口的达成，即时优势窗口/>是子任务/>执行的先决条件，即子任务/>需在即时优势窗口持续期间完成，因此，基于子任务的时间先后关系，以及子任务与即时优势窗口的关联关系，生成任务规划方案，例如图2中以树形结构表示。

可选地，步骤104之后还可以进行如下操作：

具体的，可以对基于即时优势窗口生成的任务规划方案，进行调整，例如对子任务的目标信息进行微调，如对子任务的力量、执行时间、区域等进行调整。

上述实施方式中，有效发挥了人的主观能动性，使得生成的任务规划方案更加适合实际场景。

可选地，步骤103可以通过如下方式实现：

基于所述对抗样本数据，提取窗口要素的实际值；

具体的，根据任务信息，确定窗口要素的目标值，窗口要素包括：窗口目标，窗口所在区域，窗口优势，窗口持续时间；

首先，确定达成窗口目标的目标值之前时刻的对抗样本数据，从所述达成窗口目标的目标值之前时刻的对抗样本数据中提取窗口所在区域，窗口优势，窗口持续时间的实际值，确定各个窗口要素对应的匹配度，例如窗口所在区域对应的匹配度，窗口优势对应的匹配度，窗口持续时间对应的匹配度；

最后，利用加权算法，得到综合匹配度；将综合匹配度大于或等于预设阈值的窗口作为即时优势窗口。

上述实施方式中，基于博弈对抗产生的对抗样本数据，通过模糊匹配，发现对抗样本数据蕴含的即时优势窗口，方案实现简单，效率较高。

示例性地，以打击任务规划为例，如图3所示，该方法包括如下步骤：

（1）配置任务信息，如任务目标：{己方：打击机场，对方：保护机场}，任务兵力：{己方：轰炸机、战斗机，对方：地面防空设施、战斗机}，任务区域：机场周围区域。

（2）围绕对方保护机场任务，构建对手决策模型。

（3）己方利用强化学习算法QMIX建立己方决策模型，针对打击机场任务和对手决策模型，对己方决策模型进行训练，得到针对打击任务的己方决策模型/>，并且通过双方的不断博弈对抗产生大量的对抗样本数据。

（4）基于对抗样本数据，依据人的经验知识，对火力打击的即时优势窗口从目标、区域、时间、优势四个方面进行定义，如{目标：<机场，轰炸机>，优势：<机场周围，我对敌对空能力对5：1>，时间：xx}，其中xx代表时间未给定。利用模糊匹配技术在对抗样本数据中进行挖掘，得到即时优势窗口{目标：<机场，轰炸机>，优势：<机场正北100公里处，我对敌对空能力对5：1>，时间：1小时}，该窗口数据支持率大于75%，即100个对抗样本数据中至少有75个对抗样本数据包含该即时优势窗口。

（5）利用白盒化技术，基于步骤（4）挖掘出的即时优势窗口，对己方智能体的黑盒算法模型（即己方决策模型/>）进行白盒化。统计得到对抗样本数据中所执行的任务分别是侦察、压制、轰炸任务，通过统计其出现的时序数据，以及各任务带来的影响，围绕即时优势窗口/>生成树形方案（如图4所示）。其中，侦察任务和压制任务是为了营造即时优势窗口，轰炸任务需在即时优势窗口/>出现之后再执行。同时用户可以基于白盒化的方案调整任务规划方案逻辑及子任务的信息，如任务力量、区域、开始结束时间等，最终形成完整的任务规划方案。

综上所述，本发明实施例的方法，基于即时优势窗口，提供了一种任务规划方案生成的方法，明确了在方案生成过程中，人和机器的主要分工，即人主要负责任务信息配置、窗口信息配置和方案微调，机器则主要负责任务模型生成、任务分解和即时优势窗口挖掘，有效发挥了人的主观能动性和机器善于求解有边界问题的特点，为智能任务规划提供了一种可行技术途径。

而且，通过即时优势窗口提供了一种将黑盒算法模型白盒化成可解释的树形方案的技术思路，即首先通过智能体强化学习算法产生对抗样本数据，再从对抗样本数据中挖掘对抗的即时优势窗口信息，最后围绕即时优势窗口信息构建树形的任务规划方案，创新了方案生成模式，提高了方案生成效率。

下面对本发明提供的基于即时优势窗口的人机混合方案生成装置进行描述，下文描述的基于即时优势窗口的人机混合方案生成装置与上文描述的基于即时优势窗口的人机混合方案生成方法可相互对应参照。

图5是本发明提供的基于即时优势窗口的人机混合方案生成装置的结构示意图。如图5所示，本实施例提供的基于即时优势窗口的人机混合方案生成装置，包括：

获取模块510，用于获取用户配置的任务信息；

处理模块520，用于对所述任务信息进行分解处理，得到至少一个子任务；

所述处理模块520，还用于从对抗样本数据中提取即时优势窗口，所述即时优势窗口包括：窗口目标，窗口所在区域，窗口优势，窗口持续时间；所述即时优势窗口用于表示针对所述窗口目标，在所述窗口所在区域不间断维持所述窗口优势达到所述窗口持续时间的时间长度；

所述处理模块520，还用于根据所述即时优势窗口以及至少一个子任务，生成任务规划方案。

可选地，所述处理模块520，具体用于：

建立对手决策模型；

可选地，所述处理模块520，还用于：

基于所述对抗样本数据，提取窗口要素的实际值；

可选地，所述对手决策模型为基于规则知识构建的。

本发明实施例的装置，其用于执行前述任一方法实施例中的方法，其实现原理和技术效果类似，此次不再赘述。

图6示例了一种电子设备的实体结构示意图，如图6所示，该电子设备可以包括：处理器(processor)610、通信接口(Communications Interface)620、存储器(memory)630和通信总线640，其中，处理器610，通信接口620，存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令，以执行基于即时优势窗口的人机混合方案生成方法，该方法包括：

获取用户配置的任务信息；

对所述任务信息进行分解处理，得到至少一个子任务；

此外，上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的基于即时优势窗口的人机混合方案生成方法，该方法包括：

获取用户配置的任务信息；

对所述任务信息进行分解处理，得到至少一个子任务；

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的基于即时优势窗口的人机混合方案生成方法，该方法包括：

获取用户配置的任务信息；

对所述任务信息进行分解处理，得到至少一个子任务；

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于即时优势窗口的人机混合方案生成方法，其特征在于，包括：

获取用户配置的任务信息；

对所述任务信息进行分解处理，得到至少一个子任务；

2.根据权利要求1所述的基于即时优势窗口的人机混合方案生成方法，其特征在于，所述对所述任务信息进行分解处理，得到至少一个子任务，包括：

3.根据权利要求1或2所述的基于即时优势窗口的人机混合方案生成方法，其特征在于，所述根据所述即时优势窗口以及至少一个所述子任务，生成任务规划方案，包括：

4.根据权利要求2所述的基于即时优势窗口的人机混合方案生成方法，其特征在于，所述从对抗样本数据中提取即时优势窗口之前，还包括：

建立对手决策模型；

5.根据权利要求1或2所述的基于即时优势窗口的人机混合方案生成方法，其特征在于，所述根据所述即时优势窗口以及至少一个所述子任务，生成任务规划方案之后，还包括：

6.根据权利要求1或2所述的基于即时优势窗口的人机混合方案生成方法，其特征在于，所述从对抗样本数据中提取即时优势窗口，包括：

基于所述对抗样本数据，提取所述窗口要素的实际值；

7.根据权利要求2或4所述的基于即时优势窗口的人机混合方案生成方法，其特征在于，所述对手决策模型为基于规则知识构建的。

8.一种基于即时优势窗口的人机混合方案生成装置，其特征在于，包括：

获取模块，用于获取用户配置的任务信息；

所述处理模块，还用于根据所述即时优势窗口以及至少一个所述子任务，生成任务规划方案。

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述基于即时优势窗口的人机混合方案生成方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述基于即时优势窗口的人机混合方案生成方法。