CN112990452A

CN112990452A - 人机对抗知识驱动型决策方法、装置及电子设备

Info

Publication number: CN112990452A
Application number: CN202110489078.4A
Authority: CN
Inventors: 赵美静; 黄凯奇; 尹奇跃
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2021-05-06
Filing date: 2021-05-06
Publication date: 2021-06-18
Anticipated expiration: 2041-05-06
Also published as: CN112990452B

Abstract

本发明涉及人工智能领域，尤其涉及人机对抗知识驱动型决策方法、装置、电子设备及存储介质。所述方法包括：在每个决策时间节点，获取人机对抗环境下的环境特征信息；根据所述环境特征信息，基于决策规则确定每个行动单元的行动任务，其中，所述决策规则包括由多个态势计算函数和多个态势谓词函数所构成的逻辑组合、以及与各所述逻辑组合的结果相对应的行动单元的行动任务，所述态势计算函数和所述态势谓词函数以所述环境特征信息作为输入参数。本发明适用于在巨复杂、高动态、不确定的强对抗环境中给出快速、可信的人机对抗决策。

Description

人机对抗知识驱动型决策方法、装置及电子设备

技术领域

本发明涉及人工智能领域，尤其涉及人机对抗知识驱动型决策方法、装置、电子设备及存储介质。

背景技术

人机对抗作为人工智能研究的前沿方向，已成为国内外智能领域研究的热点，并为探寻机器智能的内在生长机制和关键技术的验证提供有效试验环境和途径。目前，面对复杂、动态、对抗环境下智能认知与决策需求，迫切需要以机器为载体的人工智能技术的辅助与支撑。

随着人工智能技术的巨大发展，将会面临越来越多的现实世界应用系统，比如作战辅助决策系统来说，战争本身的特点使得作战决策的复杂度远远超过围棋、德州扑克等游戏决策，高速度、大机动、远射程的新武器将使军事作战进入“秒杀”时代。面对复杂多变的战场状态，指挥员需要快速掌握当前战场局势，预测变化趋势，仅靠指挥员的智慧和经验已无法满足快速、精确决策的需求，这些都给军事领域智能化带来了挑战，也对人工智能辅助决策系统“快速、可信的决策能力”提出了更高的要求。一旦决策系统实现了快速可信决策，会在作战的OODA（OODA 循环中的OODA是观察（Oberve）、调整（Orient）、决策（Decide）以及行动（Act）的英文缩写，它是信息战领域的一个概念）循环过程中形成压倒性的决策优势和行动优势。在这些应用场景中，如何让系统做出快速、可信的决策的研究势在必行，具有非常重要的研究意义和应用意义。

发明内容

基于此，本发明实施例提供了人机对抗知识驱动型决策方法、装置、电子设备及存储介质，能够基于人机对抗环境下的环境特征信息做出快速、可信的决策。

第一方面，本发明实施例提供了人机对抗知识驱动型决策方法，所述方法包括：在每个决策时间节点，获取人机对抗环境下的环境特征信息；根据所述环境特征信息，基于决策规则确定每个行动单元的行动任务，其中，所述决策规则包括由多个态势计算函数和多个态势谓词函数所构成的逻辑组合、以及与各所述逻辑组合的结果相对应的行动单元的行动任务，所述态势计算函数和所述态势谓词函数以所述环境特征信息作为输入参数。

可选的，每个所述行动单元至少具有一个行动任务，每个所述行动任务包括以下至少一个任务要素：任务名称、任务客体、任务目标点、任务关键点、任务结束时间节点、任务动作、任务状态。

可选的，所述行动任务包括任务状态，所述任务状态的类型包括等待状态、进行中状态、中断状态和完成状态；所述基于决策规则确定的每个行动单元的行动任务的默认任务状态为等待状态；在根据所述环境特征信息，基于决策规则确定每个行动单元的行动任务之后，所述方法还包括：根据任务管理规则，管理每个所述行动单元的各行动任务的任务状态，以使每个所述行动单元按照各自行动任务的任务状态执行行动任务。

可选的，所述决策规则包括即时型任务决策规则和持续型任务决策规则；所述根据所述环境特征信息，基于决策规则确定每个行动单元的行动任务包括：根据所述环境特征信息，基于即时型任务决策规则确定每个行动单元的即时行动任务，以及基于持续型任务决策规则确定每个行动单元的持续行动任务。

可选的，各所述即时型任务决策规则之间具有不同的优先级；和/或各所述持续型任务决策规则之间具有不同的优先级。

可选的，所述根据所述环境特征信息，基于即时型任务决策规则确定每个行动单元的即时行动任务，以及基于持续型任务决策规则确定每个行动单元的持续行动任务包括：对于每个所述行动单元，执行以下操作：根据所述环境特征信息，基于即时型任务决策规则确定所述行动单元在当前决策时间节点是否具有对应的即时行动任务；若所述行动单元在当前决策时间节点具有对应的即时行动任务，则将该即时行动任务插入该行动单元的行动任务序列中；若所述行动单元在当前决策时间节点不具有对应的即时行动任务，则判断该行动单元的行动任务序列中是否具有行动任务；若该行动单元的行动任务序列中具有行动任务，则判断所述行动任务序列中的第一个行动任务的任务状态是否为中断状态或完成状态；若所述行动任务序列中的第一个行动任务的任务状态为中断状态或完成状态，则根据所述环境特征信息，基于持续型任务决策规则确定所述行动单元在当前决策时间节点是否具有对应的持续行动任务；若所述行动单元在当前决策时间节点具有对应的持续行动任务，则将该持续行动任务插入该行动单元的行动任务序列中。

可选的，所述根据任务管理规则，管理每个所述行动单元的各行动任务的任务状态包括：对于每个所述行动单元，执行以下操作：判断所述行动单元的行动任务序列中是否具有行动任务；若所述行动单元的行动任务序列中具有行动任务，则判断所述行动任务序列中的第一个行动任务的任务状态是进行中状态还是等待状态；若所述行动任务序列中的第一个行动任务的任务状态为进行中状态，则判断当前决策时间节点是否大于或等于该第一个行动任务的任务结束时间节点；若当前决策时间节点大于或等于该第一个行动任务的任务结束时间节点，则更新该第一个行动任务的任务状态为完成状态，删除该第一个行动任务，并返回执行判断所述行动单元的行动任务序列中是否具有行动任务的步骤；若所述行动任务序列中的第一个行动任务的任务状态为等待状态，则将该第一行动任务的任务状态更新为进行中状态。

可选的，若所述行动单元在当前决策时间节点具有至少两个对应的即时行动任务时，则所述将该即时行动任务插入该行动单元的行动任务序列中包括：获取各所述即时行动任务所对应的即时型任务决策规则的优先级；将优先级最高的即时型任务决策规则所对应的即时行动任务插入该行动单元的行动任务序列中。

可选的，若所述行动单元在当前决策时间节点具有至少两个对应的持续行动任务时，则所述将该持续行动任务插入该行动单元的行动任务序列中包括：获取各所述持续行动任务所对应的持续型任务决策规则的优先级；将优先级最高的持续型任务决策规则所对应的持续行动任务插入该行动单元的行动任务序列中。

第二方面，本发明实施例提供人机对抗知识驱动型决策装置，所述装置包括：获取单元，用于在每个决策时间节点，获取人机对抗环境下的环境特征信息；确定单元，用于根据所述环境特征信息，基于决策规则确定每个行动单元的行动任务，其中，所述决策规则包括由多个态势计算函数和多个态势谓词函数所构成的逻辑组合、以及与各所述逻辑组合的结果相对应的行动单元的行动任务，所述态势计算函数和所述态势谓词函数以所述环境特征信息作为输入参数。

可选的，所述行动任务包括任务状态，所述任务状态的类型包括等待状态、进行中状态、中断状态和完成状态；所述确定单元基于决策规则确定的每个行动单元的行动任务的默认任务状态为等待状态；所述装置还包括：管理单元，用于根据任务管理规则，管理每个所述行动单元的各行动任务的任务状态，以使每个所述行动单元按照各自行动任务的任务状态执行行动任务。

可选的，所述决策规则包括即时型任务决策规则和持续型任务决策规则；所述确定单元具体用于：根据所述环境特征信息，基于即时型任务决策规则确定每个行动单元的即时行动任务，以及基于持续型任务决策规则确定每个行动单元的持续行动任务。

可选的，所述确定单元具体包括：第一确定子单元，用于对于每个所述行动单元，根据所述环境特征信息，基于即时型任务决策规则确定所述行动单元在当前决策时间节点是否具有对应的即时行动任务；第一插入子单元，用于若所述第一确定子单元确定所述行动单元在当前决策时间节点具有对应的即时行动任务，则将该即时行动任务插入该行动单元的行动任务序列中；第一判断子单元，用于若所述第一确定子单元确定所述行动单元在当前决策时间节点不具有对应的即时行动任务，则判断该行动单元的行动任务序列中是否具有行动任务；第二判断子单元，用于若所述第一判断子单元判定该行动单元的行动任务序列中具有行动任务，则判断所述行动任务序列中的第一个行动任务的任务状态是否为中断状态或完成状态；第二确定子单元，用于若所述第二判断子单元判定所述行动任务序列中的第一个行动任务的任务状态为中断或完成状态，则根据所述环境特征信息，基于持续型任务决策规则确定所述行动单元在当前决策时间节点是否具有对应的持续行动任务；第二插入子单元，用于若所述第二确定子单元确定所述行动单元在当前决策时间节点具有对应的持续行动任务，则将该持续行动任务插入该行动单元的行动任务序列中。

可选的，所述管理单元包括：第三判断子单元，用于对于每个所述行动单元，判断所述行动单元的行动任务序列中是否具有行动任务；第四判断子单元，用于若所述第三判断子单元判定所述行动单元的行动任务序列中具有行动任务，则判断所述行动任务序列中的第一个行动任务的任务状态是进行中状态还是等待状态；第五判断子单元，用于若所述第四判断子单元判定所述行动任务序列中的第一个行动任务的任务状态为进行中状态，则判断当前决策时间节点是否大于或等于该第一个行动任务的任务结束时间节点；第一更新子单元，用于若所述第五判断子单元判定当前决策时间节点大于或等于该第一个行动任务的任务结束时间节点，则更新该第一个行动任务的任务状态为完成状态，删除该第一个行动任务，并返回由所述第三判断子单元执行判断所述行动单元的行动任务序列中是否具有行动任务的步骤；第二更新子单元，用于若所述第四判断子单元判定所述行动任务序列中的第一个行动任务的任务状态为等待状态，则将该第一行动任务的任务状态更新为进行中状态。

可选的，若所述行动单元在当前决策时间节点具有至少两个对应的即时行动任务时，则所述第一插入子单元具体用于：获取各所述即时行动任务所对应的即时型任务决策规则的优先级；将优先级最高的即时型任务决策规则所对应的即时行动任务插入该行动单元的行动任务序列中。

可选的，若所述行动单元在当前决策时间节点具有至少两个对应的持续行动任务时，则所述第二插入子单元具体用于：获取各所述持续行动任务所对应的持续型任务决策规则的优先级；将优先级最高的持续型任务决策规则所对应的持续行动任务插入该行动单元的行动任务序列中。

第三方面，本发明实施例提供了一种电子设备，包括：处理器、通信接口、存储器和通信总线，其中，处理器、通信接口和存储器通过通信总线完成相互间的通信；所述存储器，用于存储计算机程序；所述处理器，用于执行所述存储器中所存储的程序，实现第一方面或第一方面的任意可能的实施方式中的人机对抗知识驱动型决策方法的步骤。

第四方面，本申请实施例提供了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现第一方面或第一方面的任意可能的实施方式中的人机对抗知识驱动型决策方法的步骤。

本发明实施例提供的上述技术方案与现有技术相比具有如下优点：

本发明实施例提供的人机对抗知识驱动型决策方法、装置、电子设备及存储介质，通过在每个决策时间节点，获取人机对抗环境下的环境特征信息；根据所述环境特征信息，基于决策规则确定每个行动单元的行动任务，其中，所述决策规则包括由多个态势计算函数和多个态势谓词函数所构成的逻辑组合、以及与各所述逻辑组合的结果相对应的行动单元的行动任务，所述态势计算函数和所述态势谓词函数以所述环境特征信息作为输入参数。这样，在人机对抗决策过程中，充分利用了基于人类专家知识所构建的决策规则，使得人机对抗决策过程做到可解释、可学习，即实现了可信决策；且该可信决策是基于实时的环境特征信息实时做出的，故其还具有快速决策的优势。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中提供的一种人机对抗知识驱动型决策方法的流程示意图；

图2为本发明实施例中提供的各态势计算函数的实例；

图3为本发明实施例中提供的另一种人机对抗知识驱动型决策方法的流程示意图；

图4为本发明实施例中提供的人机对抗知识驱动型决策方法的部分流程示意图；

图5为本发明实施例中提供的人机对抗知识驱动型决策方法的另一部分流程示意图；

图6为本发明实施例中提供的人机对抗知识驱动型决策方法的又一部分流程示意图；

图7为本发明实施例中提供的一种人机对抗知识驱动型决策装置的结构示意图；

图8为本发明实施例中提供的另一种人机对抗知识驱动型决策装置的结构示意图；

图9为本发明实施例中提供的人机对抗知识驱动型决策装置的部分结构示意图；

图10为本发明实施例中提供的人机对抗知识驱动型决策装置的另一部分结构示意图；

图11为本发明实施例中提供的电子设备的结构连接示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

本发明实施例所提供的人机对抗知识驱动型决策方法，能够基于人机对抗环境下的环境特征信息做出快速、可信的决策。

如图1所示，本发明实施例所提供的人机对抗知识驱动型决策方法，包括：

步骤101、在每个决策时间节点，获取人机对抗环境下的环境特征信息；

本步骤，可以每隔一固定时间间隔进行一次决策，也可以根据其他条件触发所述决策，例如根据所述人机对抗环境下的某一或某一些环境特征触发所述决策。

所述人机对抗环境下的环境特征信息可以包括我方兵力信息、我方兵力位置信息、敌方兵力信息、敌方兵力位置信息、地形信息等。

步骤102、根据所述环境特征信息，基于决策规则确定每个行动单元的行动任务，其中，所述决策规则包括由多个态势计算函数和多个态势谓词函数所构成的逻辑组合、以及与各所述逻辑组合的结果相对应的行动单元的行动任务，所述态势计算函数和所述态势谓词函数以所述环境特征信息作为输入参数。

本步骤，所述态势计算函数用于计算具体的态势特征数值，所述态势谓词函数用于判断具体的态势特征的真值，两种函数均以所述环境特征信息作为输入参数；如图2所示，所述态势计算函数可以包括若干地形分析算法、若干我情分析算法、若干敌情分析算法以及若干威胁分析算法等，其中，算法即函数。

本实施例中，行动单元指执行行动任务的施事行动单元（即任务主体）。

具体的，在本发明的一可选实施例中，所述态势计算函数可以包括用于计算“对敌射界佳区域”函数current_well_fire_poss_static(ops, myScope:list[int], ops_enemy:list[operator])，其输入ops: operator 为兵力算子、myScope: list[int]为我活动区域、ops_enemy: list[operator] 为敌算子列表，返回值为坐标范围list[int]，此函数的功能为计算我方某算子ops在myScope活动区域内，对敌ops_enemy射界佳的位置点。

在本发明的另一具体实施例中，所述态势谓词函数可以包括“是否可视”谓词函数can_be_see(ops1,ops2), 其输入ops1: operator和 ops2: operator为兵力算子，范围值为bool值，此函数的功能为判断算子ops1是否对算子ops2可视。

多个态势计算函数和多个态势谓词函数所构成的逻辑组合构成所述决策规则的规则前件，具体行动单元的行动任务构成所述决策规则的规则后件，规则后件可以由满足匹配条件的逻辑组合的结果所触发，将各具体行动单元被触发的行动任务作为所述行动单元的行动任务。

本发明实施例提供的人机对抗知识驱动型决策方法，通过在每个决策时间节点，获取人机对抗环境下的环境特征信息；根据所述环境特征信息，基于决策规则确定每个行动单元的行动任务，其中，所述决策规则包括由多个态势计算函数和多个态势谓词函数所构成的逻辑组合、以及与各所述逻辑组合的结果相对应的具体行动单元的行动任务，所述态势计算函数和所述态势谓词函数以所述环境特征信息作为输入参数。这样，在人机对抗决策过程中，充分利用了基于人类专家知识所构建的决策规则，使得人机对抗决策过程做到可解释、可学习，即实现了可信决策；且该可信决策是基于实时的环境特征信息实时做出的，故其还具有快速决策的优势。

可选的，在上述实施例中，每个所述行动单元可以至少具有一个行动任务，每个所述行动任务包括以下至少一个任务要素：任务名称、任务客体、任务目标点、任务关键点、任务结束时间节点、任务动作、任务状态。

本实施例，即在根据所述环境特征信息，基于决策规则确定的每个行动单元的行动任务的数量可以至少为一个；所述行动任务的任务名称可以为该行动任务的特定命名，用于与其他行动任务进行区分，例如行动任务“无人机配合武直侦察敌步兵任务”的任务名称为“无人机配合武直侦察敌步兵任务”，另外，所述任务名称还可以在人机对抗决策作出之后，方便人解读所述行动任务。

所述行动任务的任务客体可以为该行动任务执行中的受事行动单元（敌方行动单元）；所述行动任务的任务目标点可以为该行动任务的目的地；所述行动任务的任务关键点可以为该行动任务执行过程中的重要位置；所述行动任务的任务结束时间节点可以为结束执行该行动任务的时间节点；所述行动任务的任务动作可以为驱使该行动任务执行的行动单元的具体动作；所述行动任务的任务状态指该行动任务的当前状态。所述行动任务的任务状态具体可以包括“等待”、“进行中”、“完成”、“中断”等状态，默认为“等待”状态。

举例而言，在本发明的一实施例中，“无人机配合武直侦察敌步兵任务”的任务名称为“无人机配合武直侦察敌步兵任务”，行动单元为“无人机”，任务客体为“敌步兵”，任务目标点为“距离武装直升机10-12格区域”，任务关键点为“敌步兵可能出现位置”，任务结束时间是第“1600秒”，任务动作是“机动：飞往目标位置”，目标状态为“等待”。

在上述实施例中，所述行动任务的各任务要素可设置默认值或默认计算方式，如当决策规则“IF 武装直升机收到步兵威胁<6 AND 全局赢面>5 THEN 武装直升机进攻”被触发时，其相应行动任务的任务名称为“武装直升机进攻”，任务主体是“武装直升机”，任务目标点是一个基于计算函数get_ ops(ops, scope)，其输入为态势特征，ops为直升机算子，scope为“对敌射界佳区域”函数current_well_fire_poss_static的计算结果。

可选的，在上述任一实施例中，所述行动任务包括任务状态，所述任务状态的类型包括等待状态、进行中状态、中断状态和完成状态；所述基于决策规则确定的每个行动单元的行动任务的默认任务状态为等待状态；如图3所示，在根据所述环境特征信息，基于决策规则确定每个行动单元的行动任务之后，所述方法还可以包括：

步骤103、根据任务管理规则，管理每个所述行动单元的各行动任务的任务状态，以使每个所述行动单元按照各自行动任务的任务状态执行行动任务。

本实施例，在某个行动单元的行动任务的数量为一个以上时，为更好的管理各行动任务，以避免各行动任务之间的执行发生冲突，可以采用专用的任务管理规则来管理行动单元的各行动任务的任务状态。

可选的，所述决策规则可以包括即时型任务决策规则和持续型任务决策规则；所述根据所述环境特征信息，基于决策规则确定每个行动单元的行动任务包括：

根据所述环境特征信息，基于即时型任务决策规则确定每个行动单元的即时行动任务，以及基于持续型任务决策规则确定每个行动单元的持续行动任务。

本实施例，所述即时行动任务具有即时性的特点，例如“射击”、“夺控”、“间瞄”等；所述持续行动任务具有持续性的特点，例如“无人机配合武直侦察敌步兵”、“武装进攻步战车”、“武装直升机侦察”等。所述即时型任务决策规则和所述持续型任务决策规则均可以为产生式规则。将所述决策规则分为即时型任务决策规则和持续型任务决策规则，且分别根据这两种规则确定行动单元的即时行动任务和持续行动任务，使得人机对抗决策更加可信。

可选的，在上述任一实施例中，各所述即时型任务决策规则之间具有不同的优先级；和/或各所述持续型任务决策规则之间具有不同的优先级。

本实施例，每一类所述决策规则之间具有优先级定义，这样，对于同一行动单元来说，当基于同一类决策规则下的各决策规则能够确定出所述行动单元的多个行动任务时，可以按照各行动任务所对应的决策规则的优先级顺序执行各所述行动任务，或者从所述行动任务中挑选出最优的行动任务执行。

如图4所示，可选的，在上述任一实施例中，所述根据所述环境特征信息，基于即时型任务决策规则确定每个行动单元的即时行动任务，以及基于持续型任务决策规则确定每个行动单元的持续行动任务包括：

对于每个所述行动单元，执行以下操作：

步骤1021、根据所述环境特征信息，基于即时型任务决策规则确定所述行动单元在当前决策时间节点是否具有对应的即时行动任务；

步骤1022、若所述行动单元在当前决策时间节点具有对应的即时行动任务，则将该即时行动任务插入该行动单元的行动任务序列中；

步骤1023、若所述行动单元在当前决策时间节点不具有对应的即时行动任务，则判断该行动单元的行动任务序列中是否具有行动任务；

步骤1024、若该行动单元的行动任务序列中具有行动任务，则判断所述行动任务序列中的第一个行动任务的任务状态是否为中断状态或完成状态；

步骤1025、若所述行动任务序列中的第一个行动任务的任务状态为中断状态或完成状态，则根据所述环境特征信息，基于持续型任务决策规则确定所述行动单元在当前决策时间节点是否具有对应的持续行动任务；

步骤1026、若所述行动单元在当前决策时间节点具有对应的持续行动任务，则将该持续行动任务插入该行动单元的行动任务序列中。

需要说明的是，本实施例中，若所述行动任务序列中的第一个行动任务的任务状态不是中断状态或完成状态，说明该行动单元的当前任务正在执行，因此不会进行任何操作直到下一个决策时间节点。

本实施例，所述行动单元的行动任务序列可以以列表的形式存在。本实施例首先根据即时型任务决策规则确定所述行动单元在当前决策时间节点是否具有对应的即时行动任务，若具有，则将其添加至对应的行动单元的行动任务序列中，即首先响应行动单元的即时行动任务，保证对决策响应的实时性与可靠性。

在不存在即时行动任务的情况下，再去判断所述行动单元的行动任务序列是否具有行动任务，在所述行动单元当前不具有行动任务或第一个行动任务中断或完成的情况下，再基于持续型任务决策规则确定所述行动单元在当前决策时间节点是否具有对应的持续行动任务；若有，则将其添加至对应的行动单元的行动任务序列中。以减少所述行动单元的行动任务堆积，造成行动任务拥堵，导致无法实时响应人机对抗环境的问题。

如图5所示，可选的，所述根据任务管理规则，管理每个所述行动单元的各行动任务的任务状态包括：

对于每个所述行动单元，执行以下操作：

步骤1031、判断所述行动单元的行动任务序列中是否具有行动任务；

步骤1032、若所述行动单元的行动任务序列中具有行动任务，则判断所述行动任务序列中的第一个行动任务的任务状态是进行中状态还是等待状态；

步骤1033、若所述行动任务序列中的第一个行动任务的任务状态为进行中状态，则判断当前决策时间节点是否大于或等于该第一个行动任务的任务结束时间节点；

步骤1034、若当前决策时间节点大于或等于该第一个行动任务的任务结束时间节点，则更新该第一个行动任务的任务状态为完成状态，删除该第一个行动任务，并返回执行步骤1031；

步骤1035、若所述行动任务序列中的第一个行动任务的任务状态为等待状态，则将该第一行动任务的任务状态更新为进行中状态。

本实施例，所述任务管理规则，能够及时更新所述行动单元的各行动任务的状态，清除已完成的行动任务，保证所述行动任务序列中的行动任务按时、有序的进行。

可选的，在上述实施例中，若所述行动单元在当前决策时间节点具有至少两个对应的即时行动任务时，则所述将该即时行动任务插入该行动单元的行动任务序列中包括：获取各所述即时行动任务所对应的即时型任务决策规则的优先级；将优先级最高的即时型任务决策规则所对应的即时行动任务插入该行动单元的行动任务序列中。

本实施例，每一种所述即时型任务决策规则分别具有不同的优先级定义，这样，对于同一行动单元来说，当基于各即时型任务决策规则能够确定出所述行动单元的多个即时行动任务时，可以按照各行动任务所对应的即时型任务决策规则的优先级从所述即时行动任务中挑选出最优的行动任务执行。

具体地，在本发明一实施例中，如规则1为“IF 步兵满足射击条件 THEN 步兵射击”，其优先级为0.9；规则2为“IF 步兵满足夺控条件 THEN 步兵夺控”，其优先级为1。如果规则1和规则2同时匹配成功，那么根据优先级排序，选择规则2的规则后件执行动作，即为步兵会执行夺控任务。

可选的，在上述实施例中，若所述行动单元在当前决策时间节点具有至少两个对应的持续行动任务时，则所述将该持续行动任务插入该行动单元的行动任务序列中包括：获取各所述持续行动任务所对应的持续型任务决策规则的优先级；将优先级最高的持续型任务决策规则所对应的持续行动任务插入该行动单元的行动任务序列中。

本实施例，每一种所述持续型任务决策规则分别具有不同的优先级定义，这样，对于同一行动单元来说，当基于各持续型任务决策规则能够确定出所述行动单元的多个持续行动任务时，可以按照各行动任务所对应的持续型任务决策规则的优先级从所述持续行动任务中挑选出最优的行动任务执行。

具体地，在本发明一实施例中，如规则1为“IF 武装直升机收到步兵威胁>=6 AND全局赢面<=5 THEN 武装直升机撤退”，其优先级为0.9；规则2为“IF 武装直升机对步兵攻击等级>=8 THEN 武装直升机进攻”，其优先级为0.6。如果规则1和规则2同时匹配成功，那么根据优先级排序，选择规则1的规则后件执行动作，即为武装直升机会执行撤退任务。

可选的，在上述任一实施例中，在步骤101之前，可以对每个行动单元的行动任务序列进行初始化操作，以使所述行动任务序列为空。在步骤102或步骤103之后，将各所述行动单元的行动任务发送给各所述行动单元（人机对抗引擎）执行。

如图6所示，可选的，在上述任一实施例中，所述决策规则可以在步骤101之前构建，具体的，所述决策规则的构建方法可以包括：

步骤001、构建态势算法库以及行动任务库，其中，所述态势算法库中包括多个态势计算函数和多个态势谓词函数，所述行动任务库中包括多个行动单元的行动任务；

步骤002、根据所述态势算法库和所述行动任务库构建决策规则库，所述决策规则库中包括多个决策规则，每个所述决策规则包括由多个态势计算函数和多个态势谓词函数所构成的逻辑组合、以及与各所述逻辑组合的结果相对应的行动单元的行动任务，所述态势计算函数和所述态势谓词函数以所述环境特征信息作为输入参数。

本实施例，首先完成态势计算知识、行动任务知识以及决策规则知识的构建，然后进行在线决策：接收人机对抗环境下输入的环境特征信息，并基于决策规则推理出每个行动单元的行动任务序列（或行动任务列表），进一步基于任务管理规则生成当前决策时节需要执行的所有行动任务，从而最终生成当前人机对抗决策时间节点的决策。本发明实施例公开的上述方法充分利用人类专家知识，建模人机对抗环境模型、行动单元行动模型和决策模型；通过对实时态势下各类特征的实时计算，以即时型任务（或称反应式任务）和持续型任务（或称规划式任务）驱动人机对抗实时决策，具有快速、可信、可扩展知识提升性能等决策优势。

基于同一构思，本申请实施例中提供了人机对抗知识驱动型决策装置，该装置的具体实施可参见方法实施例部分的描述，重复之处不再赘述，如图7所示，该装置主要包括：获取单元11，用于在每个决策时间节点，获取人机对抗环境下的环境特征信息；确定单元12，用于根据所述环境特征信息，基于决策规则确定每个行动单元的行动任务，其中，所述决策规则包括由多个态势计算函数和多个态势谓词函数所构成的逻辑组合、以及与各所述逻辑组合的结果相对应的行动单元的行动任务，所述态势计算函数和所述态势谓词函数以所述环境特征信息作为输入参数。

可选的，所述行动任务包括任务状态，所述任务状态的类型包括等待状态、进行中状态、中断状态和完成状态；所述确定单元基于决策规则确定的每个行动单元的行动任务的默认任务状态为等待状态；如图8所示，所述装置还包括：管理单元13，用于根据任务管理规则，管理每个所述行动单元的各行动任务的任务状态，以使每个所述行动单元按照各自行动任务的任务状态执行行动任务。

如图9所示，可选的，所述确定单元具体包括：第一确定子单元121，用于对于每个所述行动单元，根据所述环境特征信息，基于即时型任务决策规则确定该行动单元在当前决策时间节点是否具有对应的即时行动任务；第一插入子单元122，用于若第一确定子单元121确定所述行动单元在当前决策时间节点具有对应的即时行动任务，则将该即时行动任务插入该行动单元的行动任务序列中；第一判断子单元123，用于若第一确定子单元121确定所述行动单元在当前决策时间节点不具有对应的即时行动任务，则判断该行动单元的行动任务序列中是否具有行动任务；第二判断子单元124，用于若第一判断子单元123判定该行动单元的行动任务序列中具有行动任务，则判断所述行动任务序列中的第一个行动任务的任务状态是否为中断或完成状态；第二确定子单元125，用于若第二判断子单元124判定所述行动任务序列中的第一个行动任务的任务状态为中断或完成状态，则根据所述环境特征信息，基于持续型任务决策规则确定所述行动单元在当前决策时间节点是否具有对应的持续行动任务；第二插入子单元126，用于若第二确定子单元125确定所述行动单元在当前决策时间节点具有对应的持续行动任务，则将该持续行动任务插入该行动单元的行动任务序列中。

如图10所示，可选的，所述管理单元包括：第三判断子单元131，用于对于每个所述行动单元，判断该行动单元的行动任务序列中是否具有行动任务；第四判断子单元132，用于若第三判断子单元131判定所述行动单元的行动任务序列中具有行动任务，则判断所述行动任务序列中的第一个行动任务的任务状态是否为进行中状态或等待状态；第五判断子单元133，用于若第四判断子单元132判定所述行动任务序列中的第一个行动任务的状态为进行中状态，则判断当前决策时间节点是否大于或等于该第一个行动任务的任务结束时间节点；第一更新子单元134，用于若第五判断子单元133判定当前决策时间节点大于或等于该第一个行动任务的任务结束时间节点，则更新该第一个行动任务的任务状态为完成状态，删除该第一个行动任务，并返回由第三判断子单元131执行判断所述行动单元的行动任务序列中是否具有行动任务的步骤；第二更新子单元135，用于若第四判断子单元132判定所述行动任务序列中的第一个行动任务的任务状态为等待状态，则将该第一行动任务的任务状态更新为进行中状态。

可选的，若所述行动单元在当前决策时间节点具有至少两个对应的即时行动任务时，则所述第一插入子单元122具体用于：获取各所述即时行动任务中优先级最高的即时行动任务；将该优先级最高的即时行动任务插入该行动单元的行动任务序列中。

可选的，若所述行动单元在当前决策时间节点具有至少两个对应的持续行动任务时，则所述第二插入子单元126具体用于：获取各所述持续行动任务中优先级最高的持续行动任务；将该优先级最高的持续行动任务插入该行动单元的行动任务序列中。

基于同一构思，本申请实施例中还提供了一种电子设备，如图11所示，该电子设备主要包括：处理器201、通信接口202、存储器203和通信总线204，其中，处理器201、通信接口202和存储器203通过通信总线204完成相互间的通信。其中，存储器203中存储有可被至处理器201执行的程序，处理器201执行存储器203中存储的程序，实现如下步骤：在每个决策时间节点，获取人机对抗环境下的环境特征信息；根据所述环境特征信息，基于决策规则确定每个行动单元的行动任务，其中，所述决策规则包括由多个态势计算函数和多个态势谓词函数所构成的逻辑组合、以及与各所述逻辑组合的结果相对应的行动单元的行动任务，所述态势计算函数和所述态势谓词函数以所述环境特征信息作为输入参数。

上述电子设备中提到的通信总线204可以是外设部件互连标准（PeripheralComponent Interconnect，简称PCI）总线或扩展工业标准结构（Extended IndustryStandard Architecture，简称EISA）总线等。该通信总线204可以分为地址总线、数据总线、控制总线等。为便于表示，图11中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口202用于上述电子设备与其他设备之间的通信。

存储器203可以包括随机存取存储器（Random Access Memory，简称RAM），也可以包括非易失性存储器（non-volatile memory），例如至少一个磁盘存储器。可选地，存储器还可以是至少一个位于远离前述处理器201的存储装置。

上述的处理器201可以是通用处理器，包括中央处理器（Central ProcessingUnit，简称CPU）、网络处理器（Network Processor，简称NP）等，还可以是数字信号处理器（Digital Signal Processing，简称DSP）、专用集成电路（Application SpecificIntegrated Circuit，简称ASIC）、现场可编程门阵列（Field-Programmable Gate Array，简称FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本申请的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，当该计算机程序在计算机上运行时，使得计算机执行上述实施例中所描述的人机对抗知识驱动型决策方法的步骤，该方法的主要步骤包括：在每个决策时间节点，获取人机对抗环境下的环境特征信息；根据所述环境特征信息，基于决策规则确定每个行动单元的行动任务，其中，所述决策规则包括由多个态势计算函数和多个态势谓词函数所构成的逻辑组合、以及与各所述逻辑组合的结果相对应的行动单元的行动任务，所述态势计算函数和所述态势谓词函数以所述环境特征信息作为输入参数。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机指令时，全部或部分地产生按照本申请实施例所述的流程或功能。该计算机可以时通用计算机、专用计算机、计算机网络或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，计算机指令从一个网站站点、计算机、服务器或者数据中心通过有线（例如同轴电缆、光纤、数字用户线（DSL））或无线（例如红外、微波等）方式向另外一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质（例如软盘、硬盘、磁带等）、光介质（例如DVD）或者半导体介质（例如固态硬盘）等。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本发明的具体实施方式，使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims

1.人机对抗知识驱动型决策方法，其特征在于，所述方法包括：

在每个决策时间节点，获取人机对抗环境下的环境特征信息；

根据所述环境特征信息，基于决策规则确定每个行动单元的行动任务，其中，所述决策规则包括由多个态势计算函数和多个态势谓词函数所构成的逻辑组合、以及与各所述逻辑组合的结果相对应的行动单元的行动任务，所述态势计算函数和所述态势谓词函数以所述环境特征信息作为输入参数。

2.根据权利要求1所述的方法，其特征在于，每个所述行动单元至少具有一个行动任务，每个所述行动任务包括以下至少一个任务要素：任务名称、任务客体、任务目标点、任务关键点、任务结束时间节点、任务动作、任务状态。

3.根据权利要求2所述的方法，其特征在于，所述行动任务包括任务状态，所述任务状态的类型包括等待状态、进行中状态、中断状态和完成状态；所述基于决策规则确定的每个行动单元的行动任务的默认任务状态为等待状态；

在根据所述环境特征信息，基于决策规则确定每个行动单元的行动任务之后，所述方法还包括：

根据任务管理规则，管理每个所述行动单元的各行动任务的任务状态，以使每个所述行动单元按照各自行动任务的任务状态执行行动任务。

4.根据权利要求3所述的方法，其特征在于，所述决策规则包括即时型任务决策规则和持续型任务决策规则；所述根据所述环境特征信息，基于决策规则确定每个行动单元的行动任务包括：

5.根据权利要求4所述的方法，其特征在于，各所述即时型任务决策规则之间具有不同的优先级；和/或

各所述持续型任务决策规则之间具有不同的优先级。

6.根据权利要求5所述的方法，其特征在于，所述根据所述环境特征信息，基于即时型任务决策规则确定每个行动单元的即时行动任务，以及基于持续型任务决策规则确定每个行动单元的持续行动任务包括：

对于每个所述行动单元，执行以下操作：

根据所述环境特征信息，基于即时型任务决策规则确定所述行动单元在当前决策时间节点是否具有对应的即时行动任务；

若所述行动单元在当前决策时间节点具有对应的即时行动任务，则将该即时行动任务插入该行动单元的行动任务序列中；

若所述行动单元在当前决策时间节点不具有对应的即时行动任务，则判断该行动单元的行动任务序列中是否具有行动任务；

若该行动单元的行动任务序列中具有行动任务，则判断所述行动任务序列中的第一个行动任务的任务状态是否为中断状态或完成状态；

若所述行动任务序列中的第一个行动任务的任务状态为中断状态或完成状态，则根据所述环境特征信息，基于持续型任务决策规则确定所述行动单元在当前决策时间节点是否具有对应的持续行动任务；

若所述行动单元在当前决策时间节点具有对应的持续行动任务，则将该持续行动任务插入该行动单元的行动任务序列中。

7.根据权利要求6所述的方法，其特征在于，所述根据任务管理规则，管理每个所述行动单元的各行动任务的任务状态包括：

对于每个所述行动单元，执行以下操作：

判断所述行动单元的行动任务序列中是否具有行动任务；

若所述行动单元的行动任务序列中具有行动任务，则判断所述行动任务序列中的第一个行动任务的任务状态是进行中状态还是等待状态；

若所述行动任务序列中的第一个行动任务的任务状态为进行中状态，则判断当前决策时间节点是否大于或等于该第一个行动任务的任务结束时间节点；

若当前决策时间节点大于或等于该第一个行动任务的任务结束时间节点，则更新该第一个行动任务的任务状态为完成状态，删除该第一个行动任务，并返回执行判断所述行动单元的行动任务序列中是否具有行动任务的步骤；

若所述行动任务序列中的第一个行动任务的任务状态为等待状态，则将该第一行动任务的任务状态更新为进行中状态。

8.根据权利要求6所述的方法，其特征在于，若所述行动单元在当前决策时间节点具有至少两个对应的即时行动任务时，则所述将该即时行动任务插入该行动单元的行动任务序列中包括：

获取各所述即时行动任务所对应的即时型任务决策规则的优先级；

将优先级最高的即时型任务决策规则所对应的即时行动任务插入该行动单元的行动任务序列中。

9.根据权利要求6所述的方法，其特征在于，若所述行动单元在当前决策时间节点具有至少两个对应的持续行动任务时，则所述将该持续行动任务插入该行动单元的行动任务序列中包括：

获取各所述持续行动任务所对应的持续型任务决策规则的优先级；

将优先级最高的持续型任务决策规则所对应的持续行动任务插入该行动单元的行动任务序列中。

10.人机对抗知识驱动型决策装置，其特征在于，所述装置包括：

获取单元，用于在每个决策时间节点，获取人机对抗环境下的环境特征信息；

确定单元，用于根据所述环境特征信息，基于决策规则确定每个行动单元的行动任务，其中，所述决策规则包括由多个态势计算函数和多个态势谓词函数所构成的逻辑组合、以及与各所述逻辑组合的结果相对应的行动单元的行动任务，所述态势计算函数和所述态势谓词函数以所述环境特征信息作为输入参数。

11.根据权利要求10所述的装置，其特征在于，每个所述行动单元至少具有一个行动任务，每个所述行动任务包括以下至少一个任务要素：任务名称、任务客体、任务目标点、任务关键点、任务结束时间节点、任务动作、任务状态。

12.根据权利要求11所述的装置，其特征在于，所述行动任务包括任务状态，所述任务状态的类型包括等待状态、进行中状态、中断状态和完成状态；所述确定单元基于决策规则确定的每个行动单元的行动任务的默认任务状态为等待状态；所述装置还包括：

管理单元，用于根据任务管理规则，管理每个所述行动单元的各行动任务的任务状态，以使每个所述行动单元按照各自行动任务的任务状态执行行动任务。

13.根据权利要求12所述的装置，其特征在于，所述决策规则包括即时型任务决策规则和持续型任务决策规则；所述确定单元具体用于：

14.根据权利要求13所述的装置，其特征在于，各所述即时型任务决策规则之间具有不同的优先级；和/或

各所述持续型任务决策规则之间具有不同的优先级。

15.根据权利要求14所述的装置，其特征在于，所述确定单元具体包括：

第一确定子单元，用于对于每个所述行动单元，根据所述环境特征信息，基于即时型任务决策规则确定所述行动单元在当前决策时间节点是否具有对应的即时行动任务；

第一插入子单元，用于若所述第一确定子单元确定所述行动单元在当前决策时间节点具有对应的即时行动任务，则将该即时行动任务插入该行动单元的行动任务序列中；

第一判断子单元，用于若所述第一确定子单元确定所述行动单元在当前决策时间节点不具有对应的即时行动任务，则判断该行动单元的行动任务序列中是否具有行动任务；

第二判断子单元，用于若所述第一判断子单元判定该行动单元的行动任务序列中具有行动任务，则判断所述行动任务序列中的第一个行动任务的任务状态是否为中断状态或完成状态；

第二确定子单元，用于若所述第二判断子单元判定所述行动任务序列中的第一个行动任务的任务状态为中断或完成状态，则根据所述环境特征信息，基于持续型任务决策规则确定所述行动单元在当前决策时间节点是否具有对应的持续行动任务；

第二插入子单元，用于若所述第二确定子单元确定所述行动单元在当前决策时间节点具有对应的持续行动任务，则将该持续行动任务插入该行动单元的行动任务序列中。

16.根据权利要求15所述的装置，其特征在于，所述管理单元包括：

第三判断子单元，用于对于每个所述行动单元，判断所述行动单元的行动任务序列中是否具有行动任务；

第四判断子单元，用于若所述第三判断子单元判定所述行动单元的行动任务序列中具有行动任务，则判断所述行动任务序列中的第一个行动任务的任务状态是进行中状态还是等待状态；

第五判断子单元，用于若所述第四判断子单元判定所述行动任务序列中的第一个行动任务的任务状态为进行中状态，则判断当前决策时间节点是否大于或等于该第一个行动任务的任务结束时间节点；

第一更新子单元，用于若所述第五判断子单元判定当前决策时间节点大于或等于该第一个行动任务的任务结束时间节点，则更新该第一个行动任务的任务状态为完成状态，删除该第一个行动任务，并返回由所述第三判断子单元执行判断所述行动单元的行动任务序列中是否具有行动任务的步骤；

第二更新子单元，用于若所述第四判断子单元判定所述行动任务序列中的第一个行动任务的任务状态为等待状态，则将该第一行动任务的任务状态更新为进行中状态。

17.根据权利要求15所述的装置，其特征在于，若所述行动单元在当前决策时间节点具有至少两个对应的即时行动任务时，则所述第一插入子单元具体用于：

18.根据权利要求15所述的装置，其特征在于，若所述行动单元在当前决策时间节点具有至少两个对应的持续行动任务时，则所述第二插入子单元具体用于：

19.一种电子设备，其特征在于，包括：处理器、通信接口、存储器和通信总线，其中，处理器、通信接口和存储器通过通信总线完成相互间的通信；

所述存储器，用于存储计算机程序；

所述处理器，用于执行所述存储器中所存储的程序，实现权利要求1至9任一项所述的人机对抗知识驱动型决策方法。

20.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至9任一项所述的人机对抗知识驱动型决策方法。