CN112633519A

CN112633519A - 人机对抗行动预测方法、装置、电子设备和存储介质

Info

Publication number: CN112633519A
Application number: CN202110263555.5A
Authority: CN
Inventors: 黄凯奇; 赵美静; 尹奇跃
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2021-03-11
Filing date: 2021-03-11
Publication date: 2021-04-09
Anticipated expiration: 2041-03-11
Also published as: CN112633519B

Abstract

本发明提供一种人机对抗行动预测方法、装置、电子设备和存储介质，其中方法包括:基于人机对抗环境信息，构建对抗空间，并建模得到对抗空间模型；对所述对抗空间模型进行分析和推理，构建态势认知模型；基于所述态势认知模型进行宏观决策，生成宏观策略规划，并将所述宏观策略规划分解为每个行动单元的微操行为；基于每个行动单元的微操行为和所述态势认知模型，针对每个行动单元进行目标选择、路径生成、时间规划和底层动作生成，得到各行动单元的行动序列。本发明提高了智能体的人机对抗能力。

Description

人机对抗行动预测方法、装置、电子设备和存储介质

技术领域

本发明涉及人机对抗技术领域，尤其涉及一种人机对抗行动预测方法、装置、电子设备和存储介质。

背景技术

人机对抗作为人工智能研究的前沿方向，已成为国内外智能决策领域研究的热点，并为探寻机器智能的内在生长机制和关键技术的验证提供有效试验环境和途径。基于人类现有的知识和智能水平，通过研究和实现新型的智能学习算法，使得机器智能在可控的范围内不断接近、达到甚至超过人类的智能水平。整个过程不仅能够让机器更加智能地为人类服务，而且人类也能够借鉴机器智能的发展过程，提升自身的智能水平，进而推动整个社会由信息化向智能化发展。然而，巨复杂、高动态、不确定的强对抗环境给智能认知和决策带来巨大挑战，人类的感知和决策能力由于受自身生理和心理方面的限制，面对复杂、动态、对抗环境下智能认知与决策需求，迫切需要以机器为载体的人工智能技术的辅助与支撑。

人工智能技术的发展通常可分为计算智能、感知智能和认知智能三个阶段。传统的人工智能以强大的计算能力为主要特征，其特点是快速计算和记忆存储能力大幅超越人类。近年来，以机器学习为代表的人工智能技术得到了飞速发展，使得机器获取、处理和分析信息的水平得到了大幅提升。感知智能算法在语音处理、图像识别、文本翻译等诸多问题中都已经达到甚至局部超过人类的感知能力。在认知决策领域，虽然计算机目前才刚刚起步，还未达到人类水平，但是认知智能的应用前景广阔，影响深远，因此认知智能的相关研究如火如荼。近几年来，以AlphaGo、冷扑大师等为代表的智能博弈算法在边界确定、规则固定的人机对抗问题中已经战胜了人类顶级专业选手，为人工智能技术由感知智能向认知智能跨越式发展带来了新的曙光。

虽然人机对抗智能技术获得极大的关注，并在不同应用领域展现出其应用前景，但可建模、可计算以及可解释的人机对抗智能决策过程，还没有系统性的技术方案。因此，亟需一种系统性的人机对抗智能决策方法，实现智能体对抗行动的准确预测。

发明内容

本发明提供一种人机对抗行动预测方法、装置、电子设备和存储介质，实现智能体对抗行动的准确预测，提高智能体的对抗能力。

本发明提供一种人机对抗行动预测方法，包括：

基于人机对抗环境信息，构建对抗空间，并建模得到对抗空间模型；所述对抗空间包括状态空间和动作空间；所述状态空间包括我方状态表示、敌方状态表示以及环境状态表示；所述动作空间为多层级行为空间，其中上一层行为空间中的行为由下一层行为空间中的多个行为组合而成；

对所述对抗空间模型进行分析和推理，构建态势认知模型；所述态势认知模型包括：基本态势表示、全局态势表示和局部态势表示；所述基本态势表示包括我方基本态势、敌方基本态势和环境基本态势；所述全局态势表示包括全局威胁评估结果、全局赢面分析结果和全局意图识别结果；所述局部态势表示包括局部威胁评估结果、局部赢面分析结果和局部意图识别结果；

基于所述态势认知模型进行宏观决策，生成宏观策略规划，并将所述宏观策略规划分解为每个行动单元的微操行为；

基于每个行动单元的微操行为和所述态势认知模型，针对每个行动单元进行目标选择、路径生成、时间规划和底层动作生成，得到各行动单元的行动序列。

根据本发明提供的一种人机对抗行动预测方法，所述动作空间包括原子行为、微操行为、协同行为以及策略行为；

所述微操行为由所述原子行为组合而成；

所述协同行为由所述微操行为组合而成；

所述策略行为由所述协同行为组合而成。

根据本发明提供的一种人机对抗行动预测方法，所述人机对抗环境信息包括实时盘面观察信息和初始地图信息。

根据本发明提供的一种人机对抗行动预测方法，所述状态空间是基于如下步骤确定的：

基于我方行动单元的属性信息、我方分数信息和我方占地信息，构建我方状态表示；

基于敌方行动单元的属性信息、敌方分数信息和敌方占地信息，构建敌方状态表示；

基于地图属性信息、地图规则信息和推演反馈信息，构建环境状态表示。

根据本发明提供的一种人机对抗行动预测方法，所述基本态势表示是基于如下步骤确定的：

基于我方行动单元的状态变化信息、我方行动单元的当前可执行行为信息和我方得失信息，构建我方基本态势；

基于敌方行动单元的状态变化信息、敌方行动单元的当前可执行行为信息和敌方得失信息，构建敌方基本态势；

基于关键地形信息、对抗时空信息和对抗裁决信息，构建环境基本态势。

根据本发明提供的一种人机对抗行动预测方法，所述全局态势表示是基于如下步骤确定的：

对我方在当前态势下面临的来自敌方的整体威胁程度进行评估，得到所述全局威胁评估结果；

对我方在当前态势下进行对抗的赢面概率进行预测，得到所述全局赢面分析结果；

对敌方在当前态势下采取的对抗策略进行预测，得到所述全局意图识别结果。

根据本发明提供的一种人机对抗行动预测方法，所述局部态势表示是基于如下步骤确定的：

对我方各个行动单元在当前态势下面临的来自敌方的威胁程度进行评估，得到所述局部威胁评估结果；

对我方各个行动单元在当前态势下进行对抗的赢面概率进行预测，得到所述局部赢面分析结果；

对敌方各个行动单元在当前态势下采取的对抗行为进行预测，得到所述局部意图识别结果。

本发明还提供一种人机对抗行动预测装置，包括：

对抗空间表示建模单元，用于基于人机对抗环境信息，构建对抗空间，并建模得到对抗空间模型；所述对抗空间包括状态空间和动作空间；所述状态空间包括我方状态表示、敌方状态表示以及环境状态表示；所述动作空间为多层级行为空间，其中上一层行为空间中的行为由下一层行为空间中的多个行为组合而成；

态势评估推理单元，用于对所述对抗空间模型进行分析和推理，构建态势认知模型；所述态势认知模型包括：基本态势表示、全局态势表示和局部态势表示；所述基本态势表示包括我方基本态势、敌方基本态势和环境基本态势；所述全局态势表示包括全局威胁评估结果、全局赢面分析结果和全局意图识别结果；所述局部态势表示包括局部威胁评估结果、局部赢面分析结果和局部意图识别结果；

决策生成优化单元，用于基于所述态势认知模型进行宏观决策，生成宏观策略规划，并将所述宏观策略规划分解为每个行动单元的微操行为；

行动协同控制单元，用于基于每个行动单元的微操行为和所述态势认知模型，针对每个行动单元进行目标选择、路径生成、时间规划和底层动作生成，得到各行动单元的行动序列。

本发明还提供一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述任一种所述人机对抗行动预测方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述人机对抗行动预测方法的步骤。

本发明提供的人机对抗行动预测方法、装置、电子设备和存储介质，基于人机对抗环境信息，构建对抗空间，并建模得到对抗空间模型，对对抗空间模型进行分析和推理，构建态势认知模型，基于态势认知模型进行宏观决策，生成宏观策略规划，并将宏观策略规划分解为每个行动单元的微操行为，基于每个行动单元的微操行为和态势认知模型，针对每个行动单元进行目标选择、路径生成、时间规划和底层动作生成，得到各行动单元的行动序列，通过循环执行上述步骤，使得对抗空间越来越丰富，在建立态势认知模型时，对态势的把握也会逐渐清晰，使得决策能力随之变强，从而提高了智能体的人机对抗能力。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的人机对抗行动预测方法的流程示意图；

图2为本发明提供的人机对抗行动预测装置的结构示意图；

图3为本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例提供的人机对抗行动预测方法的流程示意图，如图1所示，该方法包括：

步骤110，基于人机对抗环境信息，构建对抗空间，并建模得到对抗空间模型；对抗空间包括状态空间和动作空间；状态空间包括我方状态表示、敌方状态表示以及环境状态表示；动作空间为多层级行为空间，其中上一层行为空间中的行为由下一层行为空间中的多个行为组合而成。

具体地，人机对抗环境信息中包含当前对抗空间中对抗双方的基本信息以及对抗环境的基本信息。对人机对抗环境信息进行信息融合和分类，构建对抗空间，并建模得到对抗空间模型。此处，对抗空间包括状态空间和动作空间。状态空间包括我方状态表示、敌方状态表示以及环境状态表示。其中，我方状态表示和敌方状态表示分别代表对抗双方当前的属性和对抗状态，环境状态表示用于保证当前对抗环境的状态。此外，由于人机对抗场景下对抗双方可采取的动作较多，因此本发明实施例将动作空间设计为多层级行为空间，其中上一层行为空间中的行为由下一层行为空间中的多个行为组合而成，从而降低了动作空间的大小，以便于后续的决策生成和行动单元的动作生成。构建对抗空间模型时，可以利用监督学习方式进行建模，例如可以使用贝叶斯网络，将对抗空间中的每个概念（例如我方或敌方的具体状态等）作为对抗空间模型中的一个网络节点，再根据各个概念之间的关系对网络节点进行连接。

步骤120，对对抗空间模型进行分析和推理，构建态势认知模型；态势认知模型包括：基本态势表示、全局态势表示和局部态势表示；基本态势表示包括我方基本态势、敌方基本态势和环境基本态势；全局态势表示包括全局威胁评估结果、全局赢面分析结果和全局意图识别结果；局部态势表示包括局部威胁评估结果、局部赢面分析结果和局部意图识别结果。

具体地，对对抗空间模型进行分析和推理，确定对抗双方通过实力对比、调配和行动形成的状态和趋势，从而构建得到态势认知模型。其中，态势认知模型包括：基本态势表示、全局态势表示和局部态势表示。基本态势表示包括我方基本态势、敌方基本态势和环境基本态势，分别用于表征我方行动单元当前的状态和行动趋势、敌方行动单元当前的状态和行动趋势，以及当前对抗环境的状态。全局态势表示包括全局威胁评估结果、全局赢面分析结果和全局意图识别结果，分别用于表征对于对抗一方而言，对方造成的整体威胁程度、整体的赢面概率以及对方采取的整体策略。局部态势表示包括局部威胁评估结果、局部赢面分析结果和局部意图识别结果，分别用于表征对方造成的局部威胁程度、局部的赢面概率以及对方局部采取的对抗行动。此处，可以采用规则系统对对抗空间模型进行分析推理。例如，根据规则“IF 看不见敌方步兵 AND 被敌方步兵射击 THEN 敌方步兵掩蔽状态”，可以推理得到敌方基本态势中该敌方步兵的状态。

步骤130，基于态势认知模型进行宏观决策，生成宏观策略规划，并将宏观策略规划分解为每个行动单元的微操行为。

具体地，根据态势认知模型，可以进行宏观决策，生成当前对战的宏观策略规划，再进行任务分解，将宏观策略规划分解为每个行动单元的微操行为。其中，行动单元为人机对抗场景下可以行动的智能体，为人机对抗场景下的基本行动单位，例如人机对战游戏中的虚拟人物、兵棋推演中代表坦克、步战车、步兵和无人机等的棋子。基于态势认知模型中的全局态势表示，可以生成当前对抗一方可以选择的高层次策略行为，作为当前对战的宏观策略规划。此处，宏观策略规划对应动作空间的最顶层行为，例如正面对抗、迂回对抗、消极对抗等。随后，再基于态势认知模型中的局部态势表示进行任务分解，将高层次的宏观策略规划分解为各个行动单元可以独立执行的抽象行为，即各个行动单元的微操行为。其中，微操行为可以由多个基本行动组合而成。

此处，可以基于预先构建规则系统，再将全局态势表示与规则系统进行条件匹配，得到宏观策略规划。例如，根据规则“IF 全局威胁>=6 AND 全局赢面<=5 THEN 选择迂回对抗”，若态势认知模型中全局威胁评估结果为8，且全局赢面分析结果为4，则确定宏观策略规划为迂回对抗。然后，还可以基于规则系统进行任务分解。例如，根据规则“IF 坦克威胁<=6 AND 坦克进攻赢面>=5 THEN 坦克选择进攻微操”，结合局部态势表示中的局部威胁评估结果为6和局部赢面分析结果7，可以确定行动单元坦克的微操行为可以为进攻.

步骤140，基于每个行动单元的微操行为和态势认知模型，针对每个行动单元进行目标选择、路径生成、时间规划和底层动作生成，得到各行动单元的行动序列。

具体地，根据每个行动单元的微操行为和态势认知模型，可以对每个行动单元的微操行为进行进一步的分解。根据微操行为的具体语义进行填充，得到各行动单元可以直接执行的基本行动，生成各行动单元的行动序列。此处，可以根据每个行动单元的微操行为和态势认知模型，针对各个行动单元，利用规则系统或最优化算法等进行目标选择，选择每个行动单元当前的对战目标；根据对战目标，结合地图，利用规则系统或动态规划算法等，生成去往目标所在地的路径；另外，还可以对行动序列进行时间规划；最后，可以利用规则系统或最优化算法等进行底层动作生成，得到各行动单元的行动序列[(ID ₁, COA ₁),…,(ID _n, COA _n)]，其中ID _i为行动单元的编号，COA _i为该行动单元的行动序列。将各行动单元的行动序列输出到对抗环境中，指挥各行动单元依次执行各自对应的行动序列中的行动，从而形成人机对抗决策循环过程。

通过循环执行上述步骤，接收信息-决策-输出信息不断循环进行，使得对抗空间越来越丰富，在建立态势认知模型时，对态势的把握也会逐渐清晰，使得决策能力随之变强，从而提高智能体的人机对抗能力。

本发明实施例提供的方法，基于人机对抗环境信息，构建对抗空间，并建模得到对抗空间模型，对对抗空间模型进行分析和推理，构建态势认知模型，基于态势认知模型进行宏观决策，生成宏观策略规划，并将宏观策略规划分解为每个行动单元的微操行为，基于每个行动单元的微操行为和态势认知模型，针对每个行动单元进行目标选择、路径生成、时间规划和底层动作生成，得到各行动单元的行动序列，通过循环执行上述步骤，使得对抗空间越来越丰富，在建立态势认知模型时，对态势的把握也会逐渐清晰，使得决策能力随之变强，从而提高了智能体的人机对抗能力。

基于上述实施例，动作空间包括原子行为、微操行为、协同行为以及策略行为；

微操行为由原子行为组合而成；

协同行为由微操行为组合而成；

策略行为由协同行为组合而成。

具体地，动作空间是一个多层级行为空间，包括最底层的原子行为、微操行为、协同行为以及高层次的策略行为。其中，微操行为由原子行为组合而成；协同行为由微操行为组合而成；策略行为由协同行为组合而成。此处，在兵棋推演场景下，构建的原子行为可以包括：机动动作、行军动作、冲锋动作、掩蔽动作、上车动作、下车动作、夺控动作、射击动作；构建的微操行为可以包括：侦察微操、掩护微操、集结微操、进攻微操、夺控微操、控夺微操、躲避微操；构建的协同行为可以包括：侦察协同、进攻协同、掩护协同、集结协同、夺控协同；构建的策略行为可以包括：正面对抗、迂回对抗、消极对抗。

基于上述任一实施例，人机对抗环境信息包括实时盘面观察信息和初始地图信息。

具体地，人机对抗环境信息为[O, MAP]，其中O为实时盘面观察信息，MAP为初始地图信息。此处，实时盘面观察信息包括对抗盘面上所有可见行动的可见信息，例如血量、速度等状态，以及各种分数信息、裁决信息、时间信息等。初始地图信息包括地图基本信息，例如地图大小，地图上每个位置信息，例如此处是公路、村庄，或是居民地，此处高程和坐标点等信息。

基于上述任一实施例，状态空间是基于如下步骤确定的：

具体地，我方状态表示可以包括我方行动单元属性表示、我方分数情况表示、我方占地情况表示。因此，可以获取我方行动单元的属性信息、我方分数信息和我方占地信息，构建我方状态表示。其中，我方行动单元的属性信息指我方算子的详细分类描述，例如我方坦克的属性信息有：血量、携带武器数量、武器是否冷却、是否掩蔽，以及是否机动等；我方分数信息指我方得分失分情况，例如我方歼敌得分、我方夺控得分和我方剩余算子得分等；我方占地信息指我方占领关键位置情况，如占领夺控点位置、占领反斜面点位置和占领掩护点位置等。

敌方状态表示可以包括敌方行动单元属性表示、敌方分数情况表示和敌方占地情况表示。因此，可以获取敌方行动单元的属性信息、敌方分数信息和敌方占地信息，构建敌方状态表示。其中，敌方行动单元的属性信息指敌方算子的详细分类描述；敌方分数信息指敌方得分失分情况；敌方占地信息指敌方占领关键位置情况。

环境状态表示可以包括：地图属性表示、地图规则表示和推演信息表示。因此，可以获取地图属性信息、地图规则信息和推演反馈信息，构建环境状态表示。其中，地图属性信息指地图的基本信息，例如地图大小，每个地图坐标点的属性，如是否为公路、是否为村庄、是否为居民地，和此处的高程等；地图规则信息指与地图相关的游戏规则的体现信息，如地图坐标点的通视范围（体现通视规则）、观察范围（体现观察范围）等；推演反馈信息指推演过程中环境反馈的信息，如当前推演时间和当前裁决结果等。

需要说明的是，本发明实施例不对我方状态表示的构建步骤、敌方状态表示的构建步骤和环境状态表示的构建步骤的执行顺序作任何限定，三个步骤可以以任何顺序先后执行，也可以同时执行。

基于上述任一实施例，基本态势表示是基于如下步骤确定的：

具体地，我方基本态势可以包括我方行动单元状态、我方行动单元行为、我方得失情况。因此，可以获取我方行动单元的状态变化信息、我方行动单元的当前可执行行为信息和我方得失信息，构建我方基本态势。其中，我方行动单元的状态变化信息指我方行动单元属性中的状态改变部分，如血量变少、携带武器数量变少、武器状态由正常变为正在冷却等；我方行动单元的当前可执行行为信息指我方行动单元当前可以执行的微操行为，如坦克当前能够执行进攻微操或掩护微操；我方得失信息指我方当前态势下的各种得失，如行动单元毁伤、战果、关键位置占领或失守等。

敌方基本态势可以包括敌方行动单元状态、敌方行动单元行为、敌方得失情况。因此，可以获取敌方行动单元的状态变化信息、敌方行动单元的当前可执行行为信息和敌方得失信息，构建敌方基本态势。其中，敌方行动单元的状态变化信息指敌方行动单元属性中的状态改变部分；敌方行动单元的当前可执行行为信息指敌方行动单元当前可以执行的微操行为；敌方得失信息指敌方当前态势下的各种得失。

环境基本态势可以包括关键地形、时空信息和裁决信息。因此，可以获取关键地形信息、对抗时空信息和对抗裁决信息，构建环境基本态势。其中，关键地形信息为地图中的关键地形的相关信息；对抗时空信息包括当前对抗的时间进程，例如前段、中段或后段，当前对抗的空间表示，例如红方/蓝方占领哪些夺控点或关键点列表；对抗裁决信息包括对抗行为的裁决结果，例如直瞄射击结果，间瞄射击结果性和引导射击结果等。

需要说明的是，本发明实施例不对上述三个步骤的执行顺序作任何限定，三个步骤可以以任何顺序先后执行，也可以同时执行。

基于上述任一实施例，全局态势表示是基于如下步骤确定的：

对我方在当前态势下面临的来自敌方的整体威胁程度进行评估，得到全局威胁评估结果；

对我方在当前态势下进行对抗的赢面概率进行预测，得到全局赢面分析结果；

对敌方在当前态势下采取的对抗策略进行预测，得到全局意图识别结果。

具体地，对我方在当前态势下面临的来自敌方的整体威胁程度进行评估，得到全局威胁评估结果。其中，全局威胁评估结果可以表征当前态势对我方是不利还是有利，以及具体的威胁等级。例如，可以将威胁程度设置为0-10级，最大威胁为10级，没有威胁为0级，然后对来自敌方的整体威胁进行等级评估，得到全局威胁评估结果。此处，可以利用基于监督学习的方法、基于强化学习的方法、基于深度学习的方法或基于知识规则的方法等进行威胁程度的评估，本发明实施例对此不作具体限定。

对我方在当前态势下进行对抗的赢面概率进行预测，得到全局赢面分析结果。其中，全局赢面分析结果可以表征我方在当前态势下进行对抗的最终结果，即我方具体为赢的概率。此处，可以利用基于监督学习的方法、基于强化学习的方法、基于深度学习的方法或基于知识规则的方法等进行赢面概率的预测，本发明实施例对此不作具体限定。

对敌方在当前态势下采取的对抗策略进行预测，得到全局意图识别结果。其中，全局意图识别结果包括敌方采取的高层次对战策略，对应动作空间的最高层行为，例如正面对抗或迂回对抗等。此处，也可以利用基于监督学习的方法、基于强化学习的方法、基于深度学习的方法或基于知识规则的方法等进行敌方对抗策略的预测，本发明实施例对此不作具体限定。

基于上述任一实施例，局部态势表示是基于如下步骤确定的：

对我方各个行动单元在当前态势下面临的来自敌方的威胁程度进行评估，得到局部威胁评估结果；

对我方各个行动单元在当前态势下进行对抗的赢面概率进行预测，得到局部赢面分析结果；

对敌方各个行动单元在当前态势下采取的对抗行为进行预测，得到局部意图识别结果。

具体地，对我方各个行动单元在当前态势下面临的来自敌方的威胁程度进行评估，得到局部威胁评估结果。此处，可以利用基于监督学习的方法、基于强化学习的方法、基于深度学习的方法或基于知识规则的方法等进行威胁程度的评估，本发明实施例对此不作具体限定。

对我方各个行动单元在当前态势下进行对抗的赢面概率进行预测，得到局部赢面分析结果。此处，可以利用基于监督学习的方法、基于强化学习的方法、基于深度学习的方法或基于知识规则的方法等进行赢面概率的预测，本发明实施例对此不作具体限定。

对敌方各个行动单元在当前态势下采取的对抗行为进行预测，得到局部意图识别结果。其中，局部意图识别结果包括敌方各个行动单元采取的对战行为。此处，也可以利用基于监督学习的方法、基于强化学习的方法、基于深度学习的方法或基于知识规则的方法等进行敌方对抗行动的预测，本发明实施例对此不作具体限定。

基于以上任一实施例，图2为本发明实施例提供的人机对抗行动预测装置的结构示意图，如图2所示，该装置包括：

对抗空间表示建模单元210，用于基于人机对抗环境信息，构建对抗空间，并建模得到对抗空间模型；所述对抗空间包括状态空间和动作空间；所述状态空间包括我方状态表示、敌方状态表示以及环境状态表示；所述动作空间为多层级行为空间，其中上一层行为空间中的行为由下一层行为空间中的多个行为组合而成；

态势评估推理单元220，用于对所述对抗空间模型进行分析和推理，构建态势认知模型；所述态势认知模型包括：基本态势表示、全局态势表示和局部态势表示；所述基本态势表示包括我方基本态势、敌方基本态势和环境基本态势；所述全局态势表示包括全局威胁评估结果、全局赢面分析结果和全局意图识别结果；所述局部态势表示包括局部威胁评估结果、局部赢面分析结果和局部意图识别结果；

决策生成优化单元230，用于基于所述态势认知模型进行宏观决策，生成宏观策略规划，并将所述宏观策略规划分解为每个行动单元的微操行为；

行动协同控制单元240，用于基于每个行动单元的微操行为和所述态势认知模型，针对每个行动单元进行目标选择、路径生成、时间规划和底层动作生成，得到各行动单元的行动序列。

本发明实施例提供的装置，基于人机对抗环境信息，构建对抗空间，并建模得到对抗空间模型，对对抗空间模型进行分析和推理，构建态势认知模型，基于态势认知模型进行宏观决策，生成宏观策略规划，并将宏观策略规划分解为每个行动单元的微操行为，基于每个行动单元的微操行为和态势认知模型，针对每个行动单元进行目标选择、路径生成、时间规划和底层动作生成，得到各行动单元的行动序列，通过循环执行上述步骤，使得对抗空间越来越丰富，在建立态势认知模型时，对态势的把握也会逐渐清晰，使得决策能力随之变强，从而提高了智能体的人机对抗能力。

基于上述任一实施例，动作空间包括原子行为、微操行为、协同行为以及策略行为；

微操行为由原子行为组合而成；

协同行为由微操行为组合而成；

策略行为由协同行为组合而成。

基于上述任一实施例，还包括状态空间确定单元，用于：

基于上述任一实施例，还包括基本态势表示确定单元，用于：

基于上述任一实施例，还包括全局态势表示确定单元，用于：

基于上述任一实施例，还包括局部态势表示确定单元，用于：

图3示例了一种电子设备的实体结构示意图，如图3所示，该电子设备可以包括：处理器(processor)310、通信接口(CommunicationsInterface)320、存储器(memory)330和通信总线340，其中，处理器310，通信接口320，存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储器330中的逻辑指令，以执行人机对抗行动预测方法，该方法包括：基于人机对抗环境信息，构建对抗空间，并建模得到对抗空间模型；所述对抗空间包括状态空间和动作空间；所述状态空间包括我方状态表示、敌方状态表示以及环境状态表示；所述动作空间为多层级行为空间，其中上一层行为空间中的行为由下一层行为空间中的多个行为组合而成；对所述对抗空间模型进行分析和推理，构建态势认知模型；所述态势认知模型包括：基本态势表示、全局态势表示和局部态势表示；所述基本态势表示包括我方基本态势、敌方基本态势和环境基本态势；所述全局态势表示包括全局威胁评估结果、全局赢面分析结果和全局意图识别结果；所述局部态势表示包括局部威胁评估结果、局部赢面分析结果和局部意图识别结果；基于所述态势认知模型进行宏观决策，生成宏观策略规划，并将所述宏观策略规划分解为每个行动单元的微操行为；基于每个行动单元的微操行为和所述态势认知模型，针对每个行动单元进行目标选择、路径生成、时间规划和底层动作生成，得到各行动单元的行动序列。

此外，上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-OnlyMemory）、随机存取存储器（RAM，RandomAccessMemory）、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的人机对抗行动预测方法，该方法包括：基于人机对抗环境信息，构建对抗空间，并建模得到对抗空间模型；所述对抗空间包括状态空间和动作空间；所述状态空间包括我方状态表示、敌方状态表示以及环境状态表示；所述动作空间为多层级行为空间，其中上一层行为空间中的行为由下一层行为空间中的多个行为组合而成；对所述对抗空间模型进行分析和推理，构建态势认知模型；所述态势认知模型包括：基本态势表示、全局态势表示和局部态势表示；所述基本态势表示包括我方基本态势、敌方基本态势和环境基本态势；所述全局态势表示包括全局威胁评估结果、全局赢面分析结果和全局意图识别结果；所述局部态势表示包括局部威胁评估结果、局部赢面分析结果和局部意图识别结果；基于所述态势认知模型进行宏观决策，生成宏观策略规划，并将所述宏观策略规划分解为每个行动单元的微操行为；基于每个行动单元的微操行为和所述态势认知模型，针对每个行动单元进行目标选择、路径生成、时间规划和底层动作生成，得到各行动单元的行动序列。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的人机对抗行动预测方法，该方法包括：基于人机对抗环境信息，构建对抗空间，并建模得到对抗空间模型；所述对抗空间包括状态空间和动作空间；所述状态空间包括我方状态表示、敌方状态表示以及环境状态表示；所述动作空间为多层级行为空间，其中上一层行为空间中的行为由下一层行为空间中的多个行为组合而成；对所述对抗空间模型进行分析和推理，构建态势认知模型；所述态势认知模型包括：基本态势表示、全局态势表示和局部态势表示；所述基本态势表示包括我方基本态势、敌方基本态势和环境基本态势；所述全局态势表示包括全局威胁评估结果、全局赢面分析结果和全局意图识别结果；所述局部态势表示包括局部威胁评估结果、局部赢面分析结果和局部意图识别结果；基于所述态势认知模型进行宏观决策，生成宏观策略规划，并将所述宏观策略规划分解为每个行动单元的微操行为；基于每个行动单元的微操行为和所述态势认知模型，针对每个行动单元进行目标选择、路径生成、时间规划和底层动作生成，得到各行动单元的行动序列。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种人机对抗行动预测方法，其特征在于，包括：

2.根据权利要求1所述的人机对抗行动预测方法，其特征在于，所述动作空间包括原子行为、微操行为、协同行为以及策略行为；

所述微操行为由所述原子行为组合而成；

所述协同行为由所述微操行为组合而成；

所述策略行为由所述协同行为组合而成。

3.根据权利要求1所述的人机对抗行动预测方法，其特征在于，所述人机对抗环境信息包括实时盘面观察信息和初始地图信息。

4.根据权利要求1至3任一项所述的人机对抗行动预测方法，其特征在于，所述状态空间是基于如下步骤确定的：

5.根据权利要求1至3任一项所述的人机对抗行动预测方法，其特征在于，所述基本态势表示是基于如下步骤确定的：

6.根据权利要求1至3任一项所述的人机对抗行动预测方法，其特征在于，所述全局态势表示是基于如下步骤确定的：

7.根据权利要求1至3任一项所述的人机对抗行动预测方法，其特征在于，所述局部态势表示是基于如下步骤确定的：

8.一种人机对抗行动预测装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述人机对抗行动预测方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述人机对抗行动预测方法的步骤。