CN112598131A

CN112598131A - 推演数据生成及行动方案推演系统、方法及装置

Info

Publication number: CN112598131A
Application number: CN202011597352.1A
Authority: CN
Inventors: 范国梁; 董宗宽; 李大鹏
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2020-12-29
Filing date: 2020-12-29
Publication date: 2021-04-02

Abstract

本发明属于控制系统领域，具体涉及推演数据生成及行动方案推演系统、方法及装置。旨在解决现有的推演方法构建搜索树过大，推演生成行动方案效率不足的问题；本发明通过基于场景空间、环境规则构建抽象棋盘，基于任务执行单位的当前位置和抽象棋盘，通过预设的最大长度限制生成可到达性关系表，基于所述可到达性关系表生成决策轨迹，基于所述决策轨迹选择主路径任务执行单位执行所述主路径并更新抽象棋盘，基于更新的抽象棋盘生成反制路径，重复决策区构建单元生成反制路径直至无法生成新的反制路径，完成推演。通过设计了决策区取代搜索，减小了搜索树的大小，使问题在计算上易于处理，降低了问题设置的维数，提高了行动方案的推演速度。

Description

推演数据生成及行动方案推演系统、方法及装置

技术领域

本发明属于控制系统领域，具体涉及一种推演数据生成及行动方案推演系统、方法及装置。

背景技术

通过构建一种形式语言的层次结构，来表达主体的状态、系统的网络以及寻找获胜策略的过程。该方法是一种建立大规模多智能体系统知识表示和推理数学模型的方法。包括用于多智能体复杂系统知识表示和推理的语法工具。该方法已被发展成为针对某类复杂系统的通用方法。该方法通过将复杂系统分解为动态交互子系统的层次结构，为减少不同复杂问题中的搜索提供了强大的工具。

该快速推演方法极大地减小了搜索树的大小，从而使问题在计算上易于处理。提供了高级专家搜索启发式的形式化和抽象。从本质上讲，这些启发式方法通过构建策略来取代搜索。形式化的专家策略为问题设置提供了高效的算法，这些问题设置的维数可能比专家制定策略的维数大得多。此外，这些正式的策略可以解决专家所设想的领域之外的不同问题领域的问题。对于某些类型的问题，这些专家策略产生了可证明的最优解决方案。为了将启发式正式化，该方法使用了形式语言理论，即以及抽象板上的某些几何结构。由于涉及到语言学和几何学，这种方法被称为语言几何学。该方法本质上是离散的，但也可用于控制由普通或偏微分方程描述的连续过程。

发明内容

为了解决现有技术中的上述问题，即为了解决现有的推演方法构建搜索树过大，推演生成行动方案效率不足的问题，本发明提出了一种推演数据生成及行动方案推演系统，所述系统包括：抽象棋盘构建模块和对抗策略生成模块；

抽象棋盘构建模块，配置为基于场景空间、环境规则构建抽象棋盘；

对抗策略生成模块，包括决策轨迹生成单元和决策区构建单元；

所述决策轨迹生成子模块，配置为基于任务执行单位的当前位置和抽象棋盘，通过预设最大长度限制生成可到达性关系表，基于所述可到达性关系表生成决策轨迹，基于所述决策轨迹选择主路径；

所述决策区构建子模块，配置为任务执行单位执行所述主路径并更新抽象棋盘，基于更新的抽象棋盘生成反制路径，重复决策区构建单元生成反制路径直至无法生成新的反制路径，完成推演。

在一些优选的实施方式中，所述抽象棋盘构建模块包括，空间划分子模块、环境规则子模块和抽象棋盘构建子模块；

所述空间划分子模块，配置为通过方格或六边形将空间划分开并进行坐标标注生成物理空间模型，所述物理空间模型包括物理空间坐标系；

所述环境规则子模块，基于所述物理空间模型，增加预设的环境规则生成环境空间模型；所述预设的环境规则包括地形要素、是否视野受限、是否可以进行机动和是否可以实施决策；

所述抽象棋盘构建子模块，基于所述环境空间模型，添加抽象单元生成抽象棋盘；所述抽象单位包括：任务执行单位、单位属性、单位位置、移动规则、攻击规则和侦查规则。

在一些优选的实施方式中，所述推演系统还包括搜索语言转化模块：

所述搜索语言转化模块包括区域语言生成子模块、翻译子模块和搜索语言生成子模块；

所述区域语言生成子模块，配置为将所述主路径和反制路径通过空间表和时间表的方式在所述抽象棋盘中记录，生成区域语言；所述空间表表示为三维数组，轨迹经过的位置为1，未经过的位置为0；所述时间表表示为三维数组，每个位置处的值代表所述路径上的任务执行单位到达此点的时间其中出发点为起始时间；

所述翻译子模块，配置为调用区域语法将所述区域语言转化为翻译语言；

所述搜索语言生成子模块，配置为将所述翻译语言转化为搜索语言。

在一些优选的实施方式中，所述决策轨迹生成子模块，包括：路径延伸单元和路径选择单元；

令迭代步数k＝1；

所述路径延伸单元，配置为基于任务执行单位的当前位置节点l_k生成可到达性关系表，基于所述可到达性关系表，任务执行单位基于所述可到达性关系表模拟向前运动一步，生成新位置节点l_k+1；

所述路径选择单元，若k<M，M为预设的最大长度限制，令k＝k+1，重复路径延伸单元生成新位置节点l_k+1，直至达到目标位置，所选取的位置节点组成决策轨迹，所述目标位置为根据任务预设的；

若k＝M，所述新位置节点l_k+1在本步迭代中不再选取，令k＝k-1，重复路径延伸单元的功能生成另一新位置节点l′_k+1，若k再次变为1，则搜索结束。

在一些优选的实施方式中，所述决策区构建子模块，包括路径生成单元；

其中，所述路径生成单元，包括合理性判断子单元和主路径生成子单元；

所述合理性判断子单元，配置为通过预设的第一判定规则和第二判定规则判定目标节点是否合理，若同时满足第一判定规则和第二判定规则认为目标节点合理；所述预设的第一判定规则为：若所述任务执行单位到达目标节点的时间小于预设的合理时间阈值，则认为所述目标节点符合第一判定规则；所述预设的第二判定规则为：若所述目标节点具有确定的单位信息，且所述单位信息与任务执行单位一致，则认为所述目标节点符合第二判定规则；

所述主路径生成子单元，配置为将目标节点合理的决策轨迹设定为主路径；若存在多条满足目标节点合理的决策轨迹，则通过预设的主路径选择条件选取其中一条决策轨迹作为主路径，所述主路径选择条件包括：任务执行单位至目标节点路径最短或轨迹不经过敌方单位视野范围；令N＝1，所述主路径为第0次反制轨迹。

在一些优选的实施方式中，所述决策区构建子模块，在完成所述路径生成单元后还包括第N次反制任务生成单元、第N+1次反制任务生成单元和迭代推演单元；

所述第N次反制任务生成单元，配置为基于第N-1次反制任务更新所述抽象棋盘，第N次反制任务执行单位为敌方单位，目标节点为所述第N-1次反制轨迹上任一点，起始点为所述第N次反制任务执行单位当前位置节点，通过如决策轨迹生成子模块所述的步骤生成的主路径作为第N次反制轨迹，基于所述反制轨迹生成第N次反制任务；

所述第N+1次反制任务生成单元，配置为基于所述和第N次反制任务更新所述抽象棋盘，并记录第N次反制任务的轨迹和时间表信息，生成第N+1次反制抽象棋盘，第N+1次反制任务执行单位为未执行的友方单位，目标节点为第N次反制轨迹上任一点，起始点为第N+1次反制执行单位当前位置节点，通过如决策轨迹生成子模块所述的步骤生成的主路径作为第N+1次反制轨迹，基于所述反制轨迹生成第N+1次反制任务；

所述迭代推演单元，配置为令N＝N+2，重复第N次反制任务生成单元和第N+1次反制任务生成单元生成反制任务路径并记录路径信息和时间表信息生成运动方案，直至我方或敌方任一方无法生成反制任务；

所述多方案生成单元，配置为重复所述第N次反制任务生成单元-迭代推演单元生成方案的区域语言表示，直至将每个反制轨迹的每个点都设定为目标节点生成反制轨迹，生成运动方案集合。

在一些优选的实施方式中，所述决策轨迹的构成元素包括任务执行单位、起始节点、目标节点、最大距离和决策轨迹数量中的一个或多个。

在一些优选的实施方式中，所述决策区的构成元素包括可执行区域、友方单位、敌方单位、路径和单位信息。

在一些优选的实施方式中，所述任务执行单位至目标节点路径最短，其判断方法为：

步骤A100,判断所述抽象期盼的移动空间是否大于预设的阈值M^R，若小于所述预设的阈值执行步骤A210，若大于所述预设的阈值执行步骤A310；

步骤A210，基于任务执行单位的当前位置节点X向各个方向运动1步长，形成第一可到达区域

基于所述第一可到达区域

边缘位置，向各方向运动1步长，形成可到达区域

步骤A220，基于第q可到达区域

的边缘位置向外运动1步长，形成可到达区域

直至将整个抽象棋盘全部划入可到达区域；q为自然数；

步骤A230，判断所述目标位置节点Y所处的可到达区域

则XY之间的距离d(X,Y)＝k；k∈1,2，……，q+1；

步骤A310，在所述抽象棋盘内随机选择点Z；

步骤A320，计算起始位置节点X到所述随机选择点Z的距离d(X，Z)；计算随机选择点Z到目标位置节点Y的机动距离d(Z,Y)；

步骤A330，计算X到Y的可到达性近似距离d’(X,Y)＝min(d(X，Z)+d(Z,Y))；

步骤A400，沿着d(X,Y)最小的路线生成路径。

本发明的第二方面，提出一种的推演数据生成及行动方案推演方法，所述方法包括：

步骤S100，基于场景空间、环境规则构建抽象棋盘；

步骤S200，基于任务执行单位的当前位置和抽象棋盘，通过预设最大长度限制生成可到达性关系表，基于所述可到达性关系表生成决策轨迹，基于所述决策轨迹选择主路径；

步骤S300，任务执行单位执行所述主路径并更新抽象棋盘，基于更新的抽象棋盘生成反制路径，重复决策区构建单元生成反制路径直至无法生成新的反制路径，完成推演。

本发明的第三方面，提出了一种存储装置，其中存储有多条程序，所述程序适用于由处理器加载并执行以实现上述的推演数据生成及行动方案推演方法。

本发明的第四方面，提出了一种处理装置，包括处理器、存储装置；所述处理器，适于执行各条程序；所述存储装置，适于存储多条程序；所述程序适于由处理器加载并执行以实现上述的推演数据生成及行动方案推演方法。

本发明的有益效果：

(1)本发明推演数据生成及行动方案推演系统，通过设计了决策区取代搜索，减小了搜索树的大小，使问题在计算上易于处理，降低了问题设置的维数，提高了行动方案的推演速度。

(2)本发明推演数据生成及行动方案推演系统，通过具有时序、逻辑和因果关系的过程构建了面向行动方案、行动计划表示的表示模型，基于关键节点(事件、空间、任务)关系，刻画行动过程的约束关系，实现了行动方案分支的自动枚举机制和行动方案的自动分解机制，构建了不确定参数组合的高质量方案样本自动生成，实现了红蓝双方行动方案的高效自动生成。

附图说明

图1是本发明推演数据生成及行动方案推演系统结构示意图。

图2是本发明实施例推演数据生成及行动方案推演系统生成的反制路径的原理示意图。

图3是本发明计算最短路径过程中生成可到达区域的原理示意图；

图4是本发明实施例的搜索语言转化模块的原理示意图；

图5是本发明实施例中构建的语言层次结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

本发明提供推演数据生成及行动方案推演系统，本系统通过决策区减小了搜索树的大小，从而使问题在计算上易于处理，极大地提高了行动方案的推演速度。

为了更清晰地对本发明基于分析方法进行说明，下面结合图1对被发明第一实施例展开详述。

本发明的推演数据生成及行动方案推演系统包括抽象棋盘构建模块和对抗策略生成模块；

在本实施例中，所述抽象棋盘构建模块包括，空间划分子模块、环境规则子模块和抽象棋盘构建子模块；

所述抽象棋盘构建子模块，基于所述环境空间模型，添加抽象单位信息生成抽象棋盘；所述抽象单位信息包括：任务执行单位、单位属性、单位位置、移动规则、攻击规则和侦查规则。

对抗策略生成模块，包括决策轨迹生成子模块和决策区构建子模块；

在本实施例中，所述决策轨迹生成子模块，包括：路径延伸单元和路径选择单元；

令迭代步数k＝1；

在本实施例中，所述决策区构建子模块，包括路径生成单元；

在本实施例中，所述任务执行单位至目标节点路径最短，其判断方法为：

步骤A210，如图3所示，基于任务执行单位的当前位置节点X向各个方向运动1步长，形成第一可到达区域

基于所述第一可到达区域

边缘位置，向各方向运动1步长，形成可到达区域

步骤A220，基于第q可到达区域

的边缘位置向外运动1步长，形成可到达区域

直至将整个抽象棋盘全部划入可到达区域；q为自然数；

步骤A230，判断所述目标位置节点Y所处的可到达区域

则XY之间的距离d(X,Y)＝k；k∈1,2，……，q+1；在本实施例中，步骤A210-步骤A230所生成的可到达区域及可到达性表，如图3所示。

步骤A310，在所述抽象棋盘内随机选择点Z；

步骤A400，沿着d(X,Y)最小的路线生成路径。

在本实施例中，所述决策区构建子模块，在完成所述路径生成单元后还包括第N次反制任务生成单元、第N+1次反制任务生成单元和迭代推演单元；

所述迭代推演单元，配置为令N＝N+2，重复第N次反制任务生成单元和第N+1次反制任务生成单元生成反制任务路径并记录路径信息和时间表信息生成运动方案，直至我方或敌方任一方无法生成反制任务。所生成的反制路径如图2所示，图中红方为友方，蓝方为敌方，蓝方任务执行单位通过空心三角形表示，红方任务执行单位用实心三角形表示。

在本实施例中，所述决策轨迹的构成元素包括任务执行单位、起始节点、目标节点、最大距离和决策轨迹数量中的一个或多个。

在本实施例中，所述决策区的构成元素包括可执行区域、友方单位、敌方单位、路径和单位信息。

在本实施例中，所述推演系统还包括搜索语言转化模块：

通过搜索语言将所生成的各反制路径全部展示，以供用户选择。在本实施例中，搜索语言转换模块将生成的运动方案集合通过搜索语言的形式展示。

如图4所示，当所述推演数据生成及行动方案推演系统生成反制轨迹后，即根据轨迹语法生成轨迹语言，通过区域语法调用轨迹语法将轨迹语言生成区域语言，通过翻译语法调用区域语法调整区域语言和轨迹语言，搜索通过形式语言转化为搜索语言并输出，以便展示。

该方案快速生成了一个三级的形式语言层次结构，如图5所示。这是通过生成一个语言翻译的字符串,也称为“翻译之树”,通过创建一个语言区(第二层次)和语言的轨迹(最低层,颜色最深的三角形)的系统的状态。特别是，对于包含在翻译树中的每个符号，必须生成一对这样的语言。其中的序号表示一个低量级的决策区，比如一个排，多个序号组成的三角表示高量级的决策区比如一个连。

形式语言的层次结构，低级语言的每个字符串对应于高级语言的一个符号。翻译语言的字符串表示搜索树。表示最优子树的子字符串是给定问题的解决方案。该子树反映了一方策略的应用和另一方的最佳响应。

翻译语言是作为(简化的)搜索语言家族中的一员而构建的。评价轨迹和区域的质量、分支的终止和树的检查都是翻译语法的组成部分。

由四个基本部件组成，即轨迹，区域，翻译，搜索，形成分层结构，。每一层、第二层和第四层都有语法和语言的两个元素，因此有轨迹语法、轨迹语言、区域语法、区域语言、搜索语法和搜索语言。“语法”是一组规则和条件，这些规则和条件对问题的参数进行操作，并生成一种“形式语言”，这是一组符号的字符串，来自一些字母表，通过使用这些符号来表示复杂的多智能体系统推理中的人类专家技能。参数列表结合了字符串的语义，并由问题域决定

需要说明的是，上述实施例提供的推演数据生成及行动方案推演系统，仅以上述各功能模块的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能模块来完成，即将本发明实施例中的模块或者步骤再分解或者组合，例如，上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块，以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称，仅仅是为了区分各个模块或者步骤，不视为对本发明的不当限定。

本发明的另一方面，提出了推演数据生成及行动方案推演方法，所述方法包括：

步骤S100，基于场景空间、环境规则构建抽象棋盘；

本发明第三实施例的一种存储装置，其中存储有多条程序，所述程序适于由处理器加载并执行以实现上述的推演数据生成及行动方案推演方法。

本发明第四实施例的一种处理装置，包括处理器、存储装置；处理器，适于执行各条程序；存储装置，适于存储多条程序；所述程序适于由处理器加载并执行以实现上述的推演数据生成及行动方案推演方法。

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的存储装置、处理装置的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

本领域技术人员应该能够意识到，结合本文中所公开的实施例描述的各示例的模块、方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，软件模块、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素，而且还包括没有明确列出的其它要素，或者还包括这些过程、方法、物品或者设备/装置所固有的要素。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征做出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种推演数据生成及行动方案推演系统，其特征在于，所述系统包括：抽象棋盘构建模块和对抗策略生成模块；

所述抽象棋盘构建模块，配置为基于场景空间、环境规则构建抽象棋盘；

所述对抗策略生成模块，包括决策轨迹生成子模块和决策区构建子模块；

所述决策轨迹生成子模块，配置为基于任务执行单位的当前位置和抽象棋盘，通过预设的最大长度限制生成可到达性关系表，基于所述可到达性关系表生成决策轨迹，基于所述决策轨迹选择主路径；

2.根据权利要求1所述的推演数据生成及行动方案推演系统，其特征在于，所述推演系统还包括搜索语言转化模块：

所述区域语言生成子模块，配置为将所述主路径和反制路径通过空间表和时间表的方式在所述抽象棋盘中记录，生成区域语言；所述空间表表示为三维数组，轨迹经过的位置为1，未经过的位置为0；所述时间表表示为三维数组，每个位置处的值代表所述路径上的任务执行单位到达此点的时间，其中出发点为起始时间；

3.根据权利要求2所述的推演数据生成及行动方案推演系统，其特征在于，所述抽象棋盘构建模块包括空间划分子模块、环境规则子模块和抽象棋盘构建子模块；

4.根据权利要求3所述的推演数据生成及行动方案推演系统，其特征在于，所述决策轨迹生成子模块，包括路径延伸单元和路径选择单元；

令迭代步数k＝1；

所述路径选择单元，若k<M，M为预设的最大长度限制，令k＝k+1，重复路径延伸单元生成新位置节点l_k+1，直至达到目标位置，所选取的位置节点组成决策轨迹，所述目标位置为根据任务预设的；若k＝M，或所在路径无法到达所述目标位置节点，所述新位置节点l_k+1在本步迭代中不再选取，令k＝k-1，重复路径延伸单元的功能生成另一新位置节点l′_k+1，若k再次变为1，则搜索结束。

5.根据权利要求4所述的推演数据生成及行动方案推演系统，其特征在于，所述决策区构建子模块，包括路径生成单元；

所述路径生成单元，包括合理性判断子单元和主路径生成子单元；

6.根据权利要求5所述的推演数据生成及行动方案推演系统，其特征在于，所述决策区构建子模块，在完成所述路径生成单元后还包括第N次反制任务生成单元、第N+1次反制任务生成单元、迭代推演单元和多方案生成单元；

7.根据权利要求5所述的推演数据生成及行动方案推演系统，其特征在于，所述任务执行单位至目标节点路径最短，其判断方法为：