CN115759298A

CN115759298A - 一种决策动作确定方法、装置、设备及介质

Info

Publication number: CN115759298A
Application number: CN202310029605.2A
Authority: CN
Inventors: 厉子凡
Original assignee: Baiyang Times Beijing Technology Co ltd
Current assignee: Baiyang Times Beijing Technology Co ltd
Priority date: 2023-01-09
Filing date: 2023-01-09
Publication date: 2023-03-07

Abstract

本申请提供了一种决策动作确定方法、装置、设备及介质。通过获取态势表征，将所述态势表征同时输入智能体集合中，得到每个智能体对应的动作分布和动作选定结果，根据动作树层关系将每个智能体对应的动作分布和动作选定结果输入策略集成模块，处理得到决策动作，并调整所述智能体集合；响应于执行至动作树的叶子结点，将若干个决策动作生成决策动作集合。由于深度强化学习技术本身的特性，单一智能体可能出现的决策不准确的问题。用多个智能体共同决策是一个简单且有效的方法，可以大大缓解上述问题。由此，实现了集成智能体的综合性能，增强数据驱动型智能体在兵棋推演中的泛化能力和稳健性，最大限度地应对未知场景。

Description

一种决策动作确定方法、装置、设备及介质

技术领域

本申请涉及人工智能领域技术领域，尤其涉及一种决策动作确定方法、装置、设备及介质。

背景技术

计算机兵棋演习系统（以下称兵棋系统）在当前信息化战争模拟对抗中扮演了重要角色。随着人工智能（Artificial Intelligence, AI）技术的发展，使用智能体扮演红军或蓝军与真人对抗成为可能。目前的兵棋智能体主要有知识驱动型、数据驱动型和知识与数据混合驱动型三种。知识驱动型的代表技术是知识图谱和行为树，数据驱动型的代表技术是深度强化学习。

然而，兵棋是一种极其复杂的系统，信息不完美、长程决策、非对称、高不确定性和随机性等等问题使得各种技术路线都举步维艰。本发明主要针对数据驱动型技术路线中使用深度强化学习技术构建的指挥官架构的兵棋智能体，即一个智能体控制想定中所有的演习单位。强化学习是一种智能体不断与环境交互改善自身策略的机器学习方法。智能体在训练时有很大的随机性，可能很少到达某些态势，并且随着策略的逐步收敛，智能体也会更加偏向于到达常见的态势。因此单一智能体可能出现某些情况下决策不准确的问题，面对陌生的态势手足无措，现有技术中智能体的泛化能力和稳健性有待提高。

发明内容

有鉴于此，本申请实施例提供了一种决策动作确定方法、装置、设备及介质，旨在提高智能体的泛化能力和稳健性的基础上，确定决策动作。

本申请第一方面提供一种决策动作确定方法，所述方法包括：

获取态势表征；

将所述态势表征同时输入智能体集合中，得到每个智能体对应的动作分布和动作选定结果，所述智能体集合包括若干个智能体；

根据动作树层关系将每个智能体对应的动作分布和动作选定结果输入策略集成模块，处理得到决策动作，并调整所述智能体集合；

响应于执行至动作树的叶子结点，将若干个决策动作生成决策动作集合。

可选的，所述根据动作树层关系将每个智能体对应的动作分布和动作选定结果输入策略集成模块，处理得到决策动作，并调整所述智能体集合，包括：

处理步骤：针对动作树的某一层，遍历若干个智能体该层输出的动作分布，利用集成方法确定决策动作；

响应于智能体选定的动作和采样结果不一致，丢弃该智能体的动作分布，从智能体集合中剔除该智能体；

根据动作树层关系重复执行所述处理步骤，直至动作树的叶子结点。

可选的，所述响应于执行至动作树的叶子结点，将若干个决策动作生成决策动作集合之后，还包括：

对调整后的智能体集合进行分布融合处理，生成融合动作分布，所述融合动作分布用于利用集成方法确定出不进行删减的决策动作。

可选的，所述若干个智能体包括相同的，转化为神经网络的动作树。

可选的，所述动作树包括一个根节点和若干个不同层级的动作子节点，所述动作树包括若干个层级，所述层级包括若干个一级动作子节点，所述一级动作子节点包括被选中概率分布加和为1的若干个二级动作子节点。

本申请第二方面提供了一种决策动作确定装置，所述装置包括：

获取模块，用于获取态势表征；

第一处理模块，用于将所述态势表征同时输入智能体集合中，得到每个智能体对应的动作分布和动作选定结果，所述智能体集合包括若干个智能体；

第二处理模块，用于根据动作树层关系将每个智能体对应的动作分布和动作选定结果输入策略集成模块，处理得到决策动作，并调整所述智能体集合；

决策动作集合生成模块，用于响应于执行至动作树的叶子结点，将若干个决策动作生成决策动作集合。

可选的，所述装置还包括：

融合动作分布生成模块，用于对调整后的智能体集合进行分布融合处理，生成融合动作分布，所述融合动作分布用于利用集成方法确定出不进行删减的决策动作。

本申请第三方面提供一种电子设备，包括：存储器，处理器，及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如本申请实施例第一方面提供的决策动作确定方法。

本申请第四方面提供一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行本申请实施例第一方面提供的决策动作确定方法。

本申请实施例提供了一种决策动作确定方法、装置、设备及介质。在执行所述方法时，将所述态势表征同时输入智能体集合中，得到每个智能体对应的动作分布和动作选定结果，所述智能体集合包括若干个智能体；根据动作树层关系将每个智能体对应的动作分布和动作选定结果输入策略集成模块，处理得到决策动作，并调整所述智能体集合；响应于执行至动作树的叶子结点，将若干个决策动作生成决策动作集合。由于深度强化学习技术本身的特性，单一智能体可能出现的决策不准确的问题。用多个智能体共同决策是一个简单且有效的方法，可以大大缓解上述问题。由此，实现了集成智能体的综合性能，增强数据驱动型智能体在兵棋推演中的泛化能力和稳健性，最大限度地应对未知场景。

附图说明

为更清楚地说明本实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的决策动作确定的方法的一种方法流程图；

图2为本申请实施例提供的神经网络结构图；

图3为本申请实施例提供的决策动作确定的装置的一种结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

正如前文所述，计算机兵棋演习系统在当前信息化战争模拟对抗中扮演了重要角色。随着人工智能（Artificial Intelligence, AI）技术的发展，使用智能体扮演红军或蓝军与真人对抗成为可能。目前的兵棋智能体主要有知识驱动型、数据驱动型和知识与数据混合驱动型三种。知识驱动型的代表技术是知识图谱和行为树，数据驱动型的代表技术是深度强化学习。然而兵棋是一种极其复杂的系统，信息不完美、长程决策、非对称、高不确定性和随机性等等问题使得各种技术路线都举步维艰。本发明主要针对数据驱动型技术路线中使用深度强化学习技术构建的指挥官架构的兵棋智能体，即一个智能体控制想定中所有的演习单位。强化学习是一种智能体不断与环境交互改善自身策略的机器学习方法。智能体在训练时有很大的随机性，可能很少到达某些态势，并且随着策略的逐步收敛，智能体也会更加偏向于到达常见的态势。因此单一智能体可能出现某些情况下决策不准确的问题，面对陌生的态势手足无措。智能体的泛化能力和稳健性有待提高。

为了解决这一问题，本申请实施例提供了一种决策动作确定方法、装置、设备及介质。在执行所述方法时，将所述态势表征同时输入智能体集合中，得到每个智能体对应的动作分布和动作选定结果，所述智能体集合包括若干个智能体；根据动作树层关系将每个智能体对应的动作分布和动作选定结果输入策略集成模块，处理得到决策动作，并调整所述智能体集合；响应于执行至动作树的叶子结点，将若干个决策动作生成决策动作集合。由于深度强化学习技术本身的特性，单一智能体可能出现的决策不准确的问题。用多个智能体共同决策是一个简单且有效的方法，可以大大缓解上述问题。由此，实现了集成智能体的综合性能，增强数据驱动型智能体在兵棋推演中的泛化能力和稳健性，最大限度地应对未知场景。

本申请实施例提供的方法执行主体可以为控制系统。

以下通过一个实施例，对本申请提供的决策动作确定方法进行说明。请参考图1，图1为本申请实施例所提供的决策动作确定方法的一种方法流程图，包括：

S101：获取态势表征。

其中，态势表征为某时刻的若干个态势表征，关于获取方式已经，态势表征的个数在此不做限制。

S102：将所述态势表征同时输入智能体集合中，得到每个智能体对应的动作分布和动作选定结果。

所述智能体集合包括若干个智能体。所述若干个智能体包括相同的，转化为神经网络的动作树。所述动作树包括若干个层级，所述层级包括若干个一级动作子节点，所述一级动作子节点包括被选中概率分布加和为1的若干个二级动作子节点。

以某小型空中对抗想定为例，蓝方有预警机2架、歼击机8架，预警机可执行空中巡逻、空中预警、返航三个作战任务，歼击机可执行空中巡逻、空中拦截、空中打击、返航四个作战任务，除返航外，每个作战任务都需要指定目标空域，假设这里划分了9片目标空域。关于上述距离可以演化成形式化描述，进而生成动作树。其中，该动作树有一个伪根节点"root"，其拥有三个动作子节点，分别是“预警机”、“歼击机”和“不选择”，这三个动作被选中的概率分别是0.4、0.5和0.1。预警机有2架，即有两个动作子节点，编号为“1”和“2”，被选中的概率分别为0.5和0.5。歼击机有8架，即有八个动作子节点，编号为“1”到“8”，被选中的概率分布分别为0.1、0.1、0.2、0.1、0.25、0.1、0.05和0.1。“不选择”该动作没有子节点，以“None”标记。概率分布和恒为1。之后以此类推，直到整个动作树构造完毕。

将上述动作树转化为神经网络，作为指挥官架构智能体的决策模块参与训练，神经网络的结构图如图2所示，图2为本申请实施例提供的神经网络结构图，图2也可视作动作树从根节点开始合并每棵子树每一层动作结点的简约表示，[ ]内表示所有的动作结点，{ }内表示每个动作结点被选择的概率。该神经网络的每一层接收特征输入，然后输出动作分布用于决策。每一层的输出也会作为下一层的特征输入，直到最后一层的输出层。由于深度强化学习技术本身的特性，单一智能体可能出现的决策不准确的问题。用多个智能体共同决策是一个简单且有效的方法，可以大大缓解上述问题。

策略集成是将集成学习思想引入强化学习中的一类方法。简单来说，就是训练出多个智能体模型，在决策时对多个智能体模型的动作输出进行综合考量，最终执行考量后的动作。多个智能体并不要求是同一算法，比如智能体A可以基于深度强化学习的PPO算法，智能体B可以基于深度强化学习的SAC算法，智能体C可以基于知识图谱，智能体D可以基于知识规则。但本方案要求每个智能体都有相同的动作树，并且能输出分布。当选取动作即遍历动作树时，可以依据多个智能体的分布通过投票、融合等方法，选择最终执行的动作。

在实际应用场景中，系统独立训练n个智能体，训练完成后，取其中m个智能体用于前向推演。m可取在保证实时性和稳定性的情况下前向推演机器性能支持的最大值。将某时刻的态势表征同时输入m个智能体中，保留智能体的动作网络部分的所有分布以及该智能体选择执行的动作。

在一种可能的实现方式中S103之前还包括，判断智能体集合中的元素数量是否大于1，当检测到智能体集合中的元素数量大于1时，执行步骤S103，当检测到智能体集合中的元素数量不大于1时，直接运用单模型决策，从而得到执行的决策动作集合。

S103：根据动作树层关系将每个智能体对应的动作分布和动作选定结果输入策略集成模块，处理得到决策动作，并调整所述智能体集合。

具体的，针对动作树的某一层，遍历若干个智能体该层输出的动作分布，利用集成方法确定决策动作；响应于智能体选定的动作和所述采样结果不一致，丢弃该智能体的动作分布，从智能体集合中剔除该智能体。

将m个智能体输出的动作和分布送入策略集成模块，策略集成模块会按照动作树的层数依次遍历每个智能体的动作分布。在动作树的某一层，策略集成模块会遍历所有智能体该层输出的动作分布，利用投票、分布融合等集成方法选择执行某个动作。若智能体选定的动作和策略集成模块选定的动作一致，则保留该智能体的动作分布，否则丢弃，不参与之后的决策。

S104：响应于执行至动作树的叶子结点，将若干个决策动作生成决策动作集合。

在实际应用场景中，重复执行步骤S103直至动作树的叶子结点。当系统检测到已执行至动作树的叶子结点，将每次生成的决策动作结合起来，生成决策动作集合。而后，将t时刻的决策动作传入仿真环境，进行后续操作。

下面根据前述图2中对本申请实施例提供的决策动作确定方法进行举例说明。

假设目前已经训练好了四个智能体模型，记为π_i，则有一个策略集合PS=[π₁,π₂,π₃,π₄ ]。在某个决策步t时，将当前态势s_t输入所有策略π_i，可以得到整个网络输出的分布。

将所有策略的分布输入策略集成模块，开始依次遍历每一层动作分布。例如，对 “选择作战飞机类型”这一元动作（Meta-action），在实际应用场景中可以采用投票法，即四个策略在其动作分布上采样的结果分别为[预警机，预警机，预警机，歼击机]，则当前选择 “预警机”执行任务，且

仅保留[π₁,π₂,π₃]。其中，集成方法可以根据实际需求进行适应性调整，在此不做限制。

接着继续遍历下一层，此后可以采用分布融合以达到集成的目的，即根据

中剩余的策略融合成一个新的动作分布π_e，

上述公式中各参数定义如下，s_t表示t时刻的态势，A表示某层网络的动作子集，a和a'表示动作子集A中的某个动作，a'用于遍历动作子集，max π_i（a│s_t）表示策略集合中每个策略在s_t下输出动作a中，概率值中最大的那一个。采样策略在π_e上采样执行的动作，策略集合PS不做任何删减操作。

对之后的动作结点重复执行集成策略，直到决策完毕。

由此，本申请实施例提供的技术方案中，将所述态势表征同时输入智能体集合中，得到每个智能体对应的动作分布和动作选定结果，所述智能体集合包括若干个智能体；根据动作树层关系将每个智能体对应的动作分布和动作选定结果输入策略集成模块，处理得到决策动作，并调整所述智能体集合；响应于执行至动作树的叶子结点，将若干个决策动作生成决策动作集合。由于深度强化学习技术本身的特性，单一智能体可能出现的决策不准确的问题。用多个智能体共同决策是一个简单且有效的方法，可以大大缓解上述问题。实现了集成智能体的综合性能，增强数据驱动型智能体在兵棋推演中的泛化能力和稳健性，最大限度地应对未知场景。

综上，本方案设计的策略集成框架能够提高智能体决策的泛化性和稳健性。主要体现在策略集成智能体的综合性能指标高于任意单一策略智能体，能很好地取长补短，这体现出了本申请技术方案的稳健性。在训练时未见过的场景中测试，策略集成智能体的表现也要优于单一策略智能体，这体现出了本申请技术方案的泛化性。

以上为本申请实施例提供一种决策动作确定方法的一些具体实现方式，基于此，本申请还提供了对应的装置。下面将从功能模块化的角度对本申请实施例提供的装置进行介绍。

请参考图3，图3为本申请实施例所提供的一种决策动作确定装置的结构示意图。

本实施例中，该装置可以包括：

获取模块301，用于获取态势表征；

第一处理模块302，用于将所述态势表征同时输入智能体集合中，得到每个智能体对应的动作分布和动作选定结果，所述智能体集合包括若干个智能体；

第二处理模块303，用于根据动作树层关系将每个智能体对应的动作分布和动作选定结果输入策略集成模块，处理得到决策动作，并调整所述智能体集合；

决策动作集合生成模块304，用于响应于执行至动作树的叶子结点，将若干个决策动作生成决策动作集合。

可选的，所述第二处理模块具体用于，处理步骤：针对动作树的某一层，遍历若干个智能体该层输出的动作分布，利用集成方法确定决策动作；响应于智能体选定的动作和所述采样结果不一致，丢弃该智能体的动作分布，从智能体集合中剔除该智能体；根据动作树层关系重复执行所述处理步骤，直至动作树的叶子结点。

可选的，所述装置还包括：

本申请实施例还提供了对应的设备以及计算机存储介质，用于实现本申请实施例所提供的决策动作确定方法方案。

其中，所述设备包括存储器和处理器，所述存储器用于存储指令或代码，所述处理器用于执行所述指令或代码，以使所述设备执行本申请任一实施例所述的决策动作确定方法。

所述计算机存储介质中存储有代码，当所述代码被运行时，运行所述代码的设备实现本申请任一实施例所述的决策动作确定方法。

需要说明的是，本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统或装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

应当理解，在本申请中，“至少一个（项）”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项（个）或复数项（个）的任意组合。例如，a，b或c中的至少一项（个），可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器（RAM）、内存、只读存储器（ROM）、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种决策动作确定方法，其特征在于，包括：

获取态势表征；

2.根据权利要求1所述的方法，其特征在于，所述根据动作树层关系将每个智能体对应的动作分布和动作选定结果输入策略集成模块，处理得到决策动作，并调整所述智能体集合，包括：

3.根据权利要求1所述的方法，其特征在于，所述响应于执行至动作树的叶子结点，将若干个决策动作生成决策动作集合之后，还包括：

4.根据权利要求1所述的方法，其特征在于，所述若干个智能体包括相同的，转化为神经网络的动作树。

5.根据权利要求4所述的方法，其特征在于，所述动作树包括一个根节点和若干个不同层级的动作子节点，所述动作树包括若干个层级，所述层级包括若干个一级动作子节点，所述一级动作子节点包括被选中概率分布加和为1的若干个二级动作子节点。

6.一种决策动作确定装置，其特征在于，包括：

获取模块，用于获取态势表征；

7.根据权利要求6所述装置，其特征在于，所述若干个智能体包括相同的，转化为神经网络的动作树。

8.根据权利要求6所述装置，其特征在于，所述装置还包括：

9.一种电子设备，其特征在于，所述设备包括存储器和处理器，所述存储器用于存储程序或代码，所述处理器用于运行所述存储器中存储的程序或代码，以实现如权利要求1-5任一项所述的决策动作确定方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有代码，当所述代码被运行时，运行所述代码的设备实现如权利要求1-5任一项所述的决策动作确定方法。