CN116663637A

CN116663637A - 一种多层级智能体同步嵌套训练方法

Info

Publication number: CN116663637A
Application number: CN202310771470.7A
Authority: CN
Inventors: 马春华; 张萌; 王朝; 刘盼盼; 蒋少强; 宿丁; 何杰
Original assignee: CETC 29 Research Institute
Current assignee: CETC 29 Research Institute
Priority date: 2023-06-27
Filing date: 2023-06-27
Publication date: 2023-08-29

Abstract

本发明提供一种多层级智能体同步嵌套训练方法，包括：构建多层级智能体同步嵌套训练架构；构建多层级智能体模型；设计多层级智能体同步训练引擎，并基于所述多层级智能体同步嵌套训练架构和多层级智能体同步训练引擎训练多层级智能体模型。本发明提出一种多层级智能体同步嵌套训练架构，并通过设计合理的多层级智能体模型和有效的多层级智能体同步训练引擎，可支撑多层级智能体进行同步嵌套训练，从而实现复杂场景下的多层级智能体同步收敛。

Description

一种多层级智能体同步嵌套训练方法

技术领域

本发明涉及多智能体训练技术领域，具体而言，涉及一种多层级智能体同步嵌套训练方法。

背景技术

随着人工智能技术的飞速发展，基于深度强化学习算法的智能体训练成为研究热点。在学术界，学者主要对深度强化学习算法进行研究和验证，通常基于相对简单的仿真场景构建单智能体或同级多智能体。但是，实际应用中通常是多阶段的复杂任务场景，为此，有人提出根据复杂场景中任务决策和行为决策需求，分别构建上级智能体和下级智能体，并给出多层智能体训练架构，如图1所示，该多层级智能体训练架构采用单层训练循环，上下级智能体基于全局评价器计算生成的全局奖励值同时进行迭代训练。但是，由于全局奖励通常比较稀疏，而下级智能体的决策频率较高，导致基于全局评价器的多层级智能体同步训练通常难以收敛。在工程实践中通常采用两种方式解决以上问题：

一是将全局评价器增加自定义奖励函数使得奖励密集，但是人工设置的奖励条件通常需要反复调整参数值才能引导智能体优化；

二是将下级智能体采用基于知识规则的弱智能体，只需对上级智能体进行训练，但其智能水平和泛化性不如基于神经网络构建的强智能体。

因此，针对多层级智能体训练收敛难的问题，需要通过研究提出更有效的解决方法。

发明内容

本发明旨在提供一种多层级智能体同步嵌套训练方法，以解决复杂仿真场景下多层级智能体训练难以收敛的问题。

本发明提供的一种多层级智能体同步嵌套训练方法，包括：

构建多层级智能体同步嵌套训练架构；

构建多层级智能体模型；

设计多层级智能体同步训练引擎，并基于所述多层级智能体同步嵌套训练架构和多层级智能体同步训练引擎训练多层级智能体模型。

进一步的，所述多层级智能体同步嵌套训练架构包括训练上级智能体的外循环和嵌套在外循环内的训练下级智能体的内循环；

所述外循环的优化目标是通过调整上级智能体的神经网络参数最大化全局累积奖励值，即最大化全局即时奖励值的加权和；

所述内循环的优化目标是在上级策略不变的时间跨度内，通过调整下级智能体的神经网络参数最大化内部累积奖励值，即最大化内部即时奖励值的加权和。

其中，所述全局即时奖励值根据外部仿真环境反馈信息进行设计，所述内部即时奖励值根据上级生成的任务目标进行设计。具体地：

所述外循环的全局累积奖励值计算式表示为：

所述内循环的全局累积奖励值计算式表示为：

其中，π表示上级智能体的神经网络参数，ω表示下级智能体的神经网络参数；T表示单次运行最长任务时长，t₀到t₁表示子任务时间跨度；γ∈[0,1)表示奖励折扣因子，f_t表示全局即时奖励函数，r_t表示内部即时奖励函数，s_t,s_t+1分别表示在t和t+1时刻外部仿真环境反馈的态势信息state，g_t表示上级智能体生成的任务决策结果goal，a_t表示下级智能体生成的行为决策结果action。

进一步的，所述构建多层级智能体模型为根据具体的训练场景进行多层级智能体模型的功能设计和代码开发，具体包括：

上级智能体基于较长时间跨度内的外部仿真环境反馈信息，进行包括任务目的、力量分配和协同队形的任务决策更新；所述较长时间跨度是指子任务时间跨度；

下级智能体根据上级智能体生成的任务决策结果，结合较短时间跨度内的外部仿真环境反馈信息生成包括平台机动和载荷运用的行为决策；所述较短时间跨度是指单仿真步长时间跨度；

每个所述上级智能体和下级智能体都包括初始神经网络结构ω₀、状态空间s_t、决策空间g_t或a_t以及奖励函数f_t或r_t的代码开发。

进一步的，为有效控制上级智能体和下级智能体的同步嵌套训练过程，所述多层级智能体同步训练引擎包括数据采样器、训练控制器、模型训练器和指令生成器；所述模型训练器包括上级智能体训练器和下级智能体训练器；

所述数据采样器用于采集外部仿真环境反馈信息，并通过预处理生成训练样本；

所述训练控制器用于自适应切换上级智能体训练器和下级智能体训练器运行，从而实现同步嵌套训练持续运行；所述同步嵌套训练的方法包括：根据下级智能体训练是否收敛控制内循环训练运行；根据单次任务是否结束以及上级智能体训练是否收敛控制外循环训练运行；基于多层级智能体同步嵌套训练架构，当上级智能体收敛，则多层级智能体实现同步收敛，结束训练。

所述模型训练器用于训练运行过程控制和多层级智能体模型训练优化；所述上级智能体训练器和下级智能体训练器均是根据训练样本中的外部仿真环境反馈信息，利用深度强化学习算法对对应的上级智能体和下级智能体的神经网络进行参数优化；其中：上级智能体训练器是基于训练样本中在全任务周期内基于各子任务的外部仿真环境反馈信息对上级智能体进行迭代训练；下级智能体训练器是基于训练样本中在子任务阶段内根据单仿真步长的外部仿真环境反馈信息对下级智能体进行迭代训练。

所述指令生成器用于根据智能决策结果生成控制指令；所述智能决策结果包括训练后的上级智能体输出的任务决策结果和下级智能体输出的行为决策结果。其中，需要按照预设的格式将智能决策结果转化为外部仿真环境能够识别的控制指令。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

本发明提出一种多层级智能体同步嵌套训练架构，并通过设计合理的多层级智能体模型和有效的多层级智能体同步训练引擎，可支撑多层级智能体进行同步嵌套训练，从而实现复杂场景下的多层级智能体同步收敛。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为现有多层级智能体训练架构的示意图。

图2为本发明实施例中多层级智能体同步嵌套训练方法的流程图。

图3为本发明实施例中多层级智能体同步嵌套训练架构的示意图。

图4为本发明实施例中多层级智能体同步训练引擎的示意图。

图5为本发明实施例中多层级智能体同步嵌套训练的流程图。

图6为本发明实施例中无人船编队巡逻作战过程的示意图。

图7为本发明实施例中多层级智能体模型控制关系的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

以无人船编队巡逻作战场景为例，说明本发明提出的多层级智能体同步嵌套训练方法的实施步骤。如图6所示，10艘具有侦察和打击能力的无人船编队执行巡逻作战任务，包括三个子任务阶段，首先抵近指定任务海域，然后进行分组巡逻侦察，在发现目标后快速组成作战编队并自主交战，任务完成的标识是逼退目标舰船撤离指定海域。本实施例只对无人船作战决策进行智能训练，智能训练的目的是生成可稳定达成任务目的的无人船作战决策能力。目标舰船的行动采用知识规则模型进行反应式控制。

按照如图2所示的多层级智能体同步嵌套训练方法的流程执行，具体包括如下步骤：

步骤1，构建多层级智能体同步嵌套训练架构；如图3所示，所述多层级智能体同步嵌套训练架构包括训练上级智能体的外循环和嵌套在外循环内的训练下级智能体的内循环；

所述外循环的全局累积奖励值计算式表示为：

所述内循环的全局累积奖励值计算式表示为：

步骤2，构建无人船编队巡逻作战的多层级智能体模型；

(1)多层级智能体模型的功能设计

本实施例中的多层级智能体包括上级任务智能体和下级无人船智能体，所述上级任务智能体和下级无人船智能体的控制关系如图7所示。其中，上级任务智能体主要功能是根据外部仿真环境反馈信息以及当前任务阶段对子任务目的、力量分配、协同队形等进行任务决策更新。下级无人船智能体主要功能是根据上级任务智能体生成的任务决策结果，对各无人船平台机动、侦察设备运用、火力武器使用进行智能控制。

以无人船编队进入巡逻阶段为例，无人船编队巡逻作战的多层级智能体模型核心设计如表1所示。

表1无人船编队巡逻作战的多层级智能体模型核心设计：

(2)多层级智能体模型的代码开发

基于主流的开源学习框架Tensorflow，选择经典的单智能体深度强化学习PPO算法。根据表1完成多层级智能体模型的初始神经网络构建、状态空间、决策空间、奖励函数等代码开发。

步骤3，设计如图4所示的多层级智能体同步训练引擎，并基于所述多层级智能体同步嵌套训练架构和多层级智能体同步训练引擎，按照图5所示的同步嵌套训练流程训练多层级智能体模型。

本实施例中，无人船编队巡逻作战的同步嵌套训练流程伪代码如下：

具体地：

(1)数据采样器实时采集外部仿真环境反馈的态势信息，包括无人船位置、速度、状态、载荷工作状态、工作参数和目标感知信息，并通过归一化等预处理生成训练样本。

(2)训练控制器进行内外循环嵌套训练控制

在子任务执行时间内运行内循环进行下级无人船智能体训练，根据下级无人船智能体是否收敛决定是否需要继续进行内循环迭代训练。

下级无人船智能体收敛后切换运行外循环进行上级任务智能体训练，基于训练好的下级无人船智能体完成上级任务智能体神经网络参数更新和决策生成。

任务决策生成后再切换运行内循环进行下级无人船智能体训练。

当单次任务结束，根据上级任务智能体是否收敛决定是否需要继续进行外循环迭代训练。

(3)下级智能体训练器进行下级无人船智能体训练：

内循环的目的是训练下级无人船智能体稳定完成上级任务智能体决策生成的子任务。内循环运行控制外部仿真环境在子任务时间内的运行和重置，以巡逻子任务阶段为例，基于上级任务智能体生成的巡逻编队分配、巡逻阵型等信息，下级无人船智能体进行无人船的机动路径、速度等，侦察装备的工作状态、工作参数等，火力武器的发射状态、发射参数等行为决策，并结合外部环境反馈值计算内部即时奖励值，通过内循环训练迭代更新下级无人船智能体的神经网络参数，直到内部累积奖励值曲线稳定收敛。

(4)上级智能体训练器进行上级任务智能体训练：

外循环的目的是训练上级任务智能体稳定完成整个巡逻作战任务目的，逼退目标舰船。外循环的训练器控制外部仿真环境在整个任务周期内的运行和重置，并且依次在不同任务阶段，基于本阶段已训练好的下级无人船智能体与外部环境交互，上级任务智能体根据外部仿真环境反馈的态势信息进行下个阶段任务决策，并计算全局即时奖励值，通过外循环训练迭代更新上级任务智能体的神经网络参数，直到全局累积奖励值曲线稳定收敛。

(5)指令生成器生成控制指令

将下级无人船智能体生成的决策结果按照预设的格式转化为外部仿真环境能够识别的控制指令，包括无人船的航向、速度、侦察方向、侦察协同关系、武器状态等控制指令，并实时发送给外部仿真环境中对应的无人船仿真模型进行行为控制。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种多层级智能体同步嵌套训练方法，其特征在于，包括：

构建多层级智能体同步嵌套训练架构；

构建多层级智能体模型；

2.根据权利要求1所述的多层级智能体同步嵌套训练方法，其特征在于，所述多层级智能体同步嵌套训练架构包括训练上级智能体的外循环和嵌套在外循环内的训练下级智能体的内循环；

3.根据权利要求2所述的多层级智能体同步嵌套训练方法，其特征在于，所述全局即时奖励值根据外部仿真环境反馈信息进行设计，所述内部即时奖励值根据上级生成的任务目标进行设计。

4.根据权利要求3所述的多层级智能体同步嵌套训练方法，其特征在于，所述外循环的全局累积奖励值计算式表示为：

其中，π表示上级智能体的神经网络参数；T表示单次运行最长任务时长，t₀到t₁表示子任务时间跨度；γ∈[0,1)表示奖励折扣因子，f_t表示全局即时奖励函数，s_t,s_t+1分别表示在t和t+1时刻外部仿真环境反馈的态势信息state，g_t表示上级智能体生成的任务决策结果goal。

5.根据权利要求3所述的多层级智能体同步嵌套训练方法，其特征在于，所述内循环的全局累积奖励值计算式表示为：

其中，ω表示下级智能体的神经网络参数；t₀到t₁表示子任务时间跨度；γ∈[0,1)表示奖励折扣因子，r_t表示内部即时奖励函数，s_t,s_t+1分别表示在t和t+1时刻外部仿真环境反馈的态势信息state，g_t表示上级智能体生成的任务决策结果goal,a_t表示下级智能体生成的行为决策结果action。

6.根据权利要求2-5任一项所述的多层级智能体同步嵌套训练方法，其特征在于，所述构建多层级智能体模型为根据具体的训练场景进行多层级智能体模型的功能设计和代码开发，具体包括：

每个所述上级智能体和下级智能体都包括初始神经网络结构、状态空间、决策空间以及奖励函数的代码开发。

7.根据权利要求6所述的多层级智能体同步嵌套训练方法，其特征在于，所述多层级智能体同步训练引擎包括数据采样器、训练控制器、模型训练器和指令生成器；所述模型训练器包括上级智能体训练器和下级智能体训练器；

所述训练控制器用于自适应切换上级智能体训练器和下级智能体训练器运行，从而实现同步嵌套训练持续运行；

所述模型训练器用于训练运行过程控制和多层级智能体模型训练优化；

所述指令生成器用于根据智能决策结果生成控制指令；所述智能决策结果包括训练后的上级智能体输出的任务决策结果和下级智能体输出的行为决策结果。

8.根据权利要求7所述的多层级智能体同步嵌套训练方法，其特征在于，所述同步嵌套训练的方法包括：

根据下级智能体训练是否收敛控制内循环训练运行；

根据单次任务是否结束以及上级智能体训练是否收敛控制外循环训练运行；

基于多层级智能体同步嵌套训练架构，当上级智能体收敛，则多层级智能体实现同步收敛，结束训练。

9.根据权利要求7所述的多层级智能体同步嵌套训练方法，其特征在于，所述上级智能体训练器和下级智能体训练器均是根据训练样本中的外部仿真环境反馈信息，利用深度强化学习算法对对应的上级智能体和下级智能体的神经网络进行参数优化；其中：

上级智能体训练器是训练样本中在全任务周期内基于各子任务的外部仿真环境反馈信息对上级智能体进行迭代训练；

下级智能体训练器是训练样本中在子任务阶段内根据单仿真步长的外部仿真环境反馈信息对下级智能体进行迭代训练。

10.根据权利要求7所述的多层级智能体同步嵌套训练方法，其特征在于，所述指令生成器需要按照预设的格式将智能决策结果转化为外部仿真环境能够识别的控制指令。