CN113269329B

CN113269329B - 一种多智能体分布式强化学习方法

Info

Publication number: CN113269329B
Application number: CN202110484030.4A
Authority: CN
Inventors: 王勇; 袁利; 黄煌; 韩冬; 石恒; 王殿佑
Original assignee: Beijing Institute of Control Engineering
Current assignee: Beijing Institute of Control Engineering
Priority date: 2021-04-30
Filing date: 2021-04-30
Publication date: 2024-03-19
Anticipated expiration: 2041-04-30
Also published as: CN113269329A

Abstract

一种多智能体分布式强化学习方法，包括多智能体组织形式、智能体网络设计和训练方法。通过强化学习的方式实现整个网络系统的自适应网络服务，解决网络的分布式自主覆盖、目标追踪、缺位补充等高层次协同操作背后的关键技术，提升整个系统的综合感知保障能力和自愈合能力，使得整个系统具备极强的自组织、自配置和自管理能力，具备自我防护、系统修复和重构能力，以应对外部环境的变化。

Description

一种多智能体分布式强化学习方法

技术领域

本发明涉及一种多智能体分布式强化学习方法，属于人工智能领域，用于解决各类多智能体分布式自主协同问题。

背景技术

基于深度强化学习的多智能体分布式自主协同，是实现多智能体根据复杂环境自主学习训练具备协同合作的主要途径。本质是多个智能体之间通过互相通讯构成网络，通过强化学习的方式实现整个网络系统的自适应网络服务，解决网络的分布式自主覆盖、目标追踪、缺位补充等高层次协同操作背后的关键技术，提升整个系统的综合感知保障能力和自愈合能力，使得整个系统具备极强的自组织、自配置和自管理能力，具备自我防护、系统修复和重构能力，以应对外部环境的变化。现有技术中，尚无已有方案或流程可供借鉴。

发明内容

本发明要解决的技术问题是：克服现有技术的不足，基于深度神经网络提出了，提供了一种多智能体分布式强化学习方法，通过强化学习的方式实现整个网络系统的自适应网络服务，解决网络的分布式自主覆盖、目标追踪、缺位补充等高层次协同操作背后的关键技术，提升整个系统的综合感知保障能力和自愈合能力，使得整个系统具备极强的自组织、自配置和自管理能力，具备自我防护、系统修复和重构能力，以应对外部环境的变化。

本发明目的通过以下技术方案予以实现：

一种多智能体分布式强化学习网络，包括如下步骤：

对于网络中的任一级的所有智能体分组，每个组包括一个组长和若干个成员，该级内的所有组长即为上一级的所有智能体，形成上一级直至最高级；

对每个组内的任一个智能体，均包括用于生成策略的控制网络和用于将原始数据抽象为具体特征的数据网络；控制网络包括价值网络和策略网络，价值网络和策略网络均以观测到的局部数据为输入，价值网络以当前策略的回报函数为输出；策略网络则输出下一刻所采取的策略，并使下一刻的回报函数最大；

对任一级，该级中任一组内的所有智能体之间以及不同组之间能够通信。

在本发明一实施例中，对任一组，该组内的所有智能体之间均直接进行通信，该组内的组长与同级的其余组的组长进行通信。

在本发明一实施例中，对任一组，该组组长的价值网络以组内成员的价值网络的输出作为输入，该组组长的策略网络以组内成员的策略网络的输出作为输入。

在本发明一实施例中，每组的所有智能体之间通过神经网络的LSTM层互相通信。

在本发明一实施例中，按物理拓扑结构，网络中的任一组中均能够添加进新的智能体。

在本发明一实施例中，所述网络用于多源信息融合和/或智能特征提取和/或智能识别。

一种多智能体分布式强化学习方法，基于上述多智能体分布式强化学习方法，包括如下步骤：

每个智能体依据网络拓扑关系完成局部信息从输入到输出的转化，并得到环境的反馈reward；

每个智能体利用actor-critic原则进行网络参数的更新；

数据网络采用监督学习，依据神经网络的一般反馈原则进行误差反馈以更新每个成员的网络参数。

一种计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在由处理器加载并运行时，使所述处理器执行上述多智能体分布式强化学习方法。

本发明相比于现有技术具有如下有益效果：

(1)本发明提出的方案以每个智能体的控制网络与数据网络作为基本单元，根据网络的物理拓扑结构可以搭建起更大规模的控制与数据传输系统，使得整体的控制与数据传输系统从个体到整体实现无缝连接；

(2)本发明每个智能体的控制方案采用actor-critic强化学习框架设计，进而实现每个智能体自身的自主学习与整个网络的自主学习的统一，通过赋予每个智能体自主学习能力可以充分体现网络的柔性自组织和根据环境自我演化的能力；

(3)本发明把整个系统划分为控制网络和数据(任务)网络，可以更加灵活的实现数据传输与拓扑结构控制的分离优化，而且，这样构建的数据网络不仅可以实现数据传输功能，而且可以实现多源信息融合、智能特征提取或识别的功能。

附图说明

图1为网络分层结构；

图2为member节点基于A-C的神经网络结构；

图3为member节点数据网络结构；

图4为leader节点基于A-C的神经网络结构；

图5为member节点价值网络互联结构；

图6为member节点策略网络互联结构；

图7为leader节点数据网络结构；

图8为leader节点价值网络互联结构；

图9为leader节点策略网络互联结构；

图10为leader节点数据网络互联结构。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明的实施方式作进一步详细描述。

一种多智能体分布式强化学习方法，包括如下步骤：

1、多智能体组织形式

多个航天器依据物理位置、任务需要等约束，按照一定的要求互相通讯，整体构成不同形式的网络结构。而整个网络可以划分为多个小组，每个小组由一个组长(Leader)和多个成员(member)组成，这些Leader形成了上一级骨干网络，在上一级网络中又可以分组，再次形成更上一级的网络，直至最上级，本发明采用两级结构为例。如图1所示。

在每个小组内，所有感知器均直接同leader进行数据交换，leader再同骨干网络中其余小组的Leader进行通信。

整个系统主要完成协同观测和协同执行两个功能。整个网络一方面构成一个大型的智能感知和识别系统完成数据传输与特征提取，另一方面构成一个大型的策略生成系统，协同完成任务。

2、member智能体神经网络结构设计

每个智能体采用Actor-critic强化学习方法实现分布式自主学习控制，包括两个部分:

2.1、控制网络

主要负责策略生成，每个智能体的控制网络均由Actor和critic两个网络构成，如图2所示。Critic网络是价值网络，Actor网络是策略网络，价值网络以智能体观测到的局部数据为输入，以当前策略的回报函数Qi为输出；策略网络也以观测到的局部数据为输入，输出下一刻所采取的策略Ai。通过强化学习价值网络不断获取当前策略的回报函数，并依据回报函数的大小来调整策略网络使得下一刻的回报函数Qi最大。

2.2、数据网络

数据网络是一个编码器，负责把原始数据抽象为具体特征，如图3所示。

3、Leader智能体神经网络结构设计

多个智能体之间构成一个小组，其中某个智能体作为leader，其他的是member，其中member网络的输出构成leader的输入，具体leader价值网络和策略网络如图4所示。leader的价值和策略网络收集来自member的价值和策略网络的输出作为输入，通过综合每个成员的核心利益(Qi)和具体策略(Ai)进一步作为整个小组的核心利益(Qi)和具体策略(Ai)。

4、小组各member智能体之间网络结构

4.1、控制网络

当member智能体之间具有通讯关系时可以认为是在拓扑结构上是联通的，此时通过每个智能体之间神经网络的LSTM层互相通信，下图为每个智能体的价值网络通过连接构成一个更大的价值网络。每个个体的价值Qi再组合为一个整体的Q，如图5所示。互相连接的策略网络如图6所示。

4.2、数据网络

而leader的数据网络直接把每个member数据网络的输出作为输入，整体上构成一个更加深层次的特征提取器，本质上是进一步融合了每个member的输出信息作为小组的整体信息。如图7所示。

因此，作为leader它的控制网络不仅融合了本小组内每个成员的策略，而且数据网络还融合了小组内每个成员的探测数据。

5、Leader之间的网络结构

小组之间依据物理拓扑结构通过每个小组的leader进行互联通信。

5.1、控制网络

包括价值网络和策略网络如图8、9所示。

5.2、数据网络

数据网络是一个更大的特征提取器，完成数据融合与特征提取/智能识别等任务，如图10所示。

6、工作及学习训练流程

学习训练需要在数学仿真学习训练系统下完成。工作流程具体步骤如下：

1)每个智能体依据网络拓扑关系完成局部信息从输入到输出的转化，并得到环境的反馈reward。

2)每个智能体利用actor-critic原则进行网络参数的更新。

3)整个系统的数据网络采用监督学习，从第一级的member开始到最后一级的leader结束构成一个更大的网络，整体上依据神经网络的一般反馈原则进行误差反馈以更新每个成员的网络参数。

本发明说明书中未作详细描述的内容属本领域技术人员的公知技术。

本发明虽然已以较佳实施例公开如上，但其并不是用来限定本发明，任何本领域技术人员在不脱离本发明的精神和范围内，都可以利用上述揭示的方法和技术内容对本发明技术方案做出可能的变动和修改，因此，凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化及修饰，均属于本发明技术方案的保护范围。

Claims

1.一种多智能体分布式强化学习网络系统，其特征在于，多个航天器依据物理位置、任务需要构成不同形式的网络结构，每个航天器即为一个组员；多智能体分布式强化学习网络包括如下步骤：

对任一级，该级中任一组内的所有智能体之间以及不同组之间能够通信；

该网络系统以每个智能体的控制网络与数据网络作为基本单元，根据网络的物理拓扑结构搭建起更大规模的控制与数据传输系统，使得整体的控制与数据传输系统从个体到整体实现无缝连接。

2.根据权利要求1所述的一种多智能体分布式强化学习网络系统，其特征在于，对任一组，该组内的所有智能体之间均直接进行通信，该组内的组长与同级的其余组的组长进行通信。

3.根据权利要求1所述的一种多智能体分布式强化学习网络系统，其特征在于，对任一组，该组组长的价值网络以组内成员的价值网络的输出作为输入，该组组长的策略网络以组内成员的策略网络的输出作为输入。

4.根据权利要求1所述的一种多智能体分布式强化学习网络系统，其特征在于，每组的所有智能体之间通过神经网络的LSTM层互相通信。

5.根据权利要求1所述的一种多智能体分布式强化学习网络系统，其特征在于，按物理拓扑结构，网络中的任一组中均能够添加进新的智能体。

6.根据权利要求1所述的一种多智能体分布式强化学习网络系统，其特征在于，所述网络用于多源信息融合和/或智能特征提取和/或智能识别。

7.一种多智能体分布式强化学习方法，其特征在于，基于权利要求1至6中任一项所述的网络系统，包括如下步骤：

每个智能体利用actor-critic原则进行网络参数的更新；

8.一种计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在由处理器加载并运行时，使所述处理器执行如权利要求7所述的方法。