CN113269329B - 一种多智能体分布式强化学习方法 - Google Patents
一种多智能体分布式强化学习方法 Download PDFInfo
- Publication number
- CN113269329B CN113269329B CN202110484030.4A CN202110484030A CN113269329B CN 113269329 B CN113269329 B CN 113269329B CN 202110484030 A CN202110484030 A CN 202110484030A CN 113269329 B CN113269329 B CN 113269329B
- Authority
- CN
- China
- Prior art keywords
- network
- group
- agent
- reinforcement learning
- self
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000002787 reinforcement Effects 0.000 title claims abstract description 25
- 238000000034 method Methods 0.000 title claims abstract description 17
- 238000013528 artificial neural network Methods 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 10
- 230000005540 biological transmission Effects 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 5
- 230000004927 fusion Effects 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims description 2
- 238000012549 training Methods 0.000 abstract description 5
- 238000013461 design Methods 0.000 abstract description 4
- 238000005516 engineering process Methods 0.000 abstract description 4
- 230000008447 perception Effects 0.000 abstract description 3
- 239000013589 supplement Substances 0.000 abstract description 3
- 230000008859 change Effects 0.000 abstract description 2
- 230000008520 organization Effects 0.000 abstract description 2
- 230000008439 repair process Effects 0.000 abstract description 2
- 230000010485 coping Effects 0.000 abstract 1
- 238000004891 communication Methods 0.000 description 4
- 239000012528 membrane Substances 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 239000000523 sample Substances 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Multi Processors (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
一种多智能体分布式强化学习方法,包括多智能体组织形式、智能体网络设计和训练方法。通过强化学习的方式实现整个网络系统的自适应网络服务,解决网络的分布式自主覆盖、目标追踪、缺位补充等高层次协同操作背后的关键技术,提升整个系统的综合感知保障能力和自愈合能力,使得整个系统具备极强的自组织、自配置和自管理能力,具备自我防护、系统修复和重构能力,以应对外部环境的变化。
Description
技术领域
本发明涉及一种多智能体分布式强化学习方法,属于人工智能领域,用于解决各类多智能体分布式自主协同问题。
背景技术
基于深度强化学习的多智能体分布式自主协同,是实现多智能体根据复杂环境自主学习训练具备协同合作的主要途径。本质是多个智能体之间通过互相通讯构成网络,通过强化学习的方式实现整个网络系统的自适应网络服务,解决网络的分布式自主覆盖、目标追踪、缺位补充等高层次协同操作背后的关键技术,提升整个系统的综合感知保障能力和自愈合能力,使得整个系统具备极强的自组织、自配置和自管理能力,具备自我防护、系统修复和重构能力,以应对外部环境的变化。现有技术中,尚无已有方案或流程可供借鉴。
发明内容
本发明要解决的技术问题是:克服现有技术的不足,基于深度神经网络提出了,提供了一种多智能体分布式强化学习方法,通过强化学习的方式实现整个网络系统的自适应网络服务,解决网络的分布式自主覆盖、目标追踪、缺位补充等高层次协同操作背后的关键技术,提升整个系统的综合感知保障能力和自愈合能力,使得整个系统具备极强的自组织、自配置和自管理能力,具备自我防护、系统修复和重构能力,以应对外部环境的变化。
本发明目的通过以下技术方案予以实现:
一种多智能体分布式强化学习网络,包括如下步骤:
对于网络中的任一级的所有智能体分组,每个组包括一个组长和若干个成员,该级内的所有组长即为上一级的所有智能体,形成上一级直至最高级;
对每个组内的任一个智能体,均包括用于生成策略的控制网络和用于将原始数据抽象为具体特征的数据网络;控制网络包括价值网络和策略网络,价值网络和策略网络均以观测到的局部数据为输入,价值网络以当前策略的回报函数为输出;策略网络则输出下一刻所采取的策略,并使下一刻的回报函数最大;
对任一级,该级中任一组内的所有智能体之间以及不同组之间能够通信。
在本发明一实施例中,对任一组,该组内的所有智能体之间均直接进行通信,该组内的组长与同级的其余组的组长进行通信。
在本发明一实施例中,对任一组,该组组长的价值网络以组内成员的价值网络的输出作为输入,该组组长的策略网络以组内成员的策略网络的输出作为输入。
在本发明一实施例中,每组的所有智能体之间通过神经网络的LSTM层互相通信。
在本发明一实施例中,按物理拓扑结构,网络中的任一组中均能够添加进新的智能体。
在本发明一实施例中,所述网络用于多源信息融合和/或智能特征提取和/或智能识别。
一种多智能体分布式强化学习方法,基于上述多智能体分布式强化学习方法,包括如下步骤:
每个智能体依据网络拓扑关系完成局部信息从输入到输出的转化,并得到环境的反馈reward;
每个智能体利用actor-critic原则进行网络参数的更新;
数据网络采用监督学习,依据神经网络的一般反馈原则进行误差反馈以更新每个成员的网络参数。
一种计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在由处理器加载并运行时,使所述处理器执行上述多智能体分布式强化学习方法。
本发明相比于现有技术具有如下有益效果:
(1)本发明提出的方案以每个智能体的控制网络与数据网络作为基本单元,根据网络的物理拓扑结构可以搭建起更大规模的控制与数据传输系统,使得整体的控制与数据传输系统从个体到整体实现无缝连接;
(2)本发明每个智能体的控制方案采用actor-critic强化学习框架设计,进而实现每个智能体自身的自主学习与整个网络的自主学习的统一,通过赋予每个智能体自主学习能力可以充分体现网络的柔性自组织和根据环境自我演化的能力;
(3)本发明把整个系统划分为控制网络和数据(任务)网络,可以更加灵活的实现数据传输与拓扑结构控制的分离优化,而且,这样构建的数据网络不仅可以实现数据传输功能,而且可以实现多源信息融合、智能特征提取或识别的功能。
附图说明
图1为网络分层结构;
图2为member节点基于A-C的神经网络结构;
图3为member节点数据网络结构;
图4为leader节点基于A-C的神经网络结构;
图5为member节点价值网络互联结构;
图6为member节点策略网络互联结构;
图7为leader节点数据网络结构;
图8为leader节点价值网络互联结构;
图9为leader节点策略网络互联结构;
图10为leader节点数据网络互联结构。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明的实施方式作进一步详细描述。
一种多智能体分布式强化学习方法,包括如下步骤:
1、多智能体组织形式
多个航天器依据物理位置、任务需要等约束,按照一定的要求互相通讯,整体构成不同形式的网络结构。而整个网络可以划分为多个小组,每个小组由一个组长(Leader)和多个成员(member)组成,这些Leader形成了上一级骨干网络,在上一级网络中又可以分组,再次形成更上一级的网络,直至最上级,本发明采用两级结构为例。如图1所示。
在每个小组内,所有感知器均直接同leader进行数据交换,leader再同骨干网络中其余小组的Leader进行通信。
整个系统主要完成协同观测和协同执行两个功能。整个网络一方面构成一个大型的智能感知和识别系统完成数据传输与特征提取,另一方面构成一个大型的策略生成系统,协同完成任务。
2、member智能体神经网络结构设计
每个智能体采用Actor-critic强化学习方法实现分布式自主学习控制,包括两个部分:
2.1、控制网络
主要负责策略生成,每个智能体的控制网络均由Actor和critic两个网络构成,如图2所示。Critic网络是价值网络,Actor网络是策略网络,价值网络以智能体观测到的局部数据为输入,以当前策略的回报函数Qi为输出;策略网络也以观测到的局部数据为输入,输出下一刻所采取的策略Ai。通过强化学习价值网络不断获取当前策略的回报函数,并依据回报函数的大小来调整策略网络使得下一刻的回报函数Qi最大。
2.2、数据网络
数据网络是一个编码器,负责把原始数据抽象为具体特征,如图3所示。
3、Leader智能体神经网络结构设计
多个智能体之间构成一个小组,其中某个智能体作为leader,其他的是member,其中member网络的输出构成leader的输入,具体leader价值网络和策略网络如图4所示。leader的价值和策略网络收集来自member的价值和策略网络的输出作为输入,通过综合每个成员的核心利益(Qi)和具体策略(Ai)进一步作为整个小组的核心利益(Qi)和具体策略(Ai)。
4、小组各member智能体之间网络结构
4.1、控制网络
当member智能体之间具有通讯关系时可以认为是在拓扑结构上是联通的,此时通过每个智能体之间神经网络的LSTM层互相通信,下图为每个智能体的价值网络通过连接构成一个更大的价值网络。每个个体的价值Qi再组合为一个整体的Q,如图5所示。互相连接的策略网络如图6所示。
4.2、数据网络
而leader的数据网络直接把每个member数据网络的输出作为输入,整体上构成一个更加深层次的特征提取器,本质上是进一步融合了每个member的输出信息作为小组的整体信息。如图7所示。
因此,作为leader它的控制网络不仅融合了本小组内每个成员的策略,而且数据网络还融合了小组内每个成员的探测数据。
5、Leader之间的网络结构
小组之间依据物理拓扑结构通过每个小组的leader进行互联通信。
5.1、控制网络
包括价值网络和策略网络如图8、9所示。
5.2、数据网络
数据网络是一个更大的特征提取器,完成数据融合与特征提取/智能识别等任务,如图10所示。
6、工作及学习训练流程
学习训练需要在数学仿真学习训练系统下完成。工作流程具体步骤如下:
1)每个智能体依据网络拓扑关系完成局部信息从输入到输出的转化,并得到环境的反馈reward。
2)每个智能体利用actor-critic原则进行网络参数的更新。
3)整个系统的数据网络采用监督学习,从第一级的member开始到最后一级的leader结束构成一个更大的网络,整体上依据神经网络的一般反馈原则进行误差反馈以更新每个成员的网络参数。
本发明说明书中未作详细描述的内容属本领域技术人员的公知技术。
本发明虽然已以较佳实施例公开如上,但其并不是用来限定本发明,任何本领域技术人员在不脱离本发明的精神和范围内,都可以利用上述揭示的方法和技术内容对本发明技术方案做出可能的变动和修改,因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化及修饰,均属于本发明技术方案的保护范围。
Claims (8)
1.一种多智能体分布式强化学习网络系统,其特征在于,多个航天器依据物理位置、任务需要构成不同形式的网络结构,每个航天器即为一个组员;多智能体分布式强化学习网络包括如下步骤:
对于网络中的任一级的所有智能体分组,每个组包括一个组长和若干个成员,该级内的所有组长即为上一级的所有智能体,形成上一级直至最高级;
对每个组内的任一个智能体,均包括用于生成策略的控制网络和用于将原始数据抽象为具体特征的数据网络;控制网络包括价值网络和策略网络,价值网络和策略网络均以观测到的局部数据为输入,价值网络以当前策略的回报函数为输出;策略网络则输出下一刻所采取的策略,并使下一刻的回报函数最大;
对任一级,该级中任一组内的所有智能体之间以及不同组之间能够通信;
该网络系统以每个智能体的控制网络与数据网络作为基本单元,根据网络的物理拓扑结构搭建起更大规模的控制与数据传输系统,使得整体的控制与数据传输系统从个体到整体实现无缝连接。
2.根据权利要求1所述的一种多智能体分布式强化学习网络系统,其特征在于,对任一组,该组内的所有智能体之间均直接进行通信,该组内的组长与同级的其余组的组长进行通信。
3.根据权利要求1所述的一种多智能体分布式强化学习网络系统,其特征在于,对任一组,该组组长的价值网络以组内成员的价值网络的输出作为输入,该组组长的策略网络以组内成员的策略网络的输出作为输入。
4.根据权利要求1所述的一种多智能体分布式强化学习网络系统,其特征在于,每组的所有智能体之间通过神经网络的LSTM层互相通信。
5.根据权利要求1所述的一种多智能体分布式强化学习网络系统,其特征在于,按物理拓扑结构,网络中的任一组中均能够添加进新的智能体。
6.根据权利要求1所述的一种多智能体分布式强化学习网络系统,其特征在于,所述网络用于多源信息融合和/或智能特征提取和/或智能识别。
7.一种多智能体分布式强化学习方法,其特征在于,基于权利要求1至6中任一项所述的网络系统,包括如下步骤:
每个智能体依据网络拓扑关系完成局部信息从输入到输出的转化,并得到环境的反馈reward;
每个智能体利用actor-critic原则进行网络参数的更新;
数据网络采用监督学习,依据神经网络的一般反馈原则进行误差反馈以更新每个成员的网络参数。
8.一种计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在由处理器加载并运行时,使所述处理器执行如权利要求7所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110484030.4A CN113269329B (zh) | 2021-04-30 | 2021-04-30 | 一种多智能体分布式强化学习方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110484030.4A CN113269329B (zh) | 2021-04-30 | 2021-04-30 | 一种多智能体分布式强化学习方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113269329A CN113269329A (zh) | 2021-08-17 |
CN113269329B true CN113269329B (zh) | 2024-03-19 |
Family
ID=77229861
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110484030.4A Active CN113269329B (zh) | 2021-04-30 | 2021-04-30 | 一种多智能体分布式强化学习方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113269329B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118017523A (zh) * | 2024-04-09 | 2024-05-10 | 杭州鸿晟电力设计咨询有限公司 | 一种电力系统的电压控制方法、装置、设备及介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108600379A (zh) * | 2018-04-28 | 2018-09-28 | 中国科学院软件研究所 | 一种基于深度确定性策略梯度的异构多智能体协同决策方法 |
CN110109358A (zh) * | 2019-05-17 | 2019-08-09 | 电子科技大学 | 一种基于反馈的混合多智能体协同控制方法 |
CN110427006A (zh) * | 2019-08-22 | 2019-11-08 | 齐鲁工业大学 | 一种用于流程工业的多智能体协同控制系统及方法 |
CN111191728A (zh) * | 2019-12-31 | 2020-05-22 | 中国电子科技集团公司信息科学研究院 | 基于异步或同步的深度强化学习分布式训练方法及系统 |
CN111858009A (zh) * | 2020-07-30 | 2020-10-30 | 航天欧华信息技术有限公司 | 基于迁移和强化学习的移动边缘计算系统任务调度方法 |
CN112132263A (zh) * | 2020-09-11 | 2020-12-25 | 大连理工大学 | 一种基于强化学习的多智能体自主导航方法 |
CN112131660A (zh) * | 2020-09-10 | 2020-12-25 | 南京大学 | 一种基于多智能体强化学习的无人机集群协同学习方法 |
CN112256056A (zh) * | 2020-10-19 | 2021-01-22 | 中山大学 | 基于多智能体深度强化学习的无人机控制方法及系统 |
CN112615379A (zh) * | 2020-12-10 | 2021-04-06 | 浙江大学 | 基于分布式多智能体强化学习的电网多断面功率自动控制方法 |
-
2021
- 2021-04-30 CN CN202110484030.4A patent/CN113269329B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108600379A (zh) * | 2018-04-28 | 2018-09-28 | 中国科学院软件研究所 | 一种基于深度确定性策略梯度的异构多智能体协同决策方法 |
CN110109358A (zh) * | 2019-05-17 | 2019-08-09 | 电子科技大学 | 一种基于反馈的混合多智能体协同控制方法 |
CN110427006A (zh) * | 2019-08-22 | 2019-11-08 | 齐鲁工业大学 | 一种用于流程工业的多智能体协同控制系统及方法 |
CN111191728A (zh) * | 2019-12-31 | 2020-05-22 | 中国电子科技集团公司信息科学研究院 | 基于异步或同步的深度强化学习分布式训练方法及系统 |
CN111858009A (zh) * | 2020-07-30 | 2020-10-30 | 航天欧华信息技术有限公司 | 基于迁移和强化学习的移动边缘计算系统任务调度方法 |
CN112131660A (zh) * | 2020-09-10 | 2020-12-25 | 南京大学 | 一种基于多智能体强化学习的无人机集群协同学习方法 |
CN112132263A (zh) * | 2020-09-11 | 2020-12-25 | 大连理工大学 | 一种基于强化学习的多智能体自主导航方法 |
CN112256056A (zh) * | 2020-10-19 | 2021-01-22 | 中山大学 | 基于多智能体深度强化学习的无人机控制方法及系统 |
CN112615379A (zh) * | 2020-12-10 | 2021-04-06 | 浙江大学 | 基于分布式多智能体强化学习的电网多断面功率自动控制方法 |
Non-Patent Citations (5)
Title |
---|
Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments;Ryan Lowe等;《31st Conference on Neural Information Processing Systems》;第2-12页 * |
ROMA: Multi-Agent Reinforcement Learning with Emergent Roles;Oguzhan Dogru 等;《arXiv:2003.08039v3 [cs.MA] 》;第1-18页 * |
基于多智能体协同强化学习的多目标追踪方法;王毅然等;《计算机工程》;第90-96页 * |
基于强化学习的无人体系架构生成技术;孙科武等;《第三届体系工程学术会议—复杂系统与体系工程管理论文集》;第23-29页 * |
基于深度强化学习的多机协同空战方法研究;施伟等;《自动化学报》;第1-16页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113269329A (zh) | 2021-08-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2022099559A1 (zh) | 支持亿级神经元的类脑计算机 | |
CN105959401B (zh) | 一种基于超网络的制造服务供需匹配与动态调度方法 | |
CN109726903A (zh) | 基于注意力机制的分布式多智能体协同决策方法 | |
CN108897222B (zh) | 多无人机策略攻击下输出反馈安全协同控制器及控制方法 | |
Vidhate et al. | Cooperative machine learning with information fusion for dynamic decision making in diagnostic applications | |
CN113269329B (zh) | 一种多智能体分布式强化学习方法 | |
CN106789320A (zh) | 一种用于优化无线传感器网络拓扑的多种群协同进化方法 | |
CN111831354B (zh) | 数据精度配置方法、装置、芯片、芯片阵列、设备及介质 | |
CN105760652B (zh) | 一种基于约束可满足技术的深空探测自主任务规划方法 | |
Duan et al. | Dynamic tasks scheduling model of UAV cluster based on flexible network architecture | |
CN115310603A (zh) | 一种基于联邦迁移学习的装配监测模型训练方法及系统 | |
Franco et al. | Towards a self-adaptive architecture for federated learning of industrial automation systems | |
CN111077851A (zh) | 一种基于气相色谱雾计算框架的化工过程故障诊断系统 | |
CN112198796A (zh) | 一种分布式前置时间状态观测器的设计方法 | |
CN107766076A (zh) | 一种概率选择的软件模块聚类方法 | |
CN100578538C (zh) | 基于层次图组织与变换的虚拟环境群体对象行为演化方法 | |
CN113741192B (zh) | 基于可切换拓扑的时滞多智能体系统约束容错控制方法 | |
CN107273970B (zh) | 支持在线学习的卷积神经网络的可重构平台及其构建方法 | |
Cardarilli et al. | Fpga implementation of q-rts for real-time swarm intelligence systems | |
Dagli et al. | Understanding behavior of system of systems through computational intelligence techniques | |
CN114662204A (zh) | 基于图神经网络的弹性杆系结构体系数据处理方法及装置 | |
CN114609910A (zh) | 一种具有乘性噪声的线性多智体系统及其一致控制方法 | |
CN107037811A (zh) | 微纳航天器集群飞行控制系统及方法 | |
Chen et al. | Semantic Interaction Strategy of Multiagent System in Large‐Scale Intelligent Sensor Network Environment | |
Xia et al. | The autonomous optimal routing design and evolution about acE service flow |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |