CN110852448A - 一种基于多智能体强化学习的合作型智能体的学习方法 - Google Patents
一种基于多智能体强化学习的合作型智能体的学习方法 Download PDFInfo
- Publication number
- CN110852448A CN110852448A CN201911121271.1A CN201911121271A CN110852448A CN 110852448 A CN110852448 A CN 110852448A CN 201911121271 A CN201911121271 A CN 201911121271A CN 110852448 A CN110852448 A CN 110852448A
- Authority
- CN
- China
- Prior art keywords
- agent
- model
- global
- environment
- local
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 230000002787 reinforcement Effects 0.000 title claims abstract description 24
- 238000005070 sampling Methods 0.000 claims abstract description 10
- 238000000605 extraction Methods 0.000 claims abstract description 6
- 239000003795 chemical substances by application Substances 0.000 claims description 99
- 230000006870 function Effects 0.000 claims description 11
- 230000009471 action Effects 0.000 claims description 6
- 238000005457 optimization Methods 0.000 claims description 6
- 230000008901 benefit Effects 0.000 claims description 4
- 238000013461 design Methods 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 238000012549 training Methods 0.000 description 14
- 230000008569 process Effects 0.000 description 8
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 241000282414 Homo sapiens Species 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种基于多智能体强化学习的合作型智能体的学习方法,步骤一:重置多个目标环境;步骤二:初始化策略网络πθ的模型参数θπ和全局信息预测网络fθ的模型参数θf;步骤三:在环境中对多环境中的多智能体以当前策略π进行采样;每一步中,环境中的多个智能体共享同一状态,针对每个智能体对状态提取特征后作为模型输入的数据;步骤四:对模型参数θπ和θf进行更新;步骤五:直至模型收敛或达到最大步数。本发明在智能体处于合作关系的环境下更好地利用了全局特征信息,通过局部信息预测全局信息的模型令每个智能体学会感知局部信息与全局信息的联系,更好地协作;使得不同智能体得以直接共享模型参数,简化模型复杂度,提高效率。
Description
技术领域
本发明涉及机器学习领域,更具体地,涉及一种基于多智能体强化学习的合作型智能体的学习方法。
背景技术
强化学习是机器学习的一个子领域,目标是基于环境进行决策行动,从而获得最大收益。其中,强化学习通过引入深度学习技术来作为强化学习中学习值函数、策略的函数逼近方法,相比人工提取特征大大提高了端到端性能,从而解决了一系列传统强化学习未能解决的问题,比如在视频游戏上,深度强化学习甚至取得了超越人类平均水平的表现。
现有的强化学习方法已有较为成熟的体系,包括基于模型和无模型两大类,而更加常用的无模型方法中,则又分为同策略和异策略两类方法。但无论是哪种算法,大多都只限定适用于单智能体环境而往往无法直接应用到多智能体环境。这是由于多智能体环境引入的问题:每一个智能体都在学习改进的情况下,环境是不稳定的;而不同智能体之间的关系有很多种,包括完全竞争、完全合作以及处于两者之间的各种情况,智能体之间如何共享信息,能共享多少信息,根据具体场景不同会有不同的限制。
已有的多智能体深度强化学习方法MADDPG是一个基于Actor-Critic框架的算法,提出集中训练、分散执行的思想,在训练Critic时加入了全局信息,而实际应用的Actor的输入只包含单个智能体的状态特征,从而突破了深度Q网络只能使用单一结构的网络的限制。
在一些合作场景中,多智能体的状态信息往往是共享且共同行动的,现有技术MADDPG未特别关注这种情况,而仅考虑到在模型训练过程中利用共享信息,而未关注多智能体共同行动的特性,导致多智能体之间的协作性差的问题;而同样的,基于Actor-Critic的BiCNet虽然在训练和测试时都采用了完全的全局信息,但共享信息的方式为利用RNN网络,导致学习训练的效率低。
发明内容
本发明为克服上述现有技术中多智能体在合作环境中协作性差和效率低的问题,提供一种基于多智能体强化学习的合作型智能体的学习方法,提高合作环境下多智能体的协作性和效率,强化智能体的性能。
为解决上述技术问题,本发明采用的技术方案是:提供一种基于多智能体强化学习的合作型智能体的学习方法,包括以下步骤:
步骤一:重置多个目标环境,该环境满足存在处于合作关系的多智能体共享信息、共同行动的特点;
步骤二:初始化策略网络πθ的模型参数θπ和全局信息预测网络fθ的模型参数θf;
步骤三:以固定步数在环境中对多环境中的多智能体以当前策略π进行采样;每一步中,环境ei中的多个智能体共享同一状态Si,t,针对该状态提取全局特征si,t,global,并针对每个智能体对状态si,t提取局部特征si,t,local,两者合并得智能体特征si,t,comb后作为策略网络模型输入的数据;
步骤四:步骤四:使用近端策略优化算法对策略网络πθ的模型参数θπ进行更新,算法的目标函数如下:
其中,si,t为环境ei中时刻t的状态,ai,t为智能体在环境ei中时刻t选择的动作,θ为当前模型的参数,θ′为采集数据的模型参数,A为优势函数;
同时,更新全局信息预测网络fθ的模型参数θf;
步骤五:重复步骤三和步骤四,直至模型收敛或达到最大步数。
优选的,全局信息预测网络为通过局部信息进行预测全局信息预测的模型,与策略网络同时训练并共享策略网络参数,模型公式如下:
优选的,模型的损失函数如下:
优选的,在所述步骤三中,采样的方式为并行采样,采集数据时同时对多个环境中的处于合作关系的每个智能体进行采样。
优选的,对每个环境中的智能体按设定的概率抽取一部分,只使用该部分智能体所收集的数据,可以提高利用数据的效率。
优选的,对每个环境中的智能体同步进行状态特征提取对每个环境中的智能体同步进行状态特征提取,同时考虑全局信息和局部信息分别提取全局特征和局部特征,奖励设计也因此可根据各智能体所对应的不同局部状态特征针对单一智能体进行优化。
优选的,采用梯度下降法更新全局信息预测网络fθ的模型参数θf。
与现有技术相比,本发明的有益效果是:
1、本发明在智能体处于合作关系的环境下更好地利用了全局特征信息,不仅在训练时使用全局信息,在应用时也能提供全局信息给处于合作关系、共同行动的智能体;
2、通过局部信息预测全局信息的模型令每个智能体学会感知局部信息与全局信息的联系,更好地协作;
3、对每一个智能体有针对地进行特征提取,全局信息降低了训练过程中的方差,而同时多对局并行训练则降低了由于多个智能体处于同一对局带来的偏差,使模型训练更加稳定。
4、不需使用RNN,通过多局并行采样方式泛化模型表现性能,使得不同智能体得以直接共享模型参数,简化模型复杂度,提高效率。
5、使用属于同策略算法的近端策略优化算法代替异策略算法,更加适用于不断变化的多智能体环境;
6、使用属于策略梯度算法的近端策略优化算法,解决经验回放方法不适用于多智能体导致的不稳定环境的问题。
附图说明
图1是本发明的一种基于多智能体强化学习的合作型智能体的学习方法的流程图;
图2是本发明的一种基于多智能体强化学习的合作型智能体的训练框架图;
图3是本发明的一种基于多智能体强化学习的合作型智能体的学习方法的策略网络与预测网络共享参数图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。附图中描述位置关系仅用于示例性说明,不能理解为对本专利的限制。
下面通过具体实施例,并结合附图,对本发明的技术方案作进一步的具体描述:
实施例
如图1-3所示为一种基于多智能体强化学习的合作型智能体的学习方法的是实施例,包括以下步骤:
步骤一:重置多个目标环境,该环境满足存在处于合作关系的多智能体共享信息、共同行动的特点;
步骤二:初始化策略网络πθ的模型参数θπ和全局信息预测网络fθ的模型参数θf;
步骤三:以固定步数在环境中对多环境中的多智能体以当前策略π进行并行采样;每一步中,环境ei中的多个智能体共享同一状态Si,t,针对该状态提取全局特征si,t,global,并针对每个智能体对状态si,t提取局部特征,两者合并得智能体特征si,t,comb后作为策略网络模型输入的数据;
每个环境中的智能体按设定的概率抽取一部分,只使用该部分智能体所收集的数据;
步骤四:使用近端策略优化算法对策略网络πθ的模型参数θπ进行更新,算法的目标函数如下:
其中,si,t为环境ei中时刻t的状态,ai,t为智能体在环境ei中时刻t选择的动作,θ为当前模型的参数,θ′为采集数据的模型参数,A为优势函数;
同时,采用梯度下降法更新全局信息预测网络fθ的模型参数θf;
步骤五:重复步骤三和步骤四,直至模型收敛或达到最大步数。
具体的,全局信息预测网络为通过局部信息进行预测全局信息预测的模型,与策略网络同时训练并共享策略网络参数,模型公式如下:
模型的损失函数为:
进一步的,对每个环境中的智能体同步进行状态特征提取对每个环境中的智能体同步进行状态特征提取,同时考虑全局信息和局部信息分别提取全局特征和局部特征,奖励设计也因此可根据各智能体所对应的不同局部状态特征针对单一智能体进行优化。
本实施例的有益效果:
1、本发明在智能体处于合作关系的环境下更好地利用了全局特征信息,不仅在训练时使用全局信息,在应用时也能提供全局信息给处于合作关系、共同行动的智能体;
2、通过局部信息预测全局信息的模型令每个智能体学会感知局部信息与全局信息的联系,更好地协作;
3、对每一个智能体有针对地进行特征提取,全局信息降低了训练过程中的方差,而同时多对局并行训练则降低了由于多个智能体处于同一对局带来的偏差,使模型训练更加稳定。
4、不需使用RNN,通过多局并行采样方式泛化模型表现性能,使得不同智能体得以直接共享模型参数,简化模型复杂度,提高效率。
5、使用属于策略梯度算法的近端策略优化算法,解决经验回放方法不适用于多智能体导致的不稳定环境的问题。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (7)
1.一种基于多智能体强化学习的合作型智能体的学习方法,其特征在于,包括如下步骤:
步骤一:重置多个目标环境;
步骤二:初始化策略网络πθ的模型参数θπ和全局信息预测网络fθ的模型参数θf;
步骤三:以固定步数在环境中对多环境中的多智能体以当前策略π进行采样;每一步中,同一个环境ei中的多个智能体共享同一状态si,t,针对该状态提取全局特征si,t,global,并针对每个智能体对状态si,t提取局部特征si,t,local,两者合并得智能体特征si,t,comb后作为策略网络模型输入的数据;
步骤四:使用近端策略优化算法对策略网络πθ的模型参数θπ进行更新,算法的目标函数如下:
其中,si,t为环境ei中时刻t的状态,ai,t为智能体在环境ei中时刻t选择的动作,θ为当前模型的参数,θ′为采集数据的模型参数,A为优势函数;
同时,更新全局信息预测网络fθ的模型参数θf;
步骤五:重复步骤三和步骤四,直至模型收敛或达到最大步数。
4.根据权利要求1所述的一种基于多智能体强化学习的合作型智能体的学习方法,其特征在于,在所述步骤三中,采样的方式为并行采样,采集数据时同时对多个环境中的处于合作关系的每个智能体进行采样。
5.根据权利要求4所述的一种基于多智能体强化学习的合作型智能体的学习方法,其特征在于,对每个环境中的智能体按设定的概率抽取一部分,只使用该部分智能体所收集的数据。
6.根据权利要求1所述的一种基于多智能体强化学习的合作型智能体的学习方法,其特征在于,对每个环境中的智能体同步进行状态特征提取,同时考虑全局信息和局部信息分别提取全局特征和局部特征,奖励设计也因此可根据各智能体所对应的不同局部状态特征针对单一智能体进行优化。
7.根据权利要求1所述的一种基于多智能体强化学习的合作型智能体的学习方法,其特征在于,采用梯度下降法更新全局信息预测网络fθ的模型参数θf。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911121271.1A CN110852448A (zh) | 2019-11-15 | 2019-11-15 | 一种基于多智能体强化学习的合作型智能体的学习方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911121271.1A CN110852448A (zh) | 2019-11-15 | 2019-11-15 | 一种基于多智能体强化学习的合作型智能体的学习方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110852448A true CN110852448A (zh) | 2020-02-28 |
Family
ID=69601557
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911121271.1A Pending CN110852448A (zh) | 2019-11-15 | 2019-11-15 | 一种基于多智能体强化学习的合作型智能体的学习方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110852448A (zh) |
Cited By (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111401458A (zh) * | 2020-03-23 | 2020-07-10 | 清华大学 | 一种基于深度强化学习的多模型目标状态预测方法及系统 |
CN111580544A (zh) * | 2020-03-25 | 2020-08-25 | 北京航空航天大学 | 一种基于强化学习ppo算法的无人机目标跟踪控制方法 |
CN111694656A (zh) * | 2020-04-22 | 2020-09-22 | 北京大学 | 基于多智能体深度强化学习的集群资源调度方法及系统 |
CN111723931A (zh) * | 2020-06-02 | 2020-09-29 | 中国人民解放军军事科学院战争研究院 | 一种多智能体对抗动作预测方法及装置 |
CN111898770A (zh) * | 2020-09-29 | 2020-11-06 | 四川大学 | 一种多智能体强化学习方法、电子设备及存储介质 |
CN112001585A (zh) * | 2020-07-14 | 2020-11-27 | 北京百度网讯科技有限公司 | 多智能体决策方法、装置、电子设备及存储介质 |
CN112051863A (zh) * | 2020-09-25 | 2020-12-08 | 南京大学 | 一种无人机自主反侦察及躲避敌方攻击的方法 |
CN112068549A (zh) * | 2020-08-07 | 2020-12-11 | 哈尔滨工业大学 | 一种基于深度强化学习的无人系统集群控制方法 |
CN112070359A (zh) * | 2020-08-11 | 2020-12-11 | 北京交通大学 | 一种基于两阶段优化的多智能体网络自适应信息共享方法 |
CN112132263A (zh) * | 2020-09-11 | 2020-12-25 | 大连理工大学 | 一种基于强化学习的多智能体自主导航方法 |
CN112131660A (zh) * | 2020-09-10 | 2020-12-25 | 南京大学 | 一种基于多智能体强化学习的无人机集群协同学习方法 |
CN112183288A (zh) * | 2020-09-22 | 2021-01-05 | 上海交通大学 | 一种基于模型的多智能体强化学习方法 |
CN112215350A (zh) * | 2020-09-17 | 2021-01-12 | 天津(滨海)人工智能军民融合创新中心 | 一种基于强化学习的智能体控制方法及装置 |
CN112232478A (zh) * | 2020-09-03 | 2021-01-15 | 天津(滨海)人工智能军民融合创新中心 | 一种基于分层注意力机制的多智能体强化学习方法及系统 |
CN112329879A (zh) * | 2020-11-16 | 2021-02-05 | 浙江大学 | 基于反事实多智能体学习的图像场景图的生成方法和系统 |
CN112465148A (zh) * | 2020-11-27 | 2021-03-09 | 中国科学院深圳先进技术研究院 | 一种多智能体系统的网络参数更新方法、装置及终端设备 |
CN112711261A (zh) * | 2020-12-30 | 2021-04-27 | 浙江大学 | 一种基于局部视野的多智能体编队规划方法 |
CN113191487A (zh) * | 2021-04-28 | 2021-07-30 | 重庆邮电大学 | 基于分布式ppo算法的自适应连续功率控制方法 |
CN113254200A (zh) * | 2021-05-13 | 2021-08-13 | 中国联合网络通信集团有限公司 | 资源编排方法及智能体 |
CN113268893A (zh) * | 2021-07-19 | 2021-08-17 | 中国科学院自动化研究所 | 基于连通保持约束的群体围捕方法及装置 |
CN113613207A (zh) * | 2020-06-12 | 2021-11-05 | 南京理工大学 | 一种基于多智能体强化学习的车联网频谱共享方法 |
CN113759929A (zh) * | 2021-09-22 | 2021-12-07 | 西安航天动力研究所 | 基于强化学习和模型预测控制的多智能体路径规划方法 |
CN113780577A (zh) * | 2021-09-07 | 2021-12-10 | 中国船舶重工集团公司第七0九研究所 | 一种分层决策的完全合作多智能体强化学习方法和系统 |
CN114037521A (zh) * | 2021-11-25 | 2022-02-11 | 工银科技有限公司 | 融资预授信方法、装置、设备及介质 |
CN115982407A (zh) * | 2022-03-05 | 2023-04-18 | 兰州大学 | 一种基于多智能体强化学习的视频摘要生成方法 |
CN117332814A (zh) * | 2023-12-01 | 2024-01-02 | 中国科学院自动化研究所 | 一种基于模块化网络的合作智能体模型、学习方法和装置 |
-
2019
- 2019-11-15 CN CN201911121271.1A patent/CN110852448A/zh active Pending
Cited By (38)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111401458A (zh) * | 2020-03-23 | 2020-07-10 | 清华大学 | 一种基于深度强化学习的多模型目标状态预测方法及系统 |
CN111580544A (zh) * | 2020-03-25 | 2020-08-25 | 北京航空航天大学 | 一种基于强化学习ppo算法的无人机目标跟踪控制方法 |
CN111694656A (zh) * | 2020-04-22 | 2020-09-22 | 北京大学 | 基于多智能体深度强化学习的集群资源调度方法及系统 |
CN111723931A (zh) * | 2020-06-02 | 2020-09-29 | 中国人民解放军军事科学院战争研究院 | 一种多智能体对抗动作预测方法及装置 |
CN111723931B (zh) * | 2020-06-02 | 2021-12-17 | 中国人民解放军军事科学院战争研究院 | 一种多智能体对抗动作预测方法及装置 |
CN113613207A (zh) * | 2020-06-12 | 2021-11-05 | 南京理工大学 | 一种基于多智能体强化学习的车联网频谱共享方法 |
CN112001585B (zh) * | 2020-07-14 | 2023-09-22 | 北京百度网讯科技有限公司 | 多智能体决策方法、装置、电子设备及存储介质 |
CN112001585A (zh) * | 2020-07-14 | 2020-11-27 | 北京百度网讯科技有限公司 | 多智能体决策方法、装置、电子设备及存储介质 |
CN112068549A (zh) * | 2020-08-07 | 2020-12-11 | 哈尔滨工业大学 | 一种基于深度强化学习的无人系统集群控制方法 |
CN112068549B (zh) * | 2020-08-07 | 2022-12-16 | 哈尔滨工业大学 | 一种基于深度强化学习的无人系统集群控制方法 |
CN112070359A (zh) * | 2020-08-11 | 2020-12-11 | 北京交通大学 | 一种基于两阶段优化的多智能体网络自适应信息共享方法 |
CN112232478B (zh) * | 2020-09-03 | 2023-11-17 | 天津(滨海)人工智能军民融合创新中心 | 一种基于分层注意力机制的多智能体强化学习方法及系统 |
CN112232478A (zh) * | 2020-09-03 | 2021-01-15 | 天津(滨海)人工智能军民融合创新中心 | 一种基于分层注意力机制的多智能体强化学习方法及系统 |
CN112131660A (zh) * | 2020-09-10 | 2020-12-25 | 南京大学 | 一种基于多智能体强化学习的无人机集群协同学习方法 |
CN112132263A (zh) * | 2020-09-11 | 2020-12-25 | 大连理工大学 | 一种基于强化学习的多智能体自主导航方法 |
CN112215350A (zh) * | 2020-09-17 | 2021-01-12 | 天津(滨海)人工智能军民融合创新中心 | 一种基于强化学习的智能体控制方法及装置 |
CN112215350B (zh) * | 2020-09-17 | 2023-11-03 | 天津(滨海)人工智能军民融合创新中心 | 一种基于强化学习的智能体控制方法及装置 |
CN112183288B (zh) * | 2020-09-22 | 2022-10-21 | 上海交通大学 | 一种基于模型的多智能体强化学习方法 |
CN112183288A (zh) * | 2020-09-22 | 2021-01-05 | 上海交通大学 | 一种基于模型的多智能体强化学习方法 |
CN112051863A (zh) * | 2020-09-25 | 2020-12-08 | 南京大学 | 一种无人机自主反侦察及躲避敌方攻击的方法 |
CN111898770A (zh) * | 2020-09-29 | 2020-11-06 | 四川大学 | 一种多智能体强化学习方法、电子设备及存储介质 |
CN111898770B (zh) * | 2020-09-29 | 2021-01-15 | 四川大学 | 一种多智能体强化学习方法、电子设备及存储介质 |
CN112329879A (zh) * | 2020-11-16 | 2021-02-05 | 浙江大学 | 基于反事实多智能体学习的图像场景图的生成方法和系统 |
CN112465148A (zh) * | 2020-11-27 | 2021-03-09 | 中国科学院深圳先进技术研究院 | 一种多智能体系统的网络参数更新方法、装置及终端设备 |
CN112711261A (zh) * | 2020-12-30 | 2021-04-27 | 浙江大学 | 一种基于局部视野的多智能体编队规划方法 |
CN113191487A (zh) * | 2021-04-28 | 2021-07-30 | 重庆邮电大学 | 基于分布式ppo算法的自适应连续功率控制方法 |
CN113191487B (zh) * | 2021-04-28 | 2023-04-07 | 重庆邮电大学 | 基于分布式ppo算法的自适应连续功率控制方法 |
CN113254200B (zh) * | 2021-05-13 | 2023-06-09 | 中国联合网络通信集团有限公司 | 资源编排方法及智能体 |
CN113254200A (zh) * | 2021-05-13 | 2021-08-13 | 中国联合网络通信集团有限公司 | 资源编排方法及智能体 |
CN113268893A (zh) * | 2021-07-19 | 2021-08-17 | 中国科学院自动化研究所 | 基于连通保持约束的群体围捕方法及装置 |
CN113780577A (zh) * | 2021-09-07 | 2021-12-10 | 中国船舶重工集团公司第七0九研究所 | 一种分层决策的完全合作多智能体强化学习方法和系统 |
CN113780577B (zh) * | 2021-09-07 | 2023-09-05 | 中国船舶重工集团公司第七0九研究所 | 一种分层决策的完全合作多智能体强化学习方法和系统 |
CN113759929B (zh) * | 2021-09-22 | 2022-08-23 | 西安航天动力研究所 | 基于强化学习和模型预测控制的多智能体路径规划方法 |
CN113759929A (zh) * | 2021-09-22 | 2021-12-07 | 西安航天动力研究所 | 基于强化学习和模型预测控制的多智能体路径规划方法 |
CN114037521A (zh) * | 2021-11-25 | 2022-02-11 | 工银科技有限公司 | 融资预授信方法、装置、设备及介质 |
CN115982407A (zh) * | 2022-03-05 | 2023-04-18 | 兰州大学 | 一种基于多智能体强化学习的视频摘要生成方法 |
CN115982407B (zh) * | 2022-03-05 | 2023-09-19 | 兰州大学 | 一种基于多智能体强化学习的视频摘要生成方法 |
CN117332814A (zh) * | 2023-12-01 | 2024-01-02 | 中国科学院自动化研究所 | 一种基于模块化网络的合作智能体模型、学习方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110852448A (zh) | 一种基于多智能体强化学习的合作型智能体的学习方法 | |
CN110084375B (zh) | 一种基于深度强化学习的多agent协作框架 | |
WO2021128805A1 (zh) | 一种基于生成对抗强化学习的无线网络资源分配方法 | |
CN110141867B (zh) | 一种游戏智能体训练方法及装置 | |
CN112131660A (zh) | 一种基于多智能体强化学习的无人机集群协同学习方法 | |
CN113098714A (zh) | 一种基于深度强化学习的低时延网络切片的方法 | |
CN111178496A (zh) | 多代理强化学习合作任务场景下的代理间交换知识的方法 | |
CN111191728A (zh) | 基于异步或同步的深度强化学习分布式训练方法及系统 | |
CN111450531B (zh) | 虚拟角色控制方法、装置、电子设备以及存储介质 | |
CN113642233B (zh) | 一种通信机制优化的群体智能协同方法 | |
CN112215364A (zh) | 一种基于强化学习的敌-友深度确定性策略方法及系统 | |
CN112990485A (zh) | 基于强化学习的知识策略选择方法与装置 | |
CN112069504A (zh) | 面向深度强化学习对抗攻击的模型增强防御方法 | |
CN113784410A (zh) | 基于强化学习td3算法的异构无线网络垂直切换方法 | |
Xu et al. | Living with artificial intelligence: A paradigm shift toward future network traffic control | |
CN113313209A (zh) | 一种高样本效率的多智能体强化学习训练方法 | |
CN111160170B (zh) | 一种自学习的人体行为识别与异常检测方法 | |
CN113110101A (zh) | 一种生产线移动机器人聚集式回收入库仿真方法及系统 | |
CN115793717B (zh) | 群体协同决策方法、装置、电子设备及存储介质 | |
CN109977998B (zh) | 信息处理方法及装置、存储介质和电子装置 | |
CN113240118B (zh) | 优势估计方法、装置、电子设备和存储介质 | |
CN115562835A (zh) | 基于数据驱动的敏捷卫星成像任务调度方法及系统 | |
CN114004282A (zh) | 一种电力系统深度强化学习紧急控制策略提取方法 | |
CN114124784B (zh) | 一种基于垂直联邦的智能路由决策保护方法和系统 | |
CN117669710B (zh) | 面向博弈对抗任务的多行为树决策方案聚合方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200228 |
|
RJ01 | Rejection of invention patent application after publication |