CN113435475B - 一种多智能体通信协作方法 - Google Patents
一种多智能体通信协作方法 Download PDFInfo
- Publication number
- CN113435475B CN113435475B CN202110585681.2A CN202110585681A CN113435475B CN 113435475 B CN113435475 B CN 113435475B CN 202110585681 A CN202110585681 A CN 202110585681A CN 113435475 B CN113435475 B CN 113435475B
- Authority
- CN
- China
- Prior art keywords
- agent
- time
- intelligent
- communication channel
- intelligent agent
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004891 communication Methods 0.000 title claims abstract description 61
- 238000000034 method Methods 0.000 title claims abstract description 24
- 230000007246 mechanism Effects 0.000 claims abstract description 21
- 238000005070 sampling Methods 0.000 claims abstract description 3
- 239000003795 chemical substances by application Substances 0.000 claims description 144
- 230000009471 action Effects 0.000 claims description 26
- 230000006399 behavior Effects 0.000 claims description 16
- 238000012549 training Methods 0.000 claims description 12
- 230000002787 reinforcement Effects 0.000 claims description 5
- 230000006870 function Effects 0.000 claims description 4
- 230000005540 biological transmission Effects 0.000 claims description 3
- 230000007613 environmental effect Effects 0.000 claims description 2
- 238000004590 computer program Methods 0.000 claims 3
- ATJFFYVFTNAWJD-UHFFFAOYSA-N Tin Chemical compound [Sn] ATJFFYVFTNAWJD-UHFFFAOYSA-N 0.000 claims 1
- 239000002775 capsule Substances 0.000 claims 1
- 238000009795 derivation Methods 0.000 claims 1
- 239000002245 particle Substances 0.000 claims 1
- 230000007704 transition Effects 0.000 claims 1
- 230000008450 motivation Effects 0.000 abstract description 10
- 239000013589 supplement Substances 0.000 abstract description 3
- 230000007547 defect Effects 0.000 abstract description 2
- 239000006185 dispersion Substances 0.000 description 4
- 230000008901 benefit Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000008092 positive effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000009966 trimming Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Multi Processors (AREA)
- Computer And Data Communications (AREA)
Abstract
Description
技术领域
本发明属于深度强化学习多智能体协作领域,具体涉及一种基于内在动机的多智能体通信协作方法。
背景技术
对人类来说,交流是促进文明进步的关键工具。在很多现实场景中,智能体之间的高效通信是实现多智能体合作的一种有效方式。然而,漫无目的和毫无动机的信息共享可能不起作用,甚至降低多智能体合作的表现。在过去,多智能体的通信行为是由来自环境的外部奖励所激励的,可以归结为“交流什么奖励了你”。该机制被广泛使用,并在多智能体通信中取得了重大进展。然而,当外在奖励稀疏或不可分解时,这种机制可能不起作用。
目前,从提取信息和根据输入的信息做出决定方向看,Sainbayar Sukhbaatar等人[11]提出了一种名为CommNet的结构,可以从局部观察中学习连续的消息。JiechuanJiang[5],Amanpreet Singh[9]等人设计了一个门控网络来输出二进制通信动作,SaiQian Zhang[15]等人提出了一种启发式机制,只有当代理不能做出自信的决策时,才会发生通信;Daewoo Kim[6]/Hangyu Mao[7]、Rundong Wang[13]等人采用基于权重的调度器来控制通信,它只会将通信资源分配给具有重要观察结果的代理。为了区分传入消息,Jiechuan Jiang[5]等人利用双向LSTM单元,可以忽略无用的信息来集成传入消息,Abhishek Das[3]等人使用由发送人和接收方共同生成的软注意机制来计算每条消息的重要权重。此外,Sai Qian Zhang[14]等人通过引入两个信息理论的正则化器来实现目标通信。从框架的角度来看,Daewoo Kim[6],Hangyu Mao[7]、Rundong Wang[13]等人的工作旨在决定何时交流,Abhishek Das[3]等人建议决定由谁交流,如果能将二者结合起来,便能够同时享受两种方法的好处。
内在动机是指由内部回归驱动的行为[2]。近年来,内在值被引入到强化学习领域,以探索新的行为。提出了各种依赖于状态的奖励来衡量内在值[1,4,8,10,12]。但是,大多数现有的内在值不能扩展到分散的多代理任务,因为代理只在执行过程中限制访问。现有多智能体通信领域基本都在使用单一的外部值信息,而内在值是对现有解决方案的一个很好的补充。
以下为所述的参考文献:
[1]Marc Bellemare,Sriram Srinivasan,Georg Ostrovski,Tom Schaul,DavidSaxton,and Remi Munos.2016.Unifying count-based exploration and intrinsicmotivation.In Advances in Neural Information Processing Systems.1471–1479。
[2]Dennis Coon and John O Mitterer.2012.Introduction to psychology:Gateways to mind and behavior with concept maps and reviews.Cengage Learning。
[3]Abhishek Das,Théophile Gervet,Joshua Romoff,Dhruv Batra,DeviParikh,Mike Rabbat,and Joelle Pineau.2019.Tarmac:Targeted multi-agentcommunication.In International Conference on Machine Learning.1538–1546。
[4]Rein Houthooft,Xi Chen,Yan Duan,John Schulman,Filip De Turck,andPieter Abbeel.2016.Vime:Variational information maximizing exploration.InAdvances in Neural Information Processing Systems.1109–1117。
[5]Jiechuan Jiang and Zongqing Lu.2018.Learning attentionalcommunication for multi-agent cooperation.In Advances in neural informationprocessing systems.7254–7264。
[6]Daewoo Kim,Sangwoo Moon,David Hostallero,Wan Ju Kang,Taeyoung Lee,Kyunghwan Son,and Yung Yi.2019.Learning to schedule communication in multi-agent reinforcement learning.arXiv preprint arXiv:1902.01554(2019)。
[7]Hangyu Mao,Zhengchao Zhang,Zhen Xiao,Zhibo Gong,and YanNi.2020.Learning Agent Communication under Limited Bandwidth by MessagePruning.AAAI 2020:The Thirty-Fourth AAAI Conference on ArtificialIntelligence 34,4(2020),5142–5149。
[8]Deepak Pathak,Pulkit Agrawal,Alexei A Efros,and TrevorDarrell.2017.Curiosity-driven exploration by self-supervised prediction.InInternational Conference on Machine Learning(ICML),Vol.2017。
[9]Amanpreet Singh,Tushar Jain,and Sainbayar Sukhbaatar.2018.Learningwhen to communicate at scale in multiagent cooperative and competitivetasks.arXiv preprint arXiv:1812.09755(2018)。
[10]Bradly C Stadie,Sergey Levine,and PieterAbbeel.2015.Incentivizing exploration in reinforcement learning with deeppredictive models.arXiv preprint arXiv:1507.00814(2015)。
[11]Sainbayar Sukhbaatar,Rob Fergus,et al.2016.Learning multiagentcommunication with backpropagation.In Advances in neural informationprocessing systems.2244–2252。
[12]Haoran Tang,Rein Houthooft,Davis Foote,Adam Stooke,OpenAI XiChen,Yan Duan,John Schulman,Filip DeTurck,and Pieter Abbeel.2017.#Exploration:A study of count-based exploration for deep reinforcementlearning.In Advances in Neural Information Processing Systems.2753–2762。
[13]Rundong Wang,Xu He,Runsheng Yu,Wei Qiu,Bo An,and ZinoviRabinovich.2020.Learning Efficient Multi-agent Communication:An InformationBottleneck Approach.In ICML 2020:37th International Conference on MachineLearning。
[14]Tonghan Wang,Jianhao Wang,Chongyi Zheng,and ChongjieZhang.2020.Learning Nearly posable Value Functions Via CommunicationMinimization.In ICLR 2020:Eighth International Conference on LearningRepresentations。
[15]Sai Qian Zhang,Qi Zhang,and Jieyu Lin.2019.Efficientcommunication in multi-agent reinforcement learning via variance basedcontrol.In Advances in Neural Information Processing Systems.3235–3244。
发明内容
针对现有技术中存在的技术问题,本发明的目的在于提供一种基于内在动机的多智能体通信协作方法,为现有算法忽略内在价值做了一个很好的补充。另外,本发明使用一种基于内在值门控机制删除了无用的信息,提高了通信效率。同时本发明也使用了一种注意力机制,可以帮助智能体区分传入的消息,并提高决策的准确性。
本发明基于内部动机的多智能体通信协作方法,其特征在于包括以下步骤:
步骤1:明确单智能体的属性和规则,调用或构建智能体的运动环境。
步骤2:构建智能体通信信道,智能体通信信道的输入为由各个智能体传来的信息并运用Softmax和权重求和机制产生智能体之间传递的消息其中表示第i个智能体在时刻t的向智能体通信信道发送的信息,表示第i个智能体在时刻t从通信信息到信道收到的整合后的信息。
步骤3:构建单个智能体的结构,每个智能体架构包括一个策略网络、一个内在值网络和一个门控机制,以局部观察和通信信道的外部信息为输入,输出智能体动作和交流消息其中表示第i个智能体在时刻t的局部观察,第i个智能体在时刻t所作出的动作。
步骤4:并行训练n个智能体,基于步骤2和步骤3的多智能体决策和交流框架采样得到数据{τ1,τ2,......,τn},其中i∈(1,n),τi=(s0,a0,r0,s1,a1,r1,s2,.......,sT,aT,rT),s0表示环境的初始状态,a0表示智能体在时刻0生成的决策行为,r0表示决策行为a0的即时奖励,s1表示在执行决策行为a0后,环境转移到一个新状态s1,sT表示终止时刻T时的环境状态、aT表示智能体在终止时刻T生成的决策行为、rT表示决策行为aT的即时奖励。使用强化学习的损失函数对策略网络进行集中训练,以达到最大化团队奖励的目标。其中θp表示策略网络的参数,T表示轨迹的终止时刻,γ表示折扣因子,rt表示在时刻t环境所反馈的团队奖励。
所述步骤1的具体实现包括以下子步骤:
步骤1.1:根据调用或构建的具体运行环境,明确智能体的动作空间,状态空间以及奖励机制。
步骤1.2:智能体的交互环境包括智能体的动作和状态,环境反馈的奖励等内容。从智能体个体的角度出发,智能体根据当前所观察到的状态,得到下一步的动作和奖励信息。
所述步骤2的具体实现包括以下子步骤:
步骤2.3:通信信道将利用内部信息的重要性来计算输入消息的注意力向量。
当信息不确定和重要时,注意力的权重就会很高。
步骤2.4:然后使用内在的注意力向量对共享信息的内容进行聚合:
步骤2.5:最后,外部信息与智能体局部观测相结合,输入策略网络。
所述步骤3的具体实现包括以下子步骤:
步骤3.2:将局部观测历史和从通信信道中接收到的信息相结合,作为动作生成器的输入。动作生成器由一层多层感知器MLP构成,是策略网络的组成部分,输入为局部观测历史和从通信信道中接收到的信息输出智能体i在下一时刻所要采取的动作。
步骤3.3:内在值网络的参数会使用以下MSE进行更新:
其中θf表示预测问题,在训练过程中保持固定。θg表示预测网络的参数。
其中βe和βi都是平衡内在值和外在值的超参数。
所述步骤4的具体实现包括以下子步骤:
步骤4.3:并行训练的每一智能体会分别收到一个团队奖励r表示在状态st下,智能体1,2,…,n在时刻t分别采取动作环境所反馈的奖励。在训练期间,还会提供额外的信息,比如环境的全局状态,其他智能体的行为和轨迹,并对分散决策进行集中训练,以最大化团队奖励也就是本通信协作方法的最终目标。基于该目标可以对策略网络通过强化损失和外部奖励来进行训练:
本发明与现有技术相比的优点和积极效果如下:
(1)我们得出了如何评估所观察到的信息的重要性是推动高效沟通行为的关键的结论。所以,与原有的多智能体通信协作方法相比,本方法增加了内部动机模块,在原有方法忽略内在价值的缺陷是一个很好的补充。
(2)我们采用RND[4]来测量观测信息的内在新颖性和不确定性。然后,我们将一种基于内在值的门控机制和一种注意机制应用到多智能体通信框架中。门控机制可以删除无用的信息,提高协作效率。注意机制可以帮助智能体区分传入的消息,并提高决策的准确性。
(3)基于内在动机的多智能体通信协作方法是有前途的,并且与现有的基于外部动机的多智能体通信协作方法相结合,可以产生更好的性能。
附图说明
图1为本发明的实现流程图。
具体实施方式
下面结合实施例和说明书附图,对本发明的具体实施方案进行详细描述。此处所描绘的实施例仅用于说明和解释本发明,但不用于限定本发明。
本发明设计一种基于内在动机的多智能体通信协作方法,包括以下步骤:首先,定义单智能体的属性和规则,明确智能体的状态空间和动作空间,构建或调用单智能体运动游戏环境;然后,构建通信信道架构和单个智能体的框架,通信信道用于接收聚合不同智能体所发送的信息,并向智能体发送要通信的信息;单智能体的框架包括三部分,一个策略网络、一个内在的值网络和一个门控机制,策略网络用于接收局部观察和外部信息,并产生要向外发送的信息以及下一步策略,内在值网络用于根据局部观察计算当前局部观察的重要性,门控机制用于负责修剪无用消息;最后,并行训练多个智能体,并最大化团队收益,产生下一步团队策略。本发明可以根据实际需求构建合理的运动环境,来更好地指导智能体进行决策,达到智能策略优化的目的,对我国机器人以及无人系统的发展具有积极作用。
下面详细说明。
一种基于内在动机的多智能体通信协作方法,其特征在于,包括以下步骤:
步骤1:明确单智能体的属性和规则,调用或构建智能体的运动环境。
步骤2:构建智能体通信信道,通信信道的输入为由各个智能体传来的信息并运用Softmax和权重求和机制产生智能体之间传递的消息其中表示第i个智能体在时刻t的向通信信道发送的信息,表示第i个智能体在时刻t从通信信息到收到的信息。
步骤3:构建单个智能体的结构,每个智能体架构包括一个策略网络、一个内在的值网络和一个门控机制,以局部观察和通信信道的外部信息为输入,输出智能体下一步动作和要传递的消息其中表示第i个智能体在时刻t的局部观察,第i个智能体在时刻t所作出的动作。
所述步骤1的具体实现包括以下子步骤:
步骤1.1:根据调用或构建的具体运行环境明确智能体的动作空间,状态空间以及奖励机制。
步骤1.2:智能体的交互环境包括智能体的动作和状态,环境反馈的奖励等内容。从智能体个体的角度出发,智能体根据当前所观察到的状态,得到下一步的动作和奖励信息。
所述步骤2的具体实现包括以下子步骤:
步骤2.3:通信信道将利用内部信息的重要性来计算输入消息的注意力向量。
当信息不确定和重要时,注意力的权重就会很高。
步骤2.4:然后使用内在的注意力向量对共享信息的内容进行聚合:
步骤2.5:最后,外部信息与智能体局部观测相结合,输入策略网络。
所述步骤3的具体实现包括以下子步骤:
步骤3.2:将局部观测历史和从通信信道中接收到的信息相结合,作为动作生成器的输入。动作生成器由一层多层感知器MLP构成,是策略网络的组成部分,输入为局部观测历史和从通信信道中接收到的信息输出智能体i在下一时刻所要采取的动作。
步骤3.3:动作生成器得到步骤3.2产生的数据之后,产生智能体的下一步动作策略。策略网络通过强化损失和外部奖励来进行训练:
步骤3.4:内在值网络的参数会使用以下MSE进行更新:
其中θf表示预测问题,在训练过程中保持固定。θg表示预测网络的参数。
其中βe和βi都是平衡内在值和外在值的超参数。
所述步骤4的具体实现包括以下子步骤:
步骤4.3:并行训练的每一智能体会分别收到一个团队奖励r表示在状态st下,智能体1,2,…,n在时刻t分别采取动作环境所反馈的奖励。在训练期间,还会提供额外的信息,比如环境的全局状态,其他智能体的行为和轨迹,并对分散决策进行集中训练,以最大化团队奖励也就是本通信协作方法的最终目标。
本发明未详细阐述部分属于本领域的公知技术。
以上所述,仅为本发明部分具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本领域的人员在本发明揭露的技术范围内,可理解想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。
Claims (5)
1.一种多智能体通信协作方法,其步骤包括:
1)构建智能体并设定智能体的属性和规则,调用或构建智能体的运动环境;其中所述智能体包括一个策略网络、一个内在值网络和一个门控机制;
2)构建智能体通信信道,智能体通信信道根据各智能体t时刻传来的信息m为各智能体生成消息c并发送给各智能体;
3)对于任意一个智能体i,该智能体i以局部观察和消息为输入,输出智能体i的动作策略和交流消息其中,表示智能体i在时刻t的局部观察,为智能体i在时刻t所作出的动作,表示智能体i在时刻t的向智能体通信信道发送的信息,表示智能体i在时刻t从智能体通信信道收到的消息,表示智能体i在时刻t发出的消息所包含的内容,表示智能体i在时刻t智能体i的内在值网络的输出,表示消息的重要性;其中,智能体i利用观测编码器对局部观察进行编码输出然后将和从智能体通信信道中接收到的信息相结合,作为策略网络中动作生成器的输入,输出智能体i所要采取的动作根据外部沟通重要性和内部重要性计算更新然后将和vt组合生成消息其中,βe为平衡内在值的超参数,βi为平衡外在值的超参数;然后智能体i中的门控机制根据观察结果来决定是否进行通信,即当内在重要性大于阈值δ时,则向智能体通信信道发送消息
4)智能体的运动环境基于智能体决策和交流框架采样得到数据{τ1,τ2,......,τn}并行训练n个智能体,其中第i个数据τi=(s0,a0,r0,s1,a1,r1,s2,.......,sT,aT,rT),i∈(1,n),s0表示环境的初始状态、a0表示智能体在时刻0生成的决策行为、r0表示决策行为a0的即时奖励,sT表示终止时刻T时的环境状态、aT表示智能体在终止时刻T生成的决策行为、rT表示决策行为aT的即时奖励;使用强化学习的损失函数对智能体中的策略网络进行训练,以达到最大化团队奖励的目标,θp表示策略网络的参数,T表示智能体行为轨迹的终止时刻,γ表示折扣因子,rt表示在时刻t环境所反馈的团队奖励。
4.一种服务器,其特征在于,包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行权利要求1至3任一所述方法中各步骤的指令。
5.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至3任一所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110585681.2A CN113435475B (zh) | 2021-05-27 | 2021-05-27 | 一种多智能体通信协作方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110585681.2A CN113435475B (zh) | 2021-05-27 | 2021-05-27 | 一种多智能体通信协作方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113435475A CN113435475A (zh) | 2021-09-24 |
CN113435475B true CN113435475B (zh) | 2023-01-20 |
Family
ID=77802952
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110585681.2A Active CN113435475B (zh) | 2021-05-27 | 2021-05-27 | 一种多智能体通信协作方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113435475B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117151206B (zh) * | 2023-10-12 | 2024-04-12 | 北京蓝色创想网络科技有限责任公司 | 一种多智能体协同决策强化学习方法、系统及装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112488310A (zh) * | 2020-11-11 | 2021-03-12 | 厦门渊亭信息科技有限公司 | 一种多智能体群组协作策略自动生成方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109635917B (zh) * | 2018-10-17 | 2020-08-25 | 北京大学 | 一种多智能体合作决策及训练方法 |
CN111178496A (zh) * | 2019-11-30 | 2020-05-19 | 浙江大学 | 多代理强化学习合作任务场景下的代理间交换知识的方法 |
CN111514585B (zh) * | 2020-03-17 | 2022-02-11 | 南京知能科技有限公司 | 智能体的控制方法及系统、计算机装置以及存储介质 |
CN112364984A (zh) * | 2020-11-13 | 2021-02-12 | 南京航空航天大学 | 一种协作多智能体强化学习方法 |
-
2021
- 2021-05-27 CN CN202110585681.2A patent/CN113435475B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112488310A (zh) * | 2020-11-11 | 2021-03-12 | 厦门渊亭信息科技有限公司 | 一种多智能体群组协作策略自动生成方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113435475A (zh) | 2021-09-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lei et al. | Deep reinforcement learning for autonomous internet of things: Model, applications and challenges | |
Shao et al. | Multi-objective neural evolutionary algorithm for combinatorial optimization problems | |
Qiang et al. | Reinforcement learning model, algorithms and its application | |
Jiang et al. | Stacked autoencoder-based deep reinforcement learning for online resource scheduling in large-scale MEC networks | |
Jiang et al. | Distributed resource scheduling for large-scale MEC systems: A multiagent ensemble deep reinforcement learning with imitation acceleration | |
CN107241213B (zh) | 一种基于深度强化学习的Web服务组合方法 | |
Papageorgiou | Review study on fuzzy cognitive maps and their applications during the last decade | |
CN113407345B (zh) | 一种基于深度强化学习的目标驱动计算卸载方法 | |
CN112990485A (zh) | 基于强化学习的知识策略选择方法与装置 | |
KR102656365B1 (ko) | 신경망의 인과 학습에 대한 프레임워크 | |
CN113435475B (zh) | 一种多智能体通信协作方法 | |
Zhou et al. | Solving large-scale 0-1 knapsack problem by the social-spider optimisation algorithm | |
Fang et al. | Two-stream fused fuzzy deep neural network for multiagent learning | |
CN115982610A (zh) | 一种促进多智能体协作性的通讯强化学习算法 | |
Zhang et al. | Multi-robot cooperative target encirclement through learning distributed transferable policy | |
Le et al. | Applications of distributed machine learning for the Internet-of-Things: A comprehensive survey | |
CN116341611A (zh) | 一种基于多头注意力机制通信的多智能体强化学习算法 | |
Chen et al. | Survey of multi-agent strategy based on reinforcement learning | |
Yuan | Intrinsically-motivated reinforcement learning: A brief introduction | |
CN111950690A (zh) | 一种具有自适应能力的高效强化学习策略模型 | |
Liu et al. | A PSO-RBF neural network for BOD multi-step prediction in wastewater treatment process | |
CN114118371A (zh) | 一种智能体深度强化学习方法及计算机可读介质 | |
Scholten et al. | Deep reinforcement learning with feedback-based exploration | |
Chen et al. | Stochastic Dynamic Power Dispatch With Human Knowledge Transfer Using Graph-GAN Assisted Inverse Reinforcement Learning | |
Yu et al. | Event-Based Deep Reinforcement Learning for Quantum Control |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |