CN113592079B - 一种面向大规模任务空间的协同多智能体通信方法 - Google Patents
一种面向大规模任务空间的协同多智能体通信方法 Download PDFInfo
- Publication number
- CN113592079B CN113592079B CN202110930784.8A CN202110930784A CN113592079B CN 113592079 B CN113592079 B CN 113592079B CN 202110930784 A CN202110930784 A CN 202110930784A CN 113592079 B CN113592079 B CN 113592079B
- Authority
- CN
- China
- Prior art keywords
- agent
- communication
- neural network
- intelligent agent
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000006854 communication Effects 0.000 title claims abstract description 75
- 238000004891 communication Methods 0.000 title claims abstract description 72
- 238000000034 method Methods 0.000 title claims abstract description 47
- 239000003795 chemical substances by application Substances 0.000 claims abstract description 157
- 239000013598 vector Substances 0.000 claims abstract description 60
- 238000013528 artificial neural network Methods 0.000 claims abstract description 33
- 230000009471 action Effects 0.000 claims abstract description 31
- 238000012549 training Methods 0.000 claims abstract description 26
- 230000008569 process Effects 0.000 claims abstract description 20
- 230000015654 memory Effects 0.000 claims abstract description 15
- 230000006870 function Effects 0.000 claims description 16
- 230000004927 fusion Effects 0.000 claims description 12
- 230000007246 mechanism Effects 0.000 claims description 11
- 238000010606 normalization Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 230000003213 activating effect Effects 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000000717 retained effect Effects 0.000 claims 1
- 238000013473 artificial intelligence Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000004880 explosion Methods 0.000 description 2
- 230000002349 favourable effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000002787 reinforcement Effects 0.000 description 2
- 206010033799 Paralysis Diseases 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000008054 signal transmission Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种面向大规模任务空间的协同多智能体通信方法,具体包括通信阶段和动作选择阶段;所述通信阶段实现过程为:获取当前时刻智能体j的注意力权重,得到该注意力权重对应评分值;对所述评分值进行归一化处理得到权重系数;基于所述权重系数生成通信向量;所述动作选择阶段实现过程为:构建基于长短时记忆LSTM的神经网络,所述神经网络作为每个智能体的独立控制器;训练所述基于长短时记忆LSTM的神经网络;通过训练后的神经网络执行动作选择。训练的时候可以通过通信知道其他智能体的消息、内部状态和行动目的等;在动作选择的时候,每个智能体只用自己的隐藏层状态信息决策,它允许训练每个智能体使其个体奖励最大化,进而提高可扩展性。
Description
技术领域
本发明涉及智能体通信技术领域,具体涉及一种面向大规模任务空间的协同多智能体通信方法。
背景技术
多智能体系统(Multi-agent Systems,MASs)是分布式人工智能研究的一个重要分支,是人工智能的最新发展方向,是人工智能技术一次质的飞跃。如果说模拟人是单智能体的目标,那么模拟人类社会则是多智能体系统的最终目标。在多机器人合作完成任务、交通车辆控制、通信带宽的合理分配等领域广泛应用。强化学习(RL)主要是研究智能体如何通过感知局部和全局状态来选择动作,并不断与动态环境进行交互,从而找到最优策略,实现奖励值最大化。深度学习是一种高效的表征学习,可以发现原始信息中的关键信息。主要原因是神经网络可以处理输入的高维数据并提取有用的表达。多智能体深度强化学习(MDRL)是解决信息协调策略问题的有效方法,主要优势在于它可以将RL扩展到高维的状态和动作空间。
对于大规模的任务空间,智能体之间的通信是高效合作的关键,通过通信,智能体可以交换他们的观察结果,以更好地发现当前的全局状态,了解其他智能体的动作和意图,而智能体借助动态通信可以更有效地协调。然而,传统的通信机制采用简单的信息聚合和广播的方式,在某些情况下缺乏对信息重要性的区分,无法为智能体在决策过程中提供更加有益的消息。也就是说,智能体需要对其他智能体提供消息进行判断,依次划分每条消息的重要程度,进而有目的性的通信,使学习过程更加稳定。在传统的集中式训练范式中,训练时需要一个中央控制器,它帮助智能体训练策略网络。智能体把自己的观测都汇报给中央,中央收集全局信息之后才会做决策。随着智能体数量的增加,输入维度的线性增长和输出空间的指数化增长使得算法无法轻易扩展到大规模任务空间,算法的收敛效果变差甚至无法收敛。
现有技术中公开号为104951898A,名称为一种面向任务的协同多智能体联盟形成方法的专利申请,是一种使用层次分析法AHP构建任务特征向量,针对单个智能体,将其面向同一任务所建立的任务特征向量。但智能体之间缺乏沟通,系统中不存在明确的反馈控制作用。由于智能体之间不是相互独立的,不应该忽视他们之间的影响。公开号为106802564A,名称为一种多智能体系统及其控制方法的专利申请,提出了一种自适应控制器结构,一旦系统中的第一智能体发生错误时不能与第二智能体通信,每个第二智能体上都部署了单个自适应控制器,智能体之间仍然可以进行通信。但当系统规模过大时,庞大的信息量很容易加重第一智能体的负担,进而影响系统运行效率甚至使系统陷入瘫疾。公开号为109617968A,名称为一种多智能体协作系统中智能体间的通信方法的专利申请,使用了注意力机制(attention mechanism)对多智能体协作系统中第一智能体的通信对象进行筛选,从而确定多智能体协作系统中哪些第二智能体作为第一智能体的通信对象,避免了多智能体协作系统中各智能体间通信时过高的通信负荷,降低了通信开销,加强了载有协作消息信号传输的针对性。但是仅仅使用距离来选择通信对象显然是有欠缺的,这样定义在某些场景下是有作用的,但如果在复杂场景中不具有普适性。
发明内容
为了处理在具有许多智能体和高维观察空间的现实世界任务中,集中式控制器变得难以处理状态空间和动作空间爆炸所带来的扩展性差和多智能体之间很难区分有价值信息等问题,本发明提出了一种面向大规模任务空间的协同多智能体通信方法。
为实现上述目的,本申请的技术方案为:一种面向大规模任务空间的协同多智能体通信方法,具体包括通信阶段和动作选择阶段;
所述通信阶段实现过程为:
获取当前时刻智能体j的注意力权重,得到该注意力权重对应评分值;
对所述评分值进行归一化处理得到权重系数;
基于所述权重系数生成通信向量;
所述动作选择阶段实现过程为:
构建基于长短时记忆LSTM的神经网络,所述神经网络作为每个智能体的独立控制器;
训练所述基于长短时记忆LSTM的神经网络;
通过训练后的神经网络执行动作选择。
进一步的,所述注意力权重对应评分值的获取方式为:将当前时刻智能体j的隐藏层状态向量作为查询向量,与当前时刻其他智能体传递的隐藏层状态向量分别做内积运算,得到智能体j评分值:
进一步的,对所述评分值进行归一化处理得到权重系数,具体为:
通过归一化处理得到相似度大小的权重系数系数的大小同时反映出内容的重要性。
进一步的,基于所述权重系数生成通信向量,具体为:智能体j在时间t时的通信向量生成公式为:
其中,是智能体j在时间t时其他智能体隐藏层状态向量加权求和,在通信过程中,智能体j试图了解从其他智能体那里收到的状态信息。
进一步的,构建基于长短时记忆LSTM的神经网络,具体为:
通过输入信息定义神经网络的门值和候选值函数;
更新下一状态的候选值
再更新智能体j的自身隐藏层状态
更进一步的,通过输入信息定义神经网络的门值和候选值函数,具体为:门值Γu、Γf、Γo和候选值计算公式分别为:
为候选参数,wu、bu为更新参数,wf、bf为遗忘参数,wo、bo输出参数,上述参数在每个长短时记忆LSTM单元中是共享的;δ代表sigmoid函数,它使门值非常接近0或1;在每个时间步骤中,通过激活函数tanh,当前输入的观察值其他智能体隐藏层状态向量融合值和从上一个状态传下来的智能体j自身隐藏层状态向量拼接和训练得到候选值更新门Γu、遗忘门Γf和输出门Γo是为了调整流经神经网络的值。
更进一步的,更新下一状态的候选值具体为:使用更新门Γu和遗忘门Γf更新下一状态的候选值
具体来说,作为遗忘门Γf,控制前一个状态的候选值哪些信息应该保留,哪些应该遗忘;作为更新门Γu,选择和记忆这个阶段的输入观察值和融合值并记录更重要的内容;将上述两个结果相加,意味着当前状态的部分信息被删除,新输入的部分信息被添加,从而得到下一个状态的候选值
更进一步的,再更新智能体j的自身隐藏层状态具体为:
其中,候选值被激活函数缩放,并由输出门Γo控制。
更进一步的,训练所述基于长短时记忆LSTM的神经网络,具体为:智能体j在时间t时与环境互动,从环境中获得个体观察值个体动作值和个体奖励值训练阶段,每个智能体需要一个独立的控制器,对于智能体j,根据收到的其他智能体的隐藏层状态向量进行有目的的融合,以产生一个通信向量智能体的隐藏层状态向量和通信向量被发送到智能体j的独立控制器中;通过注意力的通信机制,不同的智能体交换关于他们的观察值、动作值和意图信息以稳定训练过程;训练结束后,智能体根据自己的隐藏层状态向量做出决定;而神经网络则输出一个概率分布第j个智能体的动作策略公式如下:
为了评价策略π的总体性能指标,将其表示为J(π):
其中,是在策略参数θj下每个序列存在的概率;
为了优化策略π,最大化奖励沿着梯度更新策略参数θj,使其达到最优:
其中α是学习率,总体性能指标是通过以下梯度的上升来更新:
本发明由于采用以上技术方案,能够取得如下的技术效果:
1、本发明使用了独立控制器方法,每个独立控制器只控制一个智能体。训练的时候可以通过通信知道其他智能体的消息、内部状态和行动目的等;在动作选择的时候,每个智能体只用自己的隐藏层状态信息决策,它允许训练每个智能体使其个体奖励最大化,而不是单个全局奖励;进而提高可扩展性。
2、根据消息接受者的状态信息,将消息定向到特定的内容。这使得复杂环境中的协作策略更加灵活。由于智能体的观察结果具有连续性,所以生成的通信信息也具有连续性,这也使得训练过程更加平稳。
附图说明
图1为协同多智能体通信方法原理框图;
图2为基于独立控制器的动作策略生成过程图;
图3为基于查询向量的长短时记忆LSTM单元图。
具体实施方式
本发明的实施例是在以本发明技术方案为前提下进行实施的,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述实施例。
实施例1
本实施例提供一种面向大规模任务空间的协同多智能体通信方法,具体包括通信阶段和动作选择阶段;
S1.在通信结构中使用基于查询向量的注意力机制来识别更有利的特定智能体信息,并使用评分函数来评估当前时刻其他智能体发送的隐藏层状态信息与作为智能体查询向量的自身隐藏层状态两者之间的相关性,根据关注权重的大小将注意力导向特定的通信链接,实现信息的融合,生成更有价值的通信向量。所述通信阶段实现包括:
S1.1获取当前时刻智能体j的注意力权重,得到该注意力权重对应评分值;
具体为,将当前时刻智能体j的隐藏层状态向量作为查询向量,与当前时刻其他智能体传递的隐藏层状态向量分别做内积运算,得到智能体j评分值:
S1.2对所述评分值进行归一化处理得到权重系数,具体为:
通过归一化处理得到相似度大小的权重系数系数的大小同时反映出内容的重要性。
基于长短时记忆LSTM的神经网络,通过隐藏层的加权求和,可以得到当前时刻的通信向量。这个时候,智能体会关注更重要的信息。以智能体自己的局部观察和状态编码为输入,用基于查询向量的注意机制产生通信向量,即其他智能体观察到的融合状态信息作为附加输入,以指导合作策略。
S1.3基于所述权重系数生成通信向量,具体为:
智能体j在时间t时的通信向量生成公式为:
其中,是智能体j在时间t时其他智能体隐藏层状态向量加权求和,在通信过程中,智能体j试图了解从其他智能体那里收到的状态信息。
建立有效的协作策略需要有针对性的通信,即能够向智能体发送特定的信息。在通信结构中使用基于查询向量的注意力机制来识别更有利的特定智能体信息,并实现信息的融合,根据关注权重的大小将注意力导向特定的通信链接。
S2.获取编码得到的智能体j自身观察值和其他智能体的通信向量以及智能体j自身隐藏层状态,对流经网络的自身隐藏层状态向量和其他隐藏层状态信息的通信向量进行调整和训练。所述动作选择阶段包括:
S2.1构建基于长短时记忆LSTM的神经网络,所述神经网络作为每个智能体的独立控制器,其包括:
A、通过输入信息定义神经网络的门值和候选值函数,具体为:
为候选参数,wu、bu为更新参数,wf、bf为遗忘参数,wo、bo输出参数,上述参数在每个长短时记忆LSTM单元中是共享的;δ代表sigmoid函数,它使门值非常接近0或1;在每个时间步骤中,通过激活函数tanh,当前输入的观察值其他智能体隐藏层状态向量融合值和从上一个状态传下来的智能体j自身隐藏层状态向量拼接和训练得到候选值更新门Γu、遗忘门Γf和输出门Γo是为了调整流经神经网络的值。
使用LSTM网络作为每个智能体的独立控制器,可以对流经网络的自身隐藏层状态向量和其他隐藏层状态信息的通信向量进行调整和训练。考虑多个具有共享参数的大网络,每个网络分别控制一个智能体,大网络由多个LSTM网络组成,每个网络处理对单个智能体的观察。
B、更新下一状态的候选值具体为:
具体来说,作为遗忘门Γf,控制前一个状态的候选值哪些信息应该保留,哪些应该遗忘;作为更新门Γu,选择和记忆这个阶段的输入观察值和融合值将上述两个结果相加,意味着当前状态的部分信息被删除,新输入的部分信息被添加,从而得到下一个状态的候选值
C、再更新智能体j的自身隐藏层状态具体为:
其中,候选值被激活函数缩放,并由输出门Γo控制。
S2.2训练所述基于长短时记忆LSTM的神经网络;具体的,智能体j在时间t时与环境互动,从环境中获得个体观察值个体动作值和个体奖励值训练阶段,每个智能体需要一个独立的控制器,对于智能体j,根据收到的其他智能体的隐藏层状态向量进行有目的的融合,以产生一个通信向量智能体的隐藏层状态向量和通信向量被发送到智能体j的独立控制器中;通过注意力的通信机制,不同的智能体交换关于他们的观察值、动作值和意图信息以稳定训练过程;训练结束后,智能体根据自己的隐藏层状态向量做出决定;而神经网络则输出一个概率分布第j个智能体的动作策略公式如下:
为了评价策略π的总体性能指标,将其表示为J(π):
其中,是在策略参数θj下每个序列存在的概率;
为了优化策略π,最大化奖励沿着梯度更新策略参数θj,使其达到最优:
其中α是学习率,总体性能指标是通过以下梯度的上升来更新:
S2.3通过训练后的神经网络执行动作选择。
本发明提出了一种基于向量查询的注意力机制方法。在训练时候采取独立的控制器处理来自智能体自身的个体观察和其他智能体状态信息的通信向量,每个智能体上都部署了独立的控制器,独立控制器使用了LSTM网络结构。在这种设置下,控制器(例如完全连接的网络)可以被视为隐含编码通信。并且以分散的方式执行动作。这种独立的控制模型提高了计算效率并减轻了维度爆炸带来问题,保持了智能体良好的可扩展性。针对传统广播通信的方式,采取了基于向量查询的注意力机制的通信方式,对每个智能体的局部观察值进行编码。通过注意单元依次计算智能体当前时刻接受到的其他智能体发送消息的重要程度,有选择性的关注其他智能体的观察和动作,为智能体在决策过程中提供更加有益的消息,使学习过程更加稳定。
前述对本发明的具体示例性实施方案的描述是为了说明和例证的目的。这些描述并非想将本发明限定为所公开的精确形式,并且很显然,根据上述教导,可以进行很多改变和变化。对示例性实施例进行选择和描述的目的在于解释本发明的特定原理及其实际应用,从而使得本领域的技术人员能够实现并利用本发明的各种不同的示例性实施方案以及各种不同的选择和改变。本发明的范围意在由权利要求书及其等同形式所限定。
Claims (5)
1.一种面向大规模任务空间的协同多智能体通信方法,具体包括通信阶段和动作选择阶段;其特征在于:
所述通信阶段实现过程为:
获取当前时刻智能体j的注意力权重,得到该注意力权重对应评分值;
对所述评分值进行归一化处理得到权重系数;
基于所述权重系数生成通信向量;
所述动作选择阶段实现过程为:
构建基于长短时记忆LSTM的神经网络,所述神经网络作为每个智能体的独立控制器;
训练所述基于长短时记忆LSTM的神经网络;
通过训练后的神经网络执行动作选择;
构建基于长短时记忆LSTM的神经网络,具体为:
通过输入信息定义神经网络的门值和候选值函数;
更新下一状态的候选值
再更新智能体j的自身隐藏层状态
通过输入信息定义神经网络的门值和候选值函数,具体为:门值Γu、Γf、Γo和候选值计算公式分别为:
为候选参数,wu、bu为更新参数,wf、bf为遗忘参数,wo、bo输出参数,上述参数在每个长短时记忆LSTM单元中是共享的;δ代表sigmoid函数,它使门值非常接近0或1;在每个时间步骤中,通过激活函数tanh,当前输入的观察值其他智能体隐藏层状态向量融合值和从上一个状态传下来的智能体j自身隐藏层状态向量拼接和训练得到候选值更新门Γu、遗忘门Γf和输出门Γo是为了调整流经神经网络的值;
更新下一状态的候选值具体为:使用更新门Γu和遗忘门Γf更新下一状态的候选值
具体来说,作为遗忘门Γf,控制前一个状态的候选值sjt哪些信息应该保留,哪些应该遗忘;作为更新门Γu,选择和记忆这个阶段的输入观察值和融合值将遗忘门Γf与更新门Γu相加,意味着当前状态的部分信息被删除,新输入的部分信息被添加,从而得到下一个状态的候选值
再更新智能体j的自身隐藏层状态具体为:
其中,候选值被激活函数缩放,并由输出门Γo控制。
2.根据权利要求1所述一种面向大规模任务空间的协同多智能体通信方法,其特征在于,所述注意力权重对应评分值的获取方式为:将当前时刻智能体j的隐藏层状态向量作为查询向量,与当前时刻其他智能体传递的隐藏层状态向量分别做内积运算,得到智能体j评分值:
3.根据权利要求2所述一种面向大规模任务空间的协同多智能体通信方法,其特征在于,对所述评分值进行归一化处理得到权重系数,具体为:
通过归一化处理得到相似度大小的权重系数系数的大小同时反映出内容的重要性。
4.根据权利要求3所述一种面向大规模任务空间的协同多智能体通信方法,其特征在于,基于所述权重系数生成通信向量,具体为:智能体j在时间t时的通信向量生成公式为:
其中,是智能体j在时间t时其他智能体隐藏层状态向量加权求和,在通信过程中,智能体j试图了解从其他智能体那里收到的状态信息。
5.根据权利要求1所述一种面向大规模任务空间的协同多智能体通信方法,其特征在于,训练所述基于长短时记忆LSTM的神经网络,具体为:智能体j在时间t时与环境互动,从环境中获得个体观察值个体动作值和个体奖励值训练阶段,每个智能体需要一个独立的控制器,对于智能体j,根据收到的其他智能体的隐藏层状态向量进行有目的的融合,以产生一个通信向量智能体的隐藏层状态向量和通信向量被发送到智能体j的独立控制器中;通过注意力的通信机制,不同的智能体交换关于他们的观察值、动作值和意图信息以稳定训练过程;训练结束后,智能体根据自己的隐藏层状态向量做出决定;而神经网络则输出一个概率分布第j个智能体的动作策略公式如下:
为了评价策略π的总体性能指标,将其表示为J(π):
其中,是在策略参数θj下每个序列存在的概率;
为了优化策略π,最大化奖励沿着梯度更新策略参数θj,使其达到最优:
其中α是学习率,总体性能指标是通过以下梯度的上升来更新:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110930784.8A CN113592079B (zh) | 2021-08-13 | 2021-08-13 | 一种面向大规模任务空间的协同多智能体通信方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110930784.8A CN113592079B (zh) | 2021-08-13 | 2021-08-13 | 一种面向大规模任务空间的协同多智能体通信方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113592079A CN113592079A (zh) | 2021-11-02 |
CN113592079B true CN113592079B (zh) | 2024-06-28 |
Family
ID=78257754
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110930784.8A Active CN113592079B (zh) | 2021-08-13 | 2021-08-13 | 一种面向大规模任务空间的协同多智能体通信方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113592079B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114298178A (zh) * | 2021-12-17 | 2022-04-08 | 深圳先进技术研究院 | 一种多智能体的通信学习方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA3060914A1 (en) * | 2018-11-05 | 2020-05-05 | Royal Bank Of Canada | Opponent modeling with asynchronous methods in deep rl |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108829797A (zh) * | 2018-04-25 | 2018-11-16 | 苏州思必驰信息科技有限公司 | 多智能体对话策略系统构建方法及自适应方法 |
CN109635917B (zh) * | 2018-10-17 | 2020-08-25 | 北京大学 | 一种多智能体合作决策及训练方法 |
CN111432015B (zh) * | 2020-03-31 | 2022-07-19 | 中国人民解放军国防科技大学 | 一种面向动态噪声环境的全覆盖任务分配方法 |
CN112364984A (zh) * | 2020-11-13 | 2021-02-12 | 南京航空航天大学 | 一种协作多智能体强化学习方法 |
-
2021
- 2021-08-13 CN CN202110930784.8A patent/CN113592079B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA3060914A1 (en) * | 2018-11-05 | 2020-05-05 | Royal Bank Of Canada | Opponent modeling with asynchronous methods in deep rl |
Non-Patent Citations (1)
Title |
---|
稀疏奖励下基于MADDPG算法的多智能体协同;许诺;杨振伟;;现代计算机;20200525(第15期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113592079A (zh) | 2021-11-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhu et al. | Deep reinforcement learning for mobile edge caching: Review, new features, and open issues | |
CN110488861A (zh) | 基于深度强化学习的无人机轨迹优化方法、装置和无人机 | |
Strumberger et al. | Enhanced firefly algorithm for constrained numerical optimization | |
Jiang et al. | Distributed resource scheduling for large-scale MEC systems: A multiagent ensemble deep reinforcement learning with imitation acceleration | |
CN103679139A (zh) | 基于粒子群优化bp网络的人脸识别方法 | |
Wang et al. | Design of intelligent connected cruise control with vehicle-to-vehicle communication delays | |
CN113642233B (zh) | 一种通信机制优化的群体智能协同方法 | |
CN112990485A (zh) | 基于强化学习的知识策略选择方法与装置 | |
CN113592079B (zh) | 一种面向大规模任务空间的协同多智能体通信方法 | |
CN113779302A (zh) | 基于值分解网络和多智能体强化学习的半分布式协作存储方法 | |
Zhou et al. | Solving large-scale 0-1 knapsack problem by the social-spider optimisation algorithm | |
Xu et al. | Living with artificial intelligence: A paradigm shift toward future network traffic control | |
Zhang et al. | Multi-robot cooperative target encirclement through learning distributed transferable policy | |
Meng et al. | Multi-colony ant algorithm using both generative adversarial nets and adaptive stagnation avoidance strategy | |
CN116187469A (zh) | 一种基于联邦蒸馏学习框架的客户端成员推理攻击方法 | |
CN114710439A (zh) | 基于深度强化学习的网络能耗与吞吐量联合优化路由方法 | |
Qi et al. | Green energy management of the energy Internet based on service composition quality | |
CN113902087A (zh) | 一种多Agent深度强化学习算法 | |
CN116582442A (zh) | 一种基于层次化通信机制的多智能体协作方法 | |
CN116306966A (zh) | 一种基于动态图通信的多智能体强化学习协同方法 | |
Zhang et al. | Coordinated control of distributed traffic signal based on multiagent cooperative game | |
CN116165886A (zh) | 多传感器智能协同控制方法、装置、设备及介质 | |
CN113449867B (zh) | 一种基于知识蒸馏的深度强化学习多智能体协作方法 | |
CN114298244A (zh) | 一种智能体群体交互的决策控制方法、装置及系统 | |
CN111950691A (zh) | 一种基于潜在动作表示空间的强化学习策略学习方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |