CN109726903A - 基于注意力机制的分布式多智能体协同决策方法 - Google Patents

基于注意力机制的分布式多智能体协同决策方法 Download PDF

Info

Publication number
CN109726903A
CN109726903A CN201811558195.6A CN201811558195A CN109726903A CN 109726903 A CN109726903 A CN 109726903A CN 201811558195 A CN201811558195 A CN 201811558195A CN 109726903 A CN109726903 A CN 109726903A
Authority
CN
China
Prior art keywords
attention
information
observation information
feature
intelligent body
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811558195.6A
Other languages
English (en)
Other versions
CN109726903B (zh
Inventor
李明强
陈思
高放
张峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC Information Science Research Institute
Original Assignee
CETC Information Science Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC Information Science Research Institute filed Critical CETC Information Science Research Institute
Priority to CN201811558195.6A priority Critical patent/CN109726903B/zh
Publication of CN109726903A publication Critical patent/CN109726903A/zh
Application granted granted Critical
Publication of CN109726903B publication Critical patent/CN109726903B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Multi Processors (AREA)
  • Machine Translation (AREA)

Abstract

一种基于注意力机制的分布式多智能体协同决策方法,基于注意力机制对分布式多智能体观测信息进行融合,包括局部观测信息编码步骤,基于注意力机制权重计算步骤,注意力(Attention)系数计算步骤,局部观测信息加权求和步骤,注意力信息与位置信息融合步骤和决策概率求解步骤。本发明基于数据驱动的方式,自主发现局部信息的相互关系,并为单智能体构建全局决策信息,将位置信息单独进行处理,能够使得信息更加丰富,有针对性的处理空间位置关系的多智能体系统。

Description

基于注意力机制的分布式多智能体协同决策方法
技术领域
本发明涉及一种智能决策领域,具体的,是一种基于注意力机制的分布式多智能体协同决策方法,其将分布式多智能体观测信息进行融合,并将其与单智能体id进行编码融合,形成决策特征,为最终的决策提供丰富有效的信息,提供决策水平。
背景技术
多智能体系统是由相互配合的计算单元—智能体所组成的系统。智能体协同是将多个单智能体组织为一个群体并使各个智能体有效地进行协调合作,从而产生总体解决问题的能力。多智能体系统构成方式分为集中式和分布式两种。集中式系统有一个核心Agent和多个与之在结构上分散的、独立的协作Agent构成。核心的Agent负责任务的动态分配与资源的动态调度,协调各协作Agent间的竞争与合作,该类系统比较容易实现系统的管理、控制和调度;分布式系统中各Agent彼此独立、完全平等、无逻辑上的主从关系,各Agent按预先规定的协议,根据系统的目标、状态与自身的状态、能力、资源和知识,利用通信网络相互间通过协商与谈判,确定各自的任务,协调各自的行为活动,实现资源、知识、信息和功能的共享,协作完成共同的任务,以达到整体目标,该系统具有良好的封装性、容错性、开放性和可扩展性。
基于环境反馈信息自主形成应对策略,一直是智能体研究领域里的核心话题。在过去的一段时间中,计算能力不足和提升策略的限制使得这一领域一直缺乏根本性的进展。近年来,由于摩尔定律以及深度神经网络方法的应用,硬件性能和提升算法有了长足的进步。随着神经网络在增强学习任务中投入应用,业界不断发展出来一系列相对成熟的智能体训练策略。
现有技术中,较先进的多智能体协同问题多采用DQN(Deep Q Network,深度Q值网络)或者DDPG(Deep Deterministic Policy Gradient,深度决定策略梯度)作为个体行动策略,在此基础上进行个体间神经网络的设计与规划。在多智能体协作问题的研究中,相对主流的实现方法是2016年提出的CommNet(Communication Neural Net,交流神经网络)、RIAL(Reinforced Inter-agent Learning,增强智能体间学习)和DIAL(DifferentiableInter-agent Learning,差异智能体间学习),基于二者发展出的最新方法是2017年提出的BiCNet。CommNet默认智能体一定范围内的全联结,对多个同类的智能体采用了同一个网络,用当前态(隐态)和交流信息得出下一时刻的状态,信息交流从利用隐态的均值得出。其优点能够根据现实位置变化对智能体联结结构做出自主规划,而缺点在于信息采用均值过于笼统,不能够处理多个种类的智能体。除此以外,RIAL和DIAL个体行为中采取了类DQN的解决方式,在智能体间进行单向信息交流,采用了单向环整体架构,两者的区别在于RIAL向一个智能体传递的是Q网络结果中的极大值,DIAL则传递的是Q网络的所有结果。在实验中,两者均可以解决多种类协同的现实问题,且DIAL表现出了很好的抗信号干扰能力。但是,在处理非静态环境的快速反应问题上,RIAL与DIAL的表现仍旧不足。借鉴之前CommNet和DIAL的研究,阿里巴巴团队为了解决多智能体的协作问题,提出了使用BiCNet决多智能体协作的方法。相较于之前的研究,BiCNet在个体行为上采取了DDPG取代DQN作为提升方法,在群体连接中采用了双向循环网络取代单向网络进行联结。这一方法在DIAL的基础上利用了双向信息传递取代单向信息传递,在多种类协同的基础上一定程度上解决了快速反应的问题。然而,BiCNet的组织架构思想仍旧没有摆脱链状拓扑或者环状拓扑结构,且不具有动态规划能力,在现实实践中会有很大问题。在相互摧毁的真实战术背景下,不具有动态规划能力的网络中一点的破坏会导致所有经过该点的所有信息交流彻底终止。在无恢复的前提下,链状拓扑和环状拓扑对于网络中的每一端点过分依赖,导致少量几点的破坏会对智能体交流网络造成毁灭性影响,团体被彻底拆分失去交流协同能力
因此,传统的多智能体决策网络太过于繁琐,不能够挖掘局部信息本身的相互关联,并且传统的决策网络不够重视位置信息。因此,如何能够解决上述问题,提出一种新的分布式多智能体协同决策方法成为现有技术亟需解决的技术问题。
发明内容
本发明的目的在于提出一种基于注意力机制的分布式多智能体协同决策方法及存储介质,提高单智能体的信息交流,使得单智能体获取充分的全局信息,从而为最终的决策提供丰富有效的信息,提供决策水平。
为达此目的,本发明采用以下技术方案:
一种基于注意力机制的分布式多智能体协同决策方法,其特征在于:
该多智能体体系中有N个智能体,第i个智能体的局部观测信息为Qi,空间位置信息为Locationi,i=1,2,…,N,可选动作维度为m,则第i个智能体的动作决策包括如下步骤:
局部观测信息编码步骤S110,对于智能体的局部观测信息Qi先进行卷积再进行池化,从而得到局部信息编码qi
即,可用如下两个公式表示该步骤,
首先进行卷积,qi=conv(Qi) 式(1)
然后进行池化,qi=pool(qi) 式(2);
基于注意力机制权重计算步骤S120,在该步骤中基于注意力机制分别计算权重系数,根据第i个智能体的局部观测信息Qi和所有的N个智能体的之间的N个局部观测信息Qj,j=1,2,…,N,利用相似性计算方法计算两者的相似性或者相关性得到权重系数Simj,j=1,2,…,N;
注意力(Attention)系数计算步骤S130:根据步骤S120中得到的N个权重系数Simj,j=1,2,…,N,利用Softmax对权重系数Simj进行归一化,得到归一化系数αj
局部观测信息加权求和步骤S140:利用归一化系数αj和每个智能体的局部观测信息编码qj对局部观测信息进行加权求和,得到第i个智能体的局部观测信息加权和Attentioni,即
注意力信息与位置信息融合步骤S150:对局部观测信息加权和Attentioni进行全连接得到注意力信息特征Ai,对位置信息进行融合得到位置信息特征Li,然后采用向量的方式融合注意力(Attention)信息特征和位置信息特征得到融合特征Zi
Attention信息特征Ai为:Ai=T*Attentioni,
位置信息特征Li为:Li=P*Locationi,
其中,T为注意力参数、P为位置参数,
注意力(Attention)信息特征和位置信息特征融合方式如下:
决策概率求解步骤S160:对融合特征Zi使用全连接提取特征Vi,即Vi=H*Zi,其中H为特征提取参数,
对提取后的特征Vi使用softmax进行归一化,求得第j个动作决策概率actionj
可选的,在步骤S110中,卷积和池化的大小可以根据局部观测信息的大小进行自行设定。
可选的,在步骤S120中,采用向量点积形式的、Cosine相似性或者多层感知网络相似性计算方法。
可选的,注意力参数T、位置参数P和特征提取参数H可以根据模仿学习、强化学习的方式迭代计算得到。
本发明还公开了一种存储介质,用于存储计算机可执行指令,其特征在于:所述计算机可执行指令在被处理器执行时执行上述的基于注意力机制的分布式多智能体协同决策方法。
本发明具有如下优点:
(1)传统的多智能体决策网络太过于繁琐,不能够挖掘局部信息本身的相互关联。本发明基于数据驱动的方式,自主发现局部信息的相互关系,并为单智能体构建全局决策信息。
(2)传统的决策网络不够重视位置信息,在决策过程中的重要性,本发明将位置信息单独进行处理,能够使得信息更加丰富,有针对性的处理空间位置关系的多智能体系统。
附图说明
图1是根据本发明具体实施例的基于注意力机制的分布式多智能体协同决策方法的流程图;
图2是根据本发明具体实施例的基于注意力机制的分布式多智能体协同决策的形象示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
本发明在于:基于注意力机制对分布式多智能体观测信息进行融合,并将其与单智能体id进行编码融合,形成决策特征,为最终的决策提供丰富有效的信息,提供决策水平。
具体而言,参见图1,示出了基于注意力机制的分布式多智能体协同决策方法的流程图,图2,示出了基于注意力机制的分布式多智能体协同决策的形象示意图。
针对多智能体系统,该多智能体体系中有N个智能体,第i个智能体的局部观测信息为Qi,空间位置信息为Locationi,i=1,2,…,N,可选动作维度为m,则第i个智能体的动作决策包括如下步骤:
局部观测信息编码步骤S110,对于智能体的局部观测信息Qi先进行卷积再进行池化,从而得到局部信息编码qi
即,可用如下两个公式表示该步骤,
首先进行卷积,qi=conv(Qi) 式(1)
然后进行池化,qi=pool(qi) 式(2)
可选的,卷积和池化的大小可以根据局部观测信息的大小进行自行设定。
基于注意力机制权重计算步骤S120,在该步骤中基于注意力机制中Query和Key的方式分别计算权重系数,根据第i个智能体的局部观测信息Qi和所有的N个智能体的之间的N个局部观测信息Qj,j=1,2,…,N,利用相似性计算方法计算两者的相似性或者相关性得到权重系数Simj,j=1,2,…,N。
可选的,可以采用向量点积形式的、Cosine相似性或者多层感知网络相似性计算方法。
其中,向量点积形式计算公式为:
Similarity(Qi,Qj)=(Qi,Qj), 式(3)
Cosine相似性计算公式为:
多层感知网络相似性计算公式为:
Similarity(Qi,Qj)=MLP(Qi,Qj) 式(5)。
注意力(Attention)系数计算步骤S130:根据步骤S120中得到的N个权重系数Simj,j=1,2,…,N,利用Softmax对权重系数Simj进行归一化,得到归一化系数αj,j=1,2,…,N;
在该步骤中,根据步骤S130计算方法不同得到的权重系数可能不同,而通过归一化,可以将原始计算的权重系数Simj整理成所有元素权重之和为1的概率分布。该归一化系数αj即为注意力机制中的注意力(Attention)系数。
局部观测信息加权求和步骤S140:利用归一化系数αj和每个智能体的局部观测信息编码qi对局部观测信息进行加权求和,得到第i个智能体的局部观测信息加权和Attentioni,即
注意力信息与位置信息融合步骤S150:对注意力(Attention)信息,即局部观测信息加权和Attentioni进行全连接得到注意力信息特征Ai,对位置信息进行融合得到位置信息特征Li,然后采用向量的方式融合注意力(Attention)信息特征和位置信息特征得到融合特征Zi
Attention信息特征Ai为:Ai=T*Attentioni,
位置信息特征Li为:Li=P*Locationi,
注意力(Attention)信息特征和位置信息特征融合方式如下:
其中,T为注意力参数,P为位置参数。两者均可以为矩阵的形式。
决策概率求解步骤S160:对融合特征Zi使用全连接提取特征Vi,即Vi=H*Zi,其中H为特征提取参数。
对提取后的特征Vi使用softmax进行归一化,求得第j个动作决策概率actionj
在一个可选的实施例中,注意力参数T、位置参数P和特征提取参数H可以根据模仿学习、强化学习的方式迭代计算得到。
本发明还公开了一种存储介质,用于存储计算机可执行指令,其特征在于:所述计算机可执行指令在被处理器执行时执行上述的基于注意力机制的分布式多智能体协同决策方法。
本发明具有如下优点:
(1)传统的多智能体决策网络太过于繁琐,不能够挖掘局部信息本身的相互关联。本发明基于数据驱动的方式,自主发现局部信息的相互关系,并为单智能体构建全局决策信息。
(2)传统的决策网络不够重视位置信息,在决策过程中的重要性,本发明将位置信息单独进行处理,能够使得信息更加丰富,有针对性的处理空间位置关系的多智能体系统。
显然,本领域技术人员应该明白,上述的本发明的各单元或各步骤可以用通用的计算装置来实现,它们可以集中在单个计算装置上,可选地,他们可以用计算机装置可执行的程序代码来实现,从而可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件的结合。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施方式仅限于此,对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单的推演或替换,都应当视为属于本发明由所提交的权利要求书确定保护范围。

Claims (7)

1.一种基于注意力机制的分布式多智能体协同决策方法,其特征在于:
多智能体体系中有N个智能体,第i个智能体的局部观测信息为Qi,空间位置信息为Locationi,i=1,2,…,N,可选动作维度为m,第i个智能体的动作决策包括如下步骤:
局部观测信息编码步骤S110,对于智能体的局部观测信息Qi先进行卷积再进行池化,从而得到局部信息编码qi
即,可用如下两个公式表示该步骤,
首先进行卷积,qi=conv(Qi) 式(1)
然后进行池化,qi=pool(qi) 式(2);
基于注意力机制权重计算步骤S120,在该步骤中基于注意力机制分别计算权重系数,根据第i个智能体的局部观测信息Qi和所有的N个智能体的之间的N个局部观测信息Qj,j=1,2,…,N,利用相似性计算方法计算两者的相似性或者相关性得到权重系数Simj,j=1,2,…,N;
注意力(Attention)系数计算步骤S130:根据步骤S120中得到的N个权重系数Simj,j=1,2,…,N,利用Softmax对权重系数Simj进行归一化,得到归一化系数αj,j=1,2,…,N;
局部观测信息加权求和步骤S140:利用归一化系数αj和每个智能体的局部观测信息编码qj对局部观测信息进行加权求和,得到第i个智能体的局部观测信息加权和Attentioni,即
注意力信息与位置信息融合步骤S150:对局部观测信息加权和Attentioni进行全连接得到注意力信息特征Ai,对位置信息进行融合得到位置信息特征Li,然后采用向量的方式融合注意力(Attention)信息特征和位置信息特征得到融合特征Zi
Attention信息特征Ai为:Ai=T*Attentioni,
位置信息特征Li为:Li=P*Locationi,
其中,T为注意力参数、P为位置参数,
注意力(Attention)信息特征和位置信息特征融合方式如下:
决策概率求解步骤S160:对融合特征Zi使用全连接提取特征Vi,即Vi=H*Zi,其中H为特征提取参数,
对提取后的特征Vi使用softmax进行归一化,求得第j个动作决策概率actionj
2.根据权利要求1所述的分布式多智能体协同决策方法,其特征在于:
在步骤S110中,卷积和池化的大小可以根据局部观测信息的大小进行自行设定。
3.根据权利要求1所述的分布式多智能体协同决策方法,其特征在于:
在步骤S120中,采用向量点积形式计算权重系数,
Similarity(Qi,Qj)=(Qi,Qj), 式(3)。
4.根据权利要求1所述的分布式多智能体协同决策方法,其特征在于:
在步骤S120中,采用Cosine相似性计算权重系数,
5.根据权利要求1所述的分布式多智能体协同决策方法,其特征在于:
在步骤S120中,采用多层感知网络相似性计算权重系数,
Similarity(Qi,Qj)=MLP(Qi,Qj) 式(5)。
6.根据权利要求1所述的分布式多智能体协同决策方法,其特征在于:
注意力参数T、位置参数P和特征提取参数H可以根据模仿学习、强化学习的方式迭代计算得到。
7.一种存储介质,用于存储计算机可执行指令,其特征在于:所述计算机可执行指令在被处理器执行时执行权利要求1-6中任意一项所述的基于注意力机制的分布式多智能体协同决策方法。
CN201811558195.6A 2018-12-19 2018-12-19 基于注意力机制的分布式多智能体协同决策方法 Active CN109726903B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811558195.6A CN109726903B (zh) 2018-12-19 2018-12-19 基于注意力机制的分布式多智能体协同决策方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811558195.6A CN109726903B (zh) 2018-12-19 2018-12-19 基于注意力机制的分布式多智能体协同决策方法

Publications (2)

Publication Number Publication Date
CN109726903A true CN109726903A (zh) 2019-05-07
CN109726903B CN109726903B (zh) 2020-10-16

Family

ID=66296193

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811558195.6A Active CN109726903B (zh) 2018-12-19 2018-12-19 基于注意力机制的分布式多智能体协同决策方法

Country Status (1)

Country Link
CN (1) CN109726903B (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110164151A (zh) * 2019-06-21 2019-08-23 西安电子科技大学 基于分布式深度循环q网络的交通灯控制方法
CN110275527A (zh) * 2019-05-29 2019-09-24 南京航空航天大学 一种基于改进拟态物理法的多智能体系统运动控制方法
CN110442129A (zh) * 2019-07-26 2019-11-12 中南大学 一种多智能体编队的控制方法和系统
CN111144557A (zh) * 2019-12-31 2020-05-12 中国电子科技集团公司信息科学研究院 一种基于级联模式的动作策略方法
CN111514585A (zh) * 2020-03-17 2020-08-11 清华大学 智能体的控制方法及系统、计算机装置以及存储介质
CN113239513A (zh) * 2021-04-01 2021-08-10 中国电子科技集团公司信息科学研究院 多智能体的一致性分析方法、系统及应用
CN113326902A (zh) * 2021-07-08 2021-08-31 中国人民解放军国防科技大学 基于在线学习的策略获取方法、装置及设备
CN113625757A (zh) * 2021-08-12 2021-11-09 中国电子科技集团公司第二十八研究所 一种基于强化学习和注意力机制的无人机群调度方法
CN114021737A (zh) * 2021-11-04 2022-02-08 中国电子科技集团公司信息科学研究院 一种基于博弈的强化学习方法、系统、终端及存储介质
CN114083539A (zh) * 2021-11-30 2022-02-25 哈尔滨工业大学 一种基于多智能体强化学习的机械臂抗干扰运动规划方法
CN114139637A (zh) * 2021-12-03 2022-03-04 哈尔滨工业大学(深圳) 多智能体信息融合方法、装置、电子设备及可读存储介质
CN114130034A (zh) * 2021-11-19 2022-03-04 天津大学 基于注意力机制与强化学习的多智能体游戏ai设计方法
CN114827138A (zh) * 2022-03-28 2022-07-29 中国电子科技集团公司第五十四研究所 一种基于全局信息的群体分布式协商方法
CN115840892A (zh) * 2022-12-09 2023-03-24 中山大学 一种复杂环境下多智能体层次化自主决策方法及系统
CN117289668A (zh) * 2023-11-24 2023-12-26 深圳市陶氏精密技术有限公司 分布式减速机网络协同控制方法、装置、设备及存储介质
WO2024067113A1 (zh) * 2022-09-28 2024-04-04 华为技术有限公司 一种动作预测方法及其相关设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107230351A (zh) * 2017-07-18 2017-10-03 福州大学 一种基于深度学习的短时交通流预测方法
CN107544960A (zh) * 2017-08-29 2018-01-05 中国科学院自动化研究所 一种基于变量绑定和关系激活的推理方法
CN108133038A (zh) * 2018-01-10 2018-06-08 重庆邮电大学 一种基于动态记忆网络的实体级别情感分类系统及方法
WO2018119323A1 (en) * 2016-12-22 2018-06-28 Xenamed Corp. Droxidopa compositions and methods
CN108717439A (zh) * 2018-05-16 2018-10-30 哈尔滨理工大学 一种基于注意力机制和特征强化融合的中文文本分类方法
CN108804715A (zh) * 2018-07-09 2018-11-13 北京邮电大学 融合视听感知的多任务协同识别方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018119323A1 (en) * 2016-12-22 2018-06-28 Xenamed Corp. Droxidopa compositions and methods
CN107230351A (zh) * 2017-07-18 2017-10-03 福州大学 一种基于深度学习的短时交通流预测方法
CN107544960A (zh) * 2017-08-29 2018-01-05 中国科学院自动化研究所 一种基于变量绑定和关系激活的推理方法
CN108133038A (zh) * 2018-01-10 2018-06-08 重庆邮电大学 一种基于动态记忆网络的实体级别情感分类系统及方法
CN108717439A (zh) * 2018-05-16 2018-10-30 哈尔滨理工大学 一种基于注意力机制和特征强化融合的中文文本分类方法
CN108804715A (zh) * 2018-07-09 2018-11-13 北京邮电大学 融合视听感知的多任务协同识别方法及系统

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
CHI CHENG: "A multi-agent reinforcement learning algorithm based on Stackelberg game", 《2017 6TH DATA DRIVEN CONTROL AND LEARNING SYSTEMS (DDCLS)》 *
NISAR AHMED: "Categorical soft data fusion via variational Bayesian importance sampling with applications to cooperative search", 《PROCEEDINGS OF THE 2011 AMERICAN CONTROL CONFERENCE》 *
RAMI ABIELMONA: "Multi-Agent System Information Fusion for Environment Monitoring", 《2006 IEEE INSTRUMENTATION AND MEASUREMENT TECHNOLOGY CONFERENCE PROCEEDINGS》 *
翟建伟: "基于深度Q网络算法与模型的研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
赵辉: "物联网环境下多智能体决策信息支持技术", 《数字通信世界》 *
郭勤: "基于深度强化学习的视频游戏决策模型研究与应用", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110275527A (zh) * 2019-05-29 2019-09-24 南京航空航天大学 一种基于改进拟态物理法的多智能体系统运动控制方法
CN110164151A (zh) * 2019-06-21 2019-08-23 西安电子科技大学 基于分布式深度循环q网络的交通灯控制方法
CN110442129A (zh) * 2019-07-26 2019-11-12 中南大学 一种多智能体编队的控制方法和系统
CN110442129B (zh) * 2019-07-26 2021-10-22 中南大学 一种多智能体编队的控制方法和系统
CN111144557A (zh) * 2019-12-31 2020-05-12 中国电子科技集团公司信息科学研究院 一种基于级联模式的动作策略方法
CN111514585A (zh) * 2020-03-17 2020-08-11 清华大学 智能体的控制方法及系统、计算机装置以及存储介质
CN113239513B (zh) * 2021-04-01 2023-06-30 中国电子科技集团公司信息科学研究院 多智能体的一致性分析方法、系统及应用
CN113239513A (zh) * 2021-04-01 2021-08-10 中国电子科技集团公司信息科学研究院 多智能体的一致性分析方法、系统及应用
CN113326902A (zh) * 2021-07-08 2021-08-31 中国人民解放军国防科技大学 基于在线学习的策略获取方法、装置及设备
CN113326902B (zh) * 2021-07-08 2021-11-05 中国人民解放军国防科技大学 基于在线学习的策略获取方法、装置及设备
CN113625757A (zh) * 2021-08-12 2021-11-09 中国电子科技集团公司第二十八研究所 一种基于强化学习和注意力机制的无人机群调度方法
CN113625757B (zh) * 2021-08-12 2023-10-24 中国电子科技集团公司第二十八研究所 一种基于强化学习和注意力机制的无人机群调度方法
CN114021737A (zh) * 2021-11-04 2022-02-08 中国电子科技集团公司信息科学研究院 一种基于博弈的强化学习方法、系统、终端及存储介质
CN114021737B (zh) * 2021-11-04 2023-08-22 中国电子科技集团公司信息科学研究院 一种基于博弈的强化学习方法、系统、终端及存储介质
CN114130034A (zh) * 2021-11-19 2022-03-04 天津大学 基于注意力机制与强化学习的多智能体游戏ai设计方法
CN114083539A (zh) * 2021-11-30 2022-02-25 哈尔滨工业大学 一种基于多智能体强化学习的机械臂抗干扰运动规划方法
CN114139637A (zh) * 2021-12-03 2022-03-04 哈尔滨工业大学(深圳) 多智能体信息融合方法、装置、电子设备及可读存储介质
CN114827138A (zh) * 2022-03-28 2022-07-29 中国电子科技集团公司第五十四研究所 一种基于全局信息的群体分布式协商方法
WO2024067113A1 (zh) * 2022-09-28 2024-04-04 华为技术有限公司 一种动作预测方法及其相关设备
CN115840892A (zh) * 2022-12-09 2023-03-24 中山大学 一种复杂环境下多智能体层次化自主决策方法及系统
CN115840892B (zh) * 2022-12-09 2024-04-19 中山大学 一种复杂环境下多智能体层次化自主决策方法及系统
CN117289668A (zh) * 2023-11-24 2023-12-26 深圳市陶氏精密技术有限公司 分布式减速机网络协同控制方法、装置、设备及存储介质
CN117289668B (zh) * 2023-11-24 2024-02-02 深圳市陶氏精密技术有限公司 分布式减速机网络协同控制方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN109726903B (zh) 2020-10-16

Similar Documents

Publication Publication Date Title
CN109726903A (zh) 基于注意力机制的分布式多智能体协同决策方法
CN110852448A (zh) 一种基于多智能体强化学习的合作型智能体的学习方法
CN109711529A (zh) 一种基于值迭代网络的跨领域联邦学习模型及方法
CN108846384A (zh) 融合视频感知的多任务协同识别方法及系统
CN109902798A (zh) 深度神经网络的训练方法和装置
Lv et al. The firefly algorithm with Gaussian disturbance and local search
CN103729680B (zh) 基于多智能体进化算法的rfid网络布局方法
CN113642233A (zh) 一种通信机制优化的群体智能协同方法
Tan et al. Proximal policy based deep reinforcement learning approach for swarm robots
CN102955948B (zh) 一种基于多智能体的分布式模式识别方法
Squazzoni et al. 20 Complexity-friendly policy modelling
Barreto et al. Modeling and analysis of video games based on workflow nets and state graphs
Stokke et al. Visioning (and preparing for) the future: The introduction of scenarios-based planning into Statoil
Guan et al. Ab-mapper: Attention and bicnet based multi-agent path planning for dynamic environment
Huang et al. Multi-agent cooperative strategy learning method based on transfer Learning
Hu et al. The Construction of the Development Mode of School-Enterprise Cooperation in Higher Vocational Education with the Aid of Sensitive Neural Network.
Xiang An improved firefly algorithm for numerical optimisation
Agrawal et al. Improved Krill Herd Algorithm with neighborhood distance concept for optimization
CN108965462B (zh) 基于群代理协同交互的共乘出行仿真系统及其实现方法
Tao et al. Benign: An automatic optimization framework for the logic of swarm behaviors
CN109766795A (zh) 基于循环神经网络的虚拟现实场景下人机交互方法及系统
Maheswaran et al. Multi-agent systems for the real world
Liu Artificial Intelligence and Its Application in Educational Industry
Chen et al. Stochastic Dynamic Power Dispatch With Human Knowledge Transfer Using Graph-GAN Assisted Inverse Reinforcement Learning
Zhang et al. Learning Cooperative Policies with Graph Networks in Distributed Swarm Systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant