CN109978176A - 一种基于状态动态感知的多智能体合作学习方法 - Google Patents

一种基于状态动态感知的多智能体合作学习方法 Download PDF

Info

Publication number
CN109978176A
CN109978176A CN201910162280.9A CN201910162280A CN109978176A CN 109978176 A CN109978176 A CN 109978176A CN 201910162280 A CN201910162280 A CN 201910162280A CN 109978176 A CN109978176 A CN 109978176A
Authority
CN
China
Prior art keywords
state
intelligent body
intelligent
multiple agent
dynamic sensing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910162280.9A
Other languages
English (en)
Other versions
CN109978176B (zh
Inventor
王桂鸿
史景伦
邓丽
张宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Weibo Intelligent Technology Co.,Ltd.
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201910162280.9A priority Critical patent/CN109978176B/zh
Publication of CN109978176A publication Critical patent/CN109978176A/zh
Application granted granted Critical
Publication of CN109978176B publication Critical patent/CN109978176B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种基于状态动态感知的多智能体合作学习方法,通过自主训练获得协调完成任务目标的多智能体控制系统,步骤如下:对各个智能体分别进行状态编码;对每个智能体构建一个动态感知层对其状态集合进行处理,将动态长度的状态集合映射成固定长度的特征;每个智能体的特征输入到各自带有通信单元的Q值网络,从网络输出中选取具有最大Q值的动作作为决策动作;各智能体将动作执行于环境,从环境中获取反馈奖励后,对所有智能体的动态感知层参数和Q值网络参数进行更新;使用上述框架训练多智能体,获得多智能体合作控制系统。本发明适用于要求动态数量游戏角色合作完成任务的游戏系统中,可作为游戏中多智能体的人工智能系统。

Description

一种基于状态动态感知的多智能体合作学习方法
技术领域
本发明涉及多智能体强化学习技术领域,具体涉及一种基于状态动态感知的多智能体合作学习方法。
背景技术
多智能体系统是由多个可计算的智能体组成的集合,通过协调具有自主能力的智能体,协同地完成一系列系统动作从而达到预定目标。多智能体系统广泛存在于现实生产生活中,如仓库机器人、工业组装机器人、网络自动化与智能化及分布式智能决策等。特别是在游戏中,多个游戏角色进行合作完成任务目标的情况非常普遍,游戏角色的人工智能系统也极大地影响游戏产品的质量。多智能体强化学习方法在游戏产品中的应用,一方面可以减少人工对人工智能代码的编写,提高游戏的开发效率;另一方面多智能体强化学习具有自学习的特点,能够根据游戏任务目标不断学习提高自身能力,具有较强的鲁棒性。
针对多智能体强化学习在游戏中的应用,目前提出的方法主要研究有以下三个方面。第一点是学习框架的研究,即采用集中式的多智能体学习框架,和采用分布式的多智能体学习框架。前者框架简单,但计算量大且集中,后者则通过分布式的计算方式提高计算效率。第二点是信度分配问题,即研究多智能体合作时的各智能体对整体目标的贡献度。第三点是多智能体间的通讯,主要是在分布式多智能体中,各智能体感知信息受限,如何通过学习有效的通信协议,以提高多智能体间的合作能力从而提高整体对目标的贡献。
上述的研究对多智能体强化学习在游戏中的应用起到了极大的推动作用。但游戏中的多智能体具有数量变化快的特点。在多智能体参与任务过程中,由于血量和道具等的使用,可以使智能体脱离任务或参与到新任务中;由于智能体的感知域有限,单个智能体空间的变化,也会使其它智能体的感知状态发生变化。在应用多智能体强化学习时,需要对这种动态变化处理成固定的特征,提高算法的稳定性。但过往的技术有的对智能体的数量进行截断,导致丢失部分信息;有的通过人工对动态变化状态进行提取,增加了人工成本投入且扩展性不强;有的则针对各种数量的情况单独训练模型,增加了计算的成本。
发明内容
本发明的目的是为了解决现有技术中的上述缺陷,提供了一种基于状态动态感知的多智能体合作学习方法,通过设计一个状态动态感知层,将智能体的动态长度状态映射成固定程度的特征,解决多智能体系统中出现的动态长度状态的问题;并且通过带有GRU通信层的Q网络,使动态数量的多智能体能够进行合作学习,通过训练达到完成任务目标的效果。
本发明的目的可以通过采取如下技术方案达到:
一种基于状态动态感知的多智能体合作学习方法,所述的多智能体合作学习方法包括以下步骤:
S1、对各个智能体分别进行状态编码,使每一个智能体形成具有动态长度的状态集合;
S2、对每个智能体,构建一个动态感知层对其状态集合进行处理,将动态长度的状态集合映射成为固定长度的特征;
S3、每个智能体的特征输入到各自带有通信单元的Q值网络,从Q值网络输出中选取具有最大Q值的动作作为决策动作;
S4、各智能体将动作执行于环境,从环境中获取反馈奖励后,对所有智能体的动态感知层参数和Q值网络参数进行更新;
S5、使用上述框架训练多智能体,从而获得具有完成既定任务目标的多智能体合作控制系统。
进一步地,所述的状态编码是对系统中单一实体的状态进行离散化或one-hot编码操作,形成其状态向量,包含有n个智能体的系统中,在某一个时间步t,对于智能体i,所述的状态集合由当前选择的智能体状态环境状态及其它智能体状态三部分组成,即各部分含义如下:
1)智能体状态向量由智能体i在时间步t的状态经过状态编码后形成的状态向量;
2)环境状态由该智能体i在时间步t感知到的m个环境实体经过状态编码后,将状态向量拼接组成矩阵此处环境实体指在系统中无法控制的实体,指智能体i在时间步t感知范围内的第k个环境实体的状态向量;
3)其它智能体状态由该智能体i感知到的l个其它智能体经过状态编码后,将状态向量拼接组成矩阵此处其它智能体指在系统中受控制的实体,指智能体i在时间步t感知范围内的第k个其它智能体的状态向量。
进一步地,所述的环境状态的长度m和所述的其它智能体状态的长度l随着智能体i时空的变化发生变化。
进一步地,所述的步骤S2中为每一个智能体构建一个动态感知层,所有智能体动态感知层的参数共享,所述的动态感知层包括k个感知核,每个感知核包含映射单元和注意力单元,对于智能体i,在时间步t,每个感知核对状态集合的处理过程分解为以下步骤:
S21、使用映射单元的权值矩阵与输入的状态进行以下计算:
其中,Wφe和Wφo是映射单元中分别处理的可学习权值矩阵;
S22、使用注意力单元的权值矩阵与输入的状态进行以下计算:
其中,Wαe和Wαo是注意力单元中分别处理的可学习权值矩阵,得到的输出权值其维度分别与相同;
S23、结合映射单元和注意力单元的输出结果,计算该感知核处理的最终结果:
状态集合经过每个感知核后都会输出一个和一个再将所有感知核的两个输出分别进行拼接,从而得到两个k维的向量,分别为环境状态的映射向量以及其它智能体状态的映射向量 是智能体自身的映射向量,Wg是对进行映射的可学习权值矩阵,最后将这三个向量进行拼接操作,得到智能体i后续网络的输入特征向量
进一步地,每个智能体的Q值网络参数共享,并且所述的Q值网络由三层构成,其中,第一、三层为全连接层,第二层是双向GRU组成的通信层,在时间步t,各智能体的输入特征向量在经过第一层全连接层处理后,按编号顺序依次经过双向GRU进行信息交换后,再各自经过第三层的全连接层,输出所有动作的Q值,从中选取Q值最大的动作作为最后的决策动作。
进一步地,所述的步骤S4中,对于智能体i,在某个时间步t接收到状态集合后,得到决策动作并执行于环境,等待所有智能体将选择的动作执行到环境中后,智能体i将获得奖励rt i和下一时间步的状态集合将同一时间步的所有智能体的四元组存储在较小的经验缓冲区中;
在每一个时间步中,从经验缓冲区中采样预设批大小个时间步的数据,对动态感知层参数和Q值网络参数采用梯度下降法进行更新,整个系统的损失函数为:
其中,E[]为期望,γ为衰减因子,Qi(s,a;θ)为智能体i的动态感知层和Q值网络构成的函数,θi表示智能体i的所有可学习参数。
进一步地,所述的步骤S5中,在环境中设置一定数量的智能体并设定任务目标后,基于步骤S1-S4建立的学习框架,在与环境的交互中采集数据并对多智能体进行训练,直至达到预定的训练步数或者一定窗口时间内的测试结果差别小于预定阈值,完成多智能体的学习过程。
本发明相对于现有技术具有如下的优点及效果:
本发明通过设计一个状态动态感知层,将智能体的动态长度状态映射成固定程度的特征,解决多智能体系统中出现的动态长度状态的问题;并且通过带有GRU通信层的Q网络,使动态数量的多智能体能够进行合作学习,通过训练达到完成任务目标的效果。
附图说明
图1是本发明基于状态动态感知的多智能体合作学习方法的模型框架图;
图2是本发明中动态感知层中单个感知核的处理流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
本实施例提供了一种基于状态动态感知的多智能体合作学习方法,以星际争霸2中的20marine vs 20marine的对战微操任务作为实例进行详细说明,每个智能体都会有感知限制,任务的最终目标是我方智能体合作战胜所有敌方实体,我方智能体每个时间步得到的奖励为该智能体造成的伤害与自身损失的血量之差。为了学习如何协调完成目标,可采用如图1所示的网络框架,具体包括以下步骤:
步骤S1、对各个智能体分别进行状态编码,使每一个智能体形成具有动态长度的状态集合;
其中,状态编码是对环境中的单一实体状态,例如位置值、个体编号、血量、武器冷却时间等进行离散化或one-hot编码等操作,形成其状态向量。本实施例的系统中包含有20个智能体,对于智能体i,i=1,2,...,20在某一个时间步t,状态集合由当前选择的智能体状态环境状态及其它智能体状态三部分组成,即各部分含义如下:
1)智能体状态向量由智能体i在时间步t的状态经过状态编码后形成的状态向量;
2)环境状态由该智能体i在时间步t感知到的m个环境实体经过状态编码后,将状态向量拼接组成矩阵此处环境实体指在系统中无法控制的实体,指智能体i在时间步t感知范围内的第k个环境实体的状态向量;
3)其它智能体状态由该智能体i感知到的l个其它智能体经过状态编码后,将状态向量拼接组成矩阵此处其它智能体指在系统中受控制的实体,指智能体i在时间步t感知范围内的第k个其它智能体的状态向量。
由于智能体感知能力有限,只能获取一定范围内的信息,并且随着战斗的进行,我方智能体或者敌方实体将因死亡而退出战斗,因此随着时空的变化,环境状态的长度m和其它智能体状态的长度l均有可能发生变化。
步骤S2、对每个智能体,构建一个动态感知层对其状态集合进行处理,将动态长度的状态集合映射成为固定长度的特征;
该步骤中,为每一个智能体构建一个动态感知层,所有智能体动态感知层的参数共享。所述的动态感知层主要由32个感知核组成,每个感知核包含映射单元和注意力单元,对于智能体i,在时间步t,每个感知核对状态集合的处理过程分解为以下步骤:
S21、使用映射单元的权值矩阵与输入的状态进行以下计算:
其中,Wφe和Wφo是映射单元中分别处理的可学习权值矩阵;
S22、使用注意力单元的权值矩阵与输入的状态进行以下计算:
其中,Wαe和Wαo是注意力单元中分别处理的可学习权值矩阵,得到的输出权值其维度分别与S21中的输出相同;
S23、结合映射单元和注意力单元的输出结果,计算该感知核处理的最终结果:
状态集合经过每个感知核后都会输出一个和一个再将所有感知核的两个输出分别进行拼接,从而得到两个32维的向量,分别为环境状态的映射向量以及其它智能体状态的映射向量另外,是智能体自身的映射向量,Wg是对进行映射的可学习权值矩阵。最后将这三个向量进行拼接操作,得到智能体i后续网络的输入特征向量
步骤S3、每个智能体的特征输入到各自带有通信单元的Q值网络,从网络输出中选取具有最大Q值的动作作为决策动作;
该步骤中,为每一个智能体构建一个Q值网络,所有智能体的Q值网络参数共享。其中,Q值网络由三层构成,第一、三层为全连接层,第二层是双向GRU组成的通信层。在时间步t,各智能体的输入特征向量在经过第一层全连接层处理后,按编号顺序依次经过双向GRU进行信息交换后,再各自经过第三层全连接层,输出所有动作的Q值,从中选取Q值最大的动作作为最后的决策动作。本实施例中,决策动作包括移动四个方向和攻击可视范围内血量最低敌方实体,共5个动作。
步骤S4、各智能体将动作执行于环境,从环境中获取反馈奖励后,对所有智能体的动态感知层参数和Q值网络参数进行更新;
该步骤中,对于智能体i,在某个时间步t接收到状态集合后,得到决策动作并执行于环境,等待所有智能体将选择的动作执行到环境中后,智能体i将获得奖励rt i和下一时间步的状态集合将同一时间步的所有智能体的四元组存储在大小为100的经验缓冲区中;
在每一个时间步中,从经验缓冲区中采样32个时间步的数据,对动态感知层参数和Q值网络参数采用梯度下降法进行更新。整个系统的损失函数为:
其中,E[]为期望,γ为衰减因子,大小为0.99,Qi(s,a;θ)为智能体i的动态感知层和Q值网络构成的函数,θi表示智能体i的所有可学习参数。
步骤S5、使用上述框架训练多智能体,从而获得具有完成既定任务目标的多智能体合作控制系统。
该步骤中,在环境中设置一定数量的智能体并设定任务目标后,基于前面步骤建立起的学习框架,在与环境的交互中采集数据并对多智能体进行训练,直至达到108步数或者相邻5次的测试胜率差保持在1%以内,完成多智能体的学习过程。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (7)

1.一种基于状态动态感知的多智能体合作学习方法,其特征在于,所述的多智能体合作学习方法包括以下步骤:
S1、对各个智能体分别进行状态编码,使每一个智能体形成具有动态长度的状态集合;
S2、对每个智能体,构建一个动态感知层对其状态集合进行处理,将动态长度的状态集合映射成为固定长度的特征;
S3、每个智能体的特征输入到各自带有通信单元的Q值网络,从Q值网络输出中选取具有最大Q值的动作作为决策动作;
S4、各智能体将动作执行于环境,从环境中获取反馈奖励后,对所有智能体的动态感知层参数和Q值网络参数进行更新;
S5、使用上述框架训练多智能体,从而获得具有完成既定任务目标的多智能体合作控制系统。
2.根据权利要求1所述的一种基于状态动态感知的多智能体合作学习方法,其特征在于,
所述的状态编码是对系统中单一实体的状态进行离散化或one-hot编码操作,形成其状态向量,包含有n个智能体的系统中,在某一个时间步t,对于智能体i,所述的状态集合由当前选择的智能体状态环境状态及其它智能体状态三部分组成,即各部分含义如下:
1)智能体状态向量由智能体i在时间步t的状态经过状态编码后形成的状态向量;
2)环境状态由该智能体i在时间步t感知到的m个环境实体经过状态编码后,将状态向量拼接组成矩阵此处环境实体指在系统中无法控制的实体,指智能体i在时间步t感知范围内的第k个环境实体的状态向量;
3)其它智能体状态由该智能体i感知到的l个其它智能体经过状态编码后,将状态向量拼接组成矩阵此处其它智能体指在系统中受控制的实体,指智能体i在时间步t感知范围内的第k个其它智能体的状态向量。
3.根据权利要求2所述的一种基于状态动态感知的多智能体合作学习方法,其特征在于,所述的环境状态的长度m和所述的其它智能体状态的长度l随着智能体i时空的变化发生变化。
4.根据权利要求2所述的一种基于状态动态感知的多智能体合作学习方法,其特征在于,
所述的步骤S2中为每一个智能体构建一个动态感知层,所有智能体动态感知层的参数共享,所述的动态感知层包括k个感知核,每个感知核包含映射单元和注意力单元,对于智能体i,在时间步t,每个感知核对状态集合的处理过程分解为以下步骤:
S21、使用映射单元的权值矩阵与输入的状态进行以下计算:
其中,Wφe和Wφo是映射单元中分别处理的可学习权值矩阵;
S22、使用注意力单元的权值矩阵与输入的状态进行以下计算:
其中,Wαe和Wαo是注意力单元中分别处理的可学习权值矩阵,得到的输出权值其维度分别与相同;
S23、结合映射单元和注意力单元的输出结果,计算该感知核处理的最终结果:
状态集合经过每个感知核后都会输出一个和一个再将所有感知核的两个输出分别进行拼接,从而得到两个k维的向量,分别为环境状态的映射向量以及其它智能体状态的映射向量 是智能体自身的映射向量,Wg是对进行映射的可学习权值矩阵,最后将这三个向量进行拼接操作,得到智能体i后续网络的输入特征向量
5.根据权利要求1所述的一种基于状态动态感知的多智能体合作学习方法,其特征在于,每个智能体的Q值网络参数共享,并且所述的Q值网络由三层构成,其中,第一、三层为全连接层,第二层是双向GRU组成的通信层,在时间步t,各智能体的输入特征向量在经过第一层全连接层处理后,按编号顺序依次经过双向GRU进行信息交换后,再各自经过第三层的全连接层,输出所有动作的Q值,从中选取Q值最大的动作作为最后的决策动作。
6.根据权利要求1所述的一种基于状态动态感知的多智能体合作学习方法,其特征在于,
所述的步骤S4中,对于智能体i,在某个时间步t接收到状态集合后,得到决策动作并执行于环境,等待所有智能体将选择的动作执行到环境中后,智能体i将获得奖励和下一时间步的状态集合将同一时间步的所有智能体的四元组存储在较小的经验缓冲区中;
在每一个时间步中,从经验缓冲区中采样预设批大小个时间步的数据,对动态感知层参数和Q值网络参数采用梯度下降法进行更新,整个系统的损失函数为:
其中,E[]为期望,γ为衰减因子,Qi(s,a;θ)为智能体i的动态感知层和Q值网络构成的函数,θi表示智能体i的所有可学习参数。
7.根据权利要求1所述的一种基于状态动态感知的多智能体合作学习方法,其特征在于,所述的步骤S5中,在环境中设置一定数量的智能体并设定任务目标后,基于步骤S1-S4建立的学习框架,在与环境的交互中采集数据并对多智能体进行训练,直至达到预定的训练步数或者一定窗口时间内的测试结果差别小于预定阈值,完成多智能体的学习过程。
CN201910162280.9A 2019-03-05 2019-03-05 一种基于状态动态感知的多智能体合作学习方法 Active CN109978176B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910162280.9A CN109978176B (zh) 2019-03-05 2019-03-05 一种基于状态动态感知的多智能体合作学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910162280.9A CN109978176B (zh) 2019-03-05 2019-03-05 一种基于状态动态感知的多智能体合作学习方法

Publications (2)

Publication Number Publication Date
CN109978176A true CN109978176A (zh) 2019-07-05
CN109978176B CN109978176B (zh) 2021-01-19

Family

ID=67077875

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910162280.9A Active CN109978176B (zh) 2019-03-05 2019-03-05 一种基于状态动态感知的多智能体合作学习方法

Country Status (1)

Country Link
CN (1) CN109978176B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111178496A (zh) * 2019-11-30 2020-05-19 浙江大学 多代理强化学习合作任务场景下的代理间交换知识的方法
CN111198966A (zh) * 2019-12-22 2020-05-26 同济大学 基于多智能体边界感知网络的自然语言视频片段检索方法
CN111432015A (zh) * 2020-03-31 2020-07-17 中国人民解放军国防科技大学 一种面向动态噪声环境的全覆盖任务分配方法
CN111514585A (zh) * 2020-03-17 2020-08-11 清华大学 智能体的控制方法及系统、计算机装置以及存储介质
CN111967199A (zh) * 2020-09-23 2020-11-20 浙江大学 一种强化学习多代理合作任务下的代理贡献分配的方法
CN112069662A (zh) * 2020-08-20 2020-12-11 北京仿真中心 一种基于人机混合增强的复杂产品自主构建方法和模块
CN112101564A (zh) * 2020-08-17 2020-12-18 清华大学 基于注意力机制的多智能体值函数分解方法及装置
CN112966641A (zh) * 2021-03-23 2021-06-15 中国电子科技集团公司电子科学研究院 一种对多传感器多目标的智能决策方法及存储介质
CN113110582A (zh) * 2021-04-22 2021-07-13 中国科学院重庆绿色智能技术研究院 无人机集群智能系统控制方法
CN113206786A (zh) * 2020-01-31 2021-08-03 华为技术有限公司 训练智能体的方法和装置
CN113377884A (zh) * 2021-07-08 2021-09-10 中央财经大学 基于多智能体增强学习的事件语料库提纯方法
CN113792844A (zh) * 2021-08-19 2021-12-14 中国人民解放军军事科学院国防科技创新研究院 基于深度自动编码和特征融合的智能体蜂拥行为控制方法
CN117997906A (zh) * 2024-03-29 2024-05-07 广东琴智科技研究院有限公司 节点计算资源分配方法、网络交换子系统及智能计算平台

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103716324A (zh) * 2013-12-31 2014-04-09 重庆邮电大学 一种基于多智能体虚拟矿井风险行为实现系统及方法
CN104680264A (zh) * 2015-03-27 2015-06-03 青岛大学 一种基于多智能体强化学习的运输车路径优化方法
US20160063992A1 (en) * 2014-08-29 2016-03-03 At&T Intellectual Property I, L.P. System and method for multi-agent architecture for interactive machines
US20180012137A1 (en) * 2015-11-24 2018-01-11 The Research Foundation for the State University New York Approximate value iteration with complex returns by bounding
CN108921298A (zh) * 2018-06-12 2018-11-30 中国科学技术大学 强化学习多智能体沟通与决策方法
CN109068350A (zh) * 2018-08-15 2018-12-21 西安电子科技大学 一种无线异构网络的终端自主选网系统及方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103716324A (zh) * 2013-12-31 2014-04-09 重庆邮电大学 一种基于多智能体虚拟矿井风险行为实现系统及方法
US20160063992A1 (en) * 2014-08-29 2016-03-03 At&T Intellectual Property I, L.P. System and method for multi-agent architecture for interactive machines
CN104680264A (zh) * 2015-03-27 2015-06-03 青岛大学 一种基于多智能体强化学习的运输车路径优化方法
US20180012137A1 (en) * 2015-11-24 2018-01-11 The Research Foundation for the State University New York Approximate value iteration with complex returns by bounding
CN108921298A (zh) * 2018-06-12 2018-11-30 中国科学技术大学 强化学习多智能体沟通与决策方法
CN109068350A (zh) * 2018-08-15 2018-12-21 西安电子科技大学 一种无线异构网络的终端自主选网系统及方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
ANDREI NICA ET.AL: "Learning to Maximize Return in a Stag Hunt Collaborative Scenario through Deep Reinforcement Learning", 《2017 19TH INTERNATIONAL SYMPOSIUM ON SYMBOLIC AND NUMERIC ALGORITHMS FOR SCIENTIFIC COMPUTING (SYNASC)》 *
JAYESH K. GUPTA ET.AL: "Cooperative Multi-agent Control Using Deep Reinforcement Learning", 《AUTONOMOUS AGENTS AND MULTIAGENT SYSTEMS》 *
XIAOYUAN LIANG ET AL: "A Deep Reinforcement Learning Network for Traffic Light Cycle Control", 《IEEE TRANSACTIONS ON VEHICULAR TECHNOLOGY》 *
张悦: "多智能体深度强化学习方法及应用研究", 《中国博士学位论文全文数据库 信息科技辑》 *

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111178496A (zh) * 2019-11-30 2020-05-19 浙江大学 多代理强化学习合作任务场景下的代理间交换知识的方法
WO2021103419A1 (zh) * 2019-11-30 2021-06-03 浙江大学 多代理强化学习合作任务场景下的代理间交换知识的方法
CN111198966A (zh) * 2019-12-22 2020-05-26 同济大学 基于多智能体边界感知网络的自然语言视频片段检索方法
CN111198966B (zh) * 2019-12-22 2023-09-26 同济大学 基于多智能体边界感知网络的自然语言视频片段检索方法
CN113206786A (zh) * 2020-01-31 2021-08-03 华为技术有限公司 训练智能体的方法和装置
CN111514585A (zh) * 2020-03-17 2020-08-11 清华大学 智能体的控制方法及系统、计算机装置以及存储介质
CN111432015A (zh) * 2020-03-31 2020-07-17 中国人民解放军国防科技大学 一种面向动态噪声环境的全覆盖任务分配方法
CN111432015B (zh) * 2020-03-31 2022-07-19 中国人民解放军国防科技大学 一种面向动态噪声环境的全覆盖任务分配方法
CN112101564B (zh) * 2020-08-17 2024-09-06 清华大学 基于注意力机制的多智能体值函数分解方法及装置
CN112101564A (zh) * 2020-08-17 2020-12-18 清华大学 基于注意力机制的多智能体值函数分解方法及装置
CN112069662A (zh) * 2020-08-20 2020-12-11 北京仿真中心 一种基于人机混合增强的复杂产品自主构建方法和模块
CN111967199B (zh) * 2020-09-23 2022-08-05 浙江大学 一种强化学习多代理合作任务下的代理贡献分配的方法
CN111967199A (zh) * 2020-09-23 2020-11-20 浙江大学 一种强化学习多代理合作任务下的代理贡献分配的方法
CN112966641A (zh) * 2021-03-23 2021-06-15 中国电子科技集团公司电子科学研究院 一种对多传感器多目标的智能决策方法及存储介质
CN113110582A (zh) * 2021-04-22 2021-07-13 中国科学院重庆绿色智能技术研究院 无人机集群智能系统控制方法
CN113110582B (zh) * 2021-04-22 2023-06-02 中国科学院重庆绿色智能技术研究院 无人机集群智能系统控制方法
CN113377884A (zh) * 2021-07-08 2021-09-10 中央财经大学 基于多智能体增强学习的事件语料库提纯方法
CN113792844A (zh) * 2021-08-19 2021-12-14 中国人民解放军军事科学院国防科技创新研究院 基于深度自动编码和特征融合的智能体蜂拥行为控制方法
CN113792844B (zh) * 2021-08-19 2023-07-25 中国人民解放军军事科学院国防科技创新研究院 基于深度自动编码和特征融合的智能体蜂拥行为控制方法
CN117997906A (zh) * 2024-03-29 2024-05-07 广东琴智科技研究院有限公司 节点计算资源分配方法、网络交换子系统及智能计算平台
CN117997906B (zh) * 2024-03-29 2024-06-11 广东琴智科技研究院有限公司 节点计算资源分配方法、网络交换子系统及智能计算平台

Also Published As

Publication number Publication date
CN109978176B (zh) 2021-01-19

Similar Documents

Publication Publication Date Title
CN109978176A (zh) 一种基于状态动态感知的多智能体合作学习方法
Shao et al. Starcraft micromanagement with reinforcement learning and curriculum transfer learning
CN108052004B (zh) 基于深度增强学习的工业机械臂自动控制方法
CN110968866B (zh) 一种面向深度强化学习模型对抗攻击的防御方法
CN109992000A (zh) 一种基于分层强化学习的多无人机路径协同规划方法及装置
CN110794842A (zh) 基于势场的强化学习路径规划算法
Tang et al. A lévy flight-based shuffled frog-leaping algorithm and its applications for continuous optimization problems
CN106778682A (zh) 一种卷积神经网络模型的训练方法及其设备
CN116382267B (zh) 一种基于多模态脉冲神经网络的机器人动态避障方法
CN108510058A (zh) 神经网络中的权重存储方法以及基于该方法的处理器
CN113627596A (zh) 基于动态图神经网络的多智能体对抗方法及系统
CN114077258A (zh) 一种基于强化学习ppo2算法的无人艇位姿控制方法
Shao et al. Cooperative reinforcement learning for multiple units combat in StarCraft
CN107890675A (zh) Ai行为实现方法和装置
CN116449863A (zh) 一种基于信息素的强化学习的无人机集群多目标搜索方法
CN113110101B (zh) 一种生产线移动机器人聚集式回收入库仿真方法及系统
Agah et al. Robots playing to win: evolutionary soccer strategies
CN108376283A (zh) 用于神经网络的池化装置和池化方法
Li et al. Adaptive scheduling for smart shop floor based on deep Q-network
CN115951711A (zh) 一种高海况环境下的无人集群多目标搜索和追捕方法
Liu Artificial Intelligence and Its Application in Educational Industry
Rafati et al. Learning sparse representations in reinforcement learning
Li et al. Research on Multi-robot Path Planning Method Based on Improved MADDPG Algorithm
Wu Research on the Development of Integration of Neuroscience and Artificial Intelligence
CN112926729B (zh) 人机对抗智能体策略制定方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220104

Address after: 528313 room 308a, floor 3, building 22, Shunlian Machinery City, No. 18, Xingye Fourth Road, Guanglong Industrial Park, Chihua community, Chencun Town, Shunde District, Foshan City, Guangdong Province

Patentee after: Guangdong Weibo Intelligent Technology Co.,Ltd.

Address before: 510640 No. five, 381 mountain road, Guangzhou, Guangdong, Tianhe District

Patentee before: SOUTH CHINA University OF TECHNOLOGY

TR01 Transfer of patent right