CN109978176A - 一种基于状态动态感知的多智能体合作学习方法 - Google Patents
一种基于状态动态感知的多智能体合作学习方法 Download PDFInfo
- Publication number
- CN109978176A CN109978176A CN201910162280.9A CN201910162280A CN109978176A CN 109978176 A CN109978176 A CN 109978176A CN 201910162280 A CN201910162280 A CN 201910162280A CN 109978176 A CN109978176 A CN 109978176A
- Authority
- CN
- China
- Prior art keywords
- state
- intelligent body
- intelligent
- multiple agent
- dynamic sensing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Image Analysis (AREA)
Abstract
本发明公开了一种基于状态动态感知的多智能体合作学习方法,通过自主训练获得协调完成任务目标的多智能体控制系统,步骤如下:对各个智能体分别进行状态编码;对每个智能体构建一个动态感知层对其状态集合进行处理,将动态长度的状态集合映射成固定长度的特征;每个智能体的特征输入到各自带有通信单元的Q值网络,从网络输出中选取具有最大Q值的动作作为决策动作;各智能体将动作执行于环境,从环境中获取反馈奖励后,对所有智能体的动态感知层参数和Q值网络参数进行更新;使用上述框架训练多智能体,获得多智能体合作控制系统。本发明适用于要求动态数量游戏角色合作完成任务的游戏系统中,可作为游戏中多智能体的人工智能系统。
Description
技术领域
本发明涉及多智能体强化学习技术领域,具体涉及一种基于状态动态感知的多智能体合作学习方法。
背景技术
多智能体系统是由多个可计算的智能体组成的集合,通过协调具有自主能力的智能体,协同地完成一系列系统动作从而达到预定目标。多智能体系统广泛存在于现实生产生活中,如仓库机器人、工业组装机器人、网络自动化与智能化及分布式智能决策等。特别是在游戏中,多个游戏角色进行合作完成任务目标的情况非常普遍,游戏角色的人工智能系统也极大地影响游戏产品的质量。多智能体强化学习方法在游戏产品中的应用,一方面可以减少人工对人工智能代码的编写,提高游戏的开发效率;另一方面多智能体强化学习具有自学习的特点,能够根据游戏任务目标不断学习提高自身能力,具有较强的鲁棒性。
针对多智能体强化学习在游戏中的应用,目前提出的方法主要研究有以下三个方面。第一点是学习框架的研究,即采用集中式的多智能体学习框架,和采用分布式的多智能体学习框架。前者框架简单,但计算量大且集中,后者则通过分布式的计算方式提高计算效率。第二点是信度分配问题,即研究多智能体合作时的各智能体对整体目标的贡献度。第三点是多智能体间的通讯,主要是在分布式多智能体中,各智能体感知信息受限,如何通过学习有效的通信协议,以提高多智能体间的合作能力从而提高整体对目标的贡献。
上述的研究对多智能体强化学习在游戏中的应用起到了极大的推动作用。但游戏中的多智能体具有数量变化快的特点。在多智能体参与任务过程中,由于血量和道具等的使用,可以使智能体脱离任务或参与到新任务中;由于智能体的感知域有限,单个智能体空间的变化,也会使其它智能体的感知状态发生变化。在应用多智能体强化学习时,需要对这种动态变化处理成固定的特征,提高算法的稳定性。但过往的技术有的对智能体的数量进行截断,导致丢失部分信息;有的通过人工对动态变化状态进行提取,增加了人工成本投入且扩展性不强;有的则针对各种数量的情况单独训练模型,增加了计算的成本。
发明内容
本发明的目的是为了解决现有技术中的上述缺陷,提供了一种基于状态动态感知的多智能体合作学习方法,通过设计一个状态动态感知层,将智能体的动态长度状态映射成固定程度的特征,解决多智能体系统中出现的动态长度状态的问题;并且通过带有GRU通信层的Q网络,使动态数量的多智能体能够进行合作学习,通过训练达到完成任务目标的效果。
本发明的目的可以通过采取如下技术方案达到:
一种基于状态动态感知的多智能体合作学习方法,所述的多智能体合作学习方法包括以下步骤:
S1、对各个智能体分别进行状态编码,使每一个智能体形成具有动态长度的状态集合;
S2、对每个智能体,构建一个动态感知层对其状态集合进行处理,将动态长度的状态集合映射成为固定长度的特征;
S3、每个智能体的特征输入到各自带有通信单元的Q值网络,从Q值网络输出中选取具有最大Q值的动作作为决策动作;
S4、各智能体将动作执行于环境,从环境中获取反馈奖励后,对所有智能体的动态感知层参数和Q值网络参数进行更新;
S5、使用上述框架训练多智能体,从而获得具有完成既定任务目标的多智能体合作控制系统。
进一步地,所述的状态编码是对系统中单一实体的状态进行离散化或one-hot编码操作,形成其状态向量,包含有n个智能体的系统中,在某一个时间步t,对于智能体i,所述的状态集合由当前选择的智能体状态环境状态及其它智能体状态三部分组成,即各部分含义如下:
1)智能体状态向量由智能体i在时间步t的状态经过状态编码后形成的状态向量;
2)环境状态由该智能体i在时间步t感知到的m个环境实体经过状态编码后,将状态向量拼接组成矩阵此处环境实体指在系统中无法控制的实体,指智能体i在时间步t感知范围内的第k个环境实体的状态向量;
3)其它智能体状态由该智能体i感知到的l个其它智能体经过状态编码后,将状态向量拼接组成矩阵此处其它智能体指在系统中受控制的实体,指智能体i在时间步t感知范围内的第k个其它智能体的状态向量。
进一步地,所述的环境状态的长度m和所述的其它智能体状态的长度l随着智能体i时空的变化发生变化。
进一步地,所述的步骤S2中为每一个智能体构建一个动态感知层,所有智能体动态感知层的参数共享,所述的动态感知层包括k个感知核,每个感知核包含映射单元和注意力单元,对于智能体i,在时间步t,每个感知核对状态集合的处理过程分解为以下步骤:
S21、使用映射单元的权值矩阵与输入的状态进行以下计算:
其中,Wφe和Wφo是映射单元中分别处理和的可学习权值矩阵;
S22、使用注意力单元的权值矩阵与输入的状态进行以下计算:
其中,Wαe和Wαo是注意力单元中分别处理和的可学习权值矩阵,得到的输出权值和其维度分别与和相同;
S23、结合映射单元和注意力单元的输出结果,计算该感知核处理的最终结果:
状态集合经过每个感知核后都会输出一个和一个再将所有感知核的两个输出分别进行拼接,从而得到两个k维的向量,分别为环境状态的映射向量以及其它智能体状态的映射向量 是智能体自身的映射向量,Wg是对进行映射的可学习权值矩阵,最后将这三个向量进行拼接操作,得到智能体i后续网络的输入特征向量
进一步地,每个智能体的Q值网络参数共享,并且所述的Q值网络由三层构成,其中,第一、三层为全连接层,第二层是双向GRU组成的通信层,在时间步t,各智能体的输入特征向量在经过第一层全连接层处理后,按编号顺序依次经过双向GRU进行信息交换后,再各自经过第三层的全连接层,输出所有动作的Q值,从中选取Q值最大的动作作为最后的决策动作。
进一步地,所述的步骤S4中,对于智能体i,在某个时间步t接收到状态集合后,得到决策动作并执行于环境,等待所有智能体将选择的动作执行到环境中后,智能体i将获得奖励rt i和下一时间步的状态集合将同一时间步的所有智能体的四元组存储在较小的经验缓冲区中;
在每一个时间步中,从经验缓冲区中采样预设批大小个时间步的数据,对动态感知层参数和Q值网络参数采用梯度下降法进行更新,整个系统的损失函数为:
其中,E[]为期望,γ为衰减因子,Qi(s,a;θ)为智能体i的动态感知层和Q值网络构成的函数,θi表示智能体i的所有可学习参数。
进一步地,所述的步骤S5中,在环境中设置一定数量的智能体并设定任务目标后,基于步骤S1-S4建立的学习框架,在与环境的交互中采集数据并对多智能体进行训练,直至达到预定的训练步数或者一定窗口时间内的测试结果差别小于预定阈值,完成多智能体的学习过程。
本发明相对于现有技术具有如下的优点及效果:
本发明通过设计一个状态动态感知层,将智能体的动态长度状态映射成固定程度的特征,解决多智能体系统中出现的动态长度状态的问题;并且通过带有GRU通信层的Q网络,使动态数量的多智能体能够进行合作学习,通过训练达到完成任务目标的效果。
附图说明
图1是本发明基于状态动态感知的多智能体合作学习方法的模型框架图;
图2是本发明中动态感知层中单个感知核的处理流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
本实施例提供了一种基于状态动态感知的多智能体合作学习方法,以星际争霸2中的20marine vs 20marine的对战微操任务作为实例进行详细说明,每个智能体都会有感知限制,任务的最终目标是我方智能体合作战胜所有敌方实体,我方智能体每个时间步得到的奖励为该智能体造成的伤害与自身损失的血量之差。为了学习如何协调完成目标,可采用如图1所示的网络框架,具体包括以下步骤:
步骤S1、对各个智能体分别进行状态编码,使每一个智能体形成具有动态长度的状态集合;
其中,状态编码是对环境中的单一实体状态,例如位置值、个体编号、血量、武器冷却时间等进行离散化或one-hot编码等操作,形成其状态向量。本实施例的系统中包含有20个智能体,对于智能体i,i=1,2,...,20在某一个时间步t,状态集合由当前选择的智能体状态环境状态及其它智能体状态三部分组成,即各部分含义如下:
1)智能体状态向量由智能体i在时间步t的状态经过状态编码后形成的状态向量;
2)环境状态由该智能体i在时间步t感知到的m个环境实体经过状态编码后,将状态向量拼接组成矩阵此处环境实体指在系统中无法控制的实体,指智能体i在时间步t感知范围内的第k个环境实体的状态向量;
3)其它智能体状态由该智能体i感知到的l个其它智能体经过状态编码后,将状态向量拼接组成矩阵此处其它智能体指在系统中受控制的实体,指智能体i在时间步t感知范围内的第k个其它智能体的状态向量。
由于智能体感知能力有限,只能获取一定范围内的信息,并且随着战斗的进行,我方智能体或者敌方实体将因死亡而退出战斗,因此随着时空的变化,环境状态的长度m和其它智能体状态的长度l均有可能发生变化。
步骤S2、对每个智能体,构建一个动态感知层对其状态集合进行处理,将动态长度的状态集合映射成为固定长度的特征;
该步骤中,为每一个智能体构建一个动态感知层,所有智能体动态感知层的参数共享。所述的动态感知层主要由32个感知核组成,每个感知核包含映射单元和注意力单元,对于智能体i,在时间步t,每个感知核对状态集合的处理过程分解为以下步骤:
S21、使用映射单元的权值矩阵与输入的状态进行以下计算:
其中,Wφe和Wφo是映射单元中分别处理和的可学习权值矩阵;
S22、使用注意力单元的权值矩阵与输入的状态进行以下计算:
其中,Wαe和Wαo是注意力单元中分别处理和的可学习权值矩阵,得到的输出权值和其维度分别与S21中的输出和相同;
S23、结合映射单元和注意力单元的输出结果,计算该感知核处理的最终结果:
状态集合经过每个感知核后都会输出一个和一个再将所有感知核的两个输出分别进行拼接,从而得到两个32维的向量,分别为环境状态的映射向量以及其它智能体状态的映射向量另外,是智能体自身的映射向量,Wg是对进行映射的可学习权值矩阵。最后将这三个向量进行拼接操作,得到智能体i后续网络的输入特征向量
步骤S3、每个智能体的特征输入到各自带有通信单元的Q值网络,从网络输出中选取具有最大Q值的动作作为决策动作;
该步骤中,为每一个智能体构建一个Q值网络,所有智能体的Q值网络参数共享。其中,Q值网络由三层构成,第一、三层为全连接层,第二层是双向GRU组成的通信层。在时间步t,各智能体的输入特征向量在经过第一层全连接层处理后,按编号顺序依次经过双向GRU进行信息交换后,再各自经过第三层全连接层,输出所有动作的Q值,从中选取Q值最大的动作作为最后的决策动作。本实施例中,决策动作包括移动四个方向和攻击可视范围内血量最低敌方实体,共5个动作。
步骤S4、各智能体将动作执行于环境,从环境中获取反馈奖励后,对所有智能体的动态感知层参数和Q值网络参数进行更新;
该步骤中,对于智能体i,在某个时间步t接收到状态集合后,得到决策动作并执行于环境,等待所有智能体将选择的动作执行到环境中后,智能体i将获得奖励rt i和下一时间步的状态集合将同一时间步的所有智能体的四元组存储在大小为100的经验缓冲区中;
在每一个时间步中,从经验缓冲区中采样32个时间步的数据,对动态感知层参数和Q值网络参数采用梯度下降法进行更新。整个系统的损失函数为:
其中,E[]为期望,γ为衰减因子,大小为0.99,Qi(s,a;θ)为智能体i的动态感知层和Q值网络构成的函数,θi表示智能体i的所有可学习参数。
步骤S5、使用上述框架训练多智能体,从而获得具有完成既定任务目标的多智能体合作控制系统。
该步骤中,在环境中设置一定数量的智能体并设定任务目标后,基于前面步骤建立起的学习框架,在与环境的交互中采集数据并对多智能体进行训练,直至达到108步数或者相邻5次的测试胜率差保持在1%以内,完成多智能体的学习过程。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (7)
1.一种基于状态动态感知的多智能体合作学习方法,其特征在于,所述的多智能体合作学习方法包括以下步骤:
S1、对各个智能体分别进行状态编码,使每一个智能体形成具有动态长度的状态集合;
S2、对每个智能体,构建一个动态感知层对其状态集合进行处理,将动态长度的状态集合映射成为固定长度的特征;
S3、每个智能体的特征输入到各自带有通信单元的Q值网络,从Q值网络输出中选取具有最大Q值的动作作为决策动作;
S4、各智能体将动作执行于环境,从环境中获取反馈奖励后,对所有智能体的动态感知层参数和Q值网络参数进行更新;
S5、使用上述框架训练多智能体,从而获得具有完成既定任务目标的多智能体合作控制系统。
2.根据权利要求1所述的一种基于状态动态感知的多智能体合作学习方法,其特征在于,
所述的状态编码是对系统中单一实体的状态进行离散化或one-hot编码操作,形成其状态向量,包含有n个智能体的系统中,在某一个时间步t,对于智能体i,所述的状态集合由当前选择的智能体状态环境状态及其它智能体状态三部分组成,即各部分含义如下:
1)智能体状态向量由智能体i在时间步t的状态经过状态编码后形成的状态向量;
2)环境状态由该智能体i在时间步t感知到的m个环境实体经过状态编码后,将状态向量拼接组成矩阵此处环境实体指在系统中无法控制的实体,指智能体i在时间步t感知范围内的第k个环境实体的状态向量;
3)其它智能体状态由该智能体i感知到的l个其它智能体经过状态编码后,将状态向量拼接组成矩阵此处其它智能体指在系统中受控制的实体,指智能体i在时间步t感知范围内的第k个其它智能体的状态向量。
3.根据权利要求2所述的一种基于状态动态感知的多智能体合作学习方法,其特征在于,所述的环境状态的长度m和所述的其它智能体状态的长度l随着智能体i时空的变化发生变化。
4.根据权利要求2所述的一种基于状态动态感知的多智能体合作学习方法,其特征在于,
所述的步骤S2中为每一个智能体构建一个动态感知层,所有智能体动态感知层的参数共享,所述的动态感知层包括k个感知核,每个感知核包含映射单元和注意力单元,对于智能体i,在时间步t,每个感知核对状态集合的处理过程分解为以下步骤:
S21、使用映射单元的权值矩阵与输入的状态进行以下计算:
其中,Wφe和Wφo是映射单元中分别处理和的可学习权值矩阵;
S22、使用注意力单元的权值矩阵与输入的状态进行以下计算:
其中,Wαe和Wαo是注意力单元中分别处理和的可学习权值矩阵,得到的输出权值和其维度分别与和相同;
S23、结合映射单元和注意力单元的输出结果,计算该感知核处理的最终结果:
状态集合经过每个感知核后都会输出一个和一个再将所有感知核的两个输出分别进行拼接,从而得到两个k维的向量,分别为环境状态的映射向量以及其它智能体状态的映射向量 是智能体自身的映射向量,Wg是对进行映射的可学习权值矩阵,最后将这三个向量进行拼接操作,得到智能体i后续网络的输入特征向量
5.根据权利要求1所述的一种基于状态动态感知的多智能体合作学习方法,其特征在于,每个智能体的Q值网络参数共享,并且所述的Q值网络由三层构成,其中,第一、三层为全连接层,第二层是双向GRU组成的通信层,在时间步t,各智能体的输入特征向量在经过第一层全连接层处理后,按编号顺序依次经过双向GRU进行信息交换后,再各自经过第三层的全连接层,输出所有动作的Q值,从中选取Q值最大的动作作为最后的决策动作。
6.根据权利要求1所述的一种基于状态动态感知的多智能体合作学习方法,其特征在于,
所述的步骤S4中,对于智能体i,在某个时间步t接收到状态集合后,得到决策动作并执行于环境,等待所有智能体将选择的动作执行到环境中后,智能体i将获得奖励和下一时间步的状态集合将同一时间步的所有智能体的四元组存储在较小的经验缓冲区中;
在每一个时间步中,从经验缓冲区中采样预设批大小个时间步的数据,对动态感知层参数和Q值网络参数采用梯度下降法进行更新,整个系统的损失函数为:
其中,E[]为期望,γ为衰减因子,Qi(s,a;θ)为智能体i的动态感知层和Q值网络构成的函数,θi表示智能体i的所有可学习参数。
7.根据权利要求1所述的一种基于状态动态感知的多智能体合作学习方法,其特征在于,所述的步骤S5中,在环境中设置一定数量的智能体并设定任务目标后,基于步骤S1-S4建立的学习框架,在与环境的交互中采集数据并对多智能体进行训练,直至达到预定的训练步数或者一定窗口时间内的测试结果差别小于预定阈值,完成多智能体的学习过程。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910162280.9A CN109978176B (zh) | 2019-03-05 | 2019-03-05 | 一种基于状态动态感知的多智能体合作学习方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910162280.9A CN109978176B (zh) | 2019-03-05 | 2019-03-05 | 一种基于状态动态感知的多智能体合作学习方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109978176A true CN109978176A (zh) | 2019-07-05 |
CN109978176B CN109978176B (zh) | 2021-01-19 |
Family
ID=67077875
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910162280.9A Active CN109978176B (zh) | 2019-03-05 | 2019-03-05 | 一种基于状态动态感知的多智能体合作学习方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109978176B (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111178496A (zh) * | 2019-11-30 | 2020-05-19 | 浙江大学 | 多代理强化学习合作任务场景下的代理间交换知识的方法 |
CN111198966A (zh) * | 2019-12-22 | 2020-05-26 | 同济大学 | 基于多智能体边界感知网络的自然语言视频片段检索方法 |
CN111432015A (zh) * | 2020-03-31 | 2020-07-17 | 中国人民解放军国防科技大学 | 一种面向动态噪声环境的全覆盖任务分配方法 |
CN111514585A (zh) * | 2020-03-17 | 2020-08-11 | 清华大学 | 智能体的控制方法及系统、计算机装置以及存储介质 |
CN111967199A (zh) * | 2020-09-23 | 2020-11-20 | 浙江大学 | 一种强化学习多代理合作任务下的代理贡献分配的方法 |
CN112069662A (zh) * | 2020-08-20 | 2020-12-11 | 北京仿真中心 | 一种基于人机混合增强的复杂产品自主构建方法和模块 |
CN112101564A (zh) * | 2020-08-17 | 2020-12-18 | 清华大学 | 基于注意力机制的多智能体值函数分解方法及装置 |
CN112966641A (zh) * | 2021-03-23 | 2021-06-15 | 中国电子科技集团公司电子科学研究院 | 一种对多传感器多目标的智能决策方法及存储介质 |
CN113110582A (zh) * | 2021-04-22 | 2021-07-13 | 中国科学院重庆绿色智能技术研究院 | 无人机集群智能系统控制方法 |
CN113206786A (zh) * | 2020-01-31 | 2021-08-03 | 华为技术有限公司 | 训练智能体的方法和装置 |
CN113377884A (zh) * | 2021-07-08 | 2021-09-10 | 中央财经大学 | 基于多智能体增强学习的事件语料库提纯方法 |
CN113792844A (zh) * | 2021-08-19 | 2021-12-14 | 中国人民解放军军事科学院国防科技创新研究院 | 基于深度自动编码和特征融合的智能体蜂拥行为控制方法 |
CN117997906A (zh) * | 2024-03-29 | 2024-05-07 | 广东琴智科技研究院有限公司 | 节点计算资源分配方法、网络交换子系统及智能计算平台 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103716324A (zh) * | 2013-12-31 | 2014-04-09 | 重庆邮电大学 | 一种基于多智能体虚拟矿井风险行为实现系统及方法 |
CN104680264A (zh) * | 2015-03-27 | 2015-06-03 | 青岛大学 | 一种基于多智能体强化学习的运输车路径优化方法 |
US20160063992A1 (en) * | 2014-08-29 | 2016-03-03 | At&T Intellectual Property I, L.P. | System and method for multi-agent architecture for interactive machines |
US20180012137A1 (en) * | 2015-11-24 | 2018-01-11 | The Research Foundation for the State University New York | Approximate value iteration with complex returns by bounding |
CN108921298A (zh) * | 2018-06-12 | 2018-11-30 | 中国科学技术大学 | 强化学习多智能体沟通与决策方法 |
CN109068350A (zh) * | 2018-08-15 | 2018-12-21 | 西安电子科技大学 | 一种无线异构网络的终端自主选网系统及方法 |
-
2019
- 2019-03-05 CN CN201910162280.9A patent/CN109978176B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103716324A (zh) * | 2013-12-31 | 2014-04-09 | 重庆邮电大学 | 一种基于多智能体虚拟矿井风险行为实现系统及方法 |
US20160063992A1 (en) * | 2014-08-29 | 2016-03-03 | At&T Intellectual Property I, L.P. | System and method for multi-agent architecture for interactive machines |
CN104680264A (zh) * | 2015-03-27 | 2015-06-03 | 青岛大学 | 一种基于多智能体强化学习的运输车路径优化方法 |
US20180012137A1 (en) * | 2015-11-24 | 2018-01-11 | The Research Foundation for the State University New York | Approximate value iteration with complex returns by bounding |
CN108921298A (zh) * | 2018-06-12 | 2018-11-30 | 中国科学技术大学 | 强化学习多智能体沟通与决策方法 |
CN109068350A (zh) * | 2018-08-15 | 2018-12-21 | 西安电子科技大学 | 一种无线异构网络的终端自主选网系统及方法 |
Non-Patent Citations (4)
Title |
---|
ANDREI NICA ET.AL: "Learning to Maximize Return in a Stag Hunt Collaborative Scenario through Deep Reinforcement Learning", 《2017 19TH INTERNATIONAL SYMPOSIUM ON SYMBOLIC AND NUMERIC ALGORITHMS FOR SCIENTIFIC COMPUTING (SYNASC)》 * |
JAYESH K. GUPTA ET.AL: "Cooperative Multi-agent Control Using Deep Reinforcement Learning", 《AUTONOMOUS AGENTS AND MULTIAGENT SYSTEMS》 * |
XIAOYUAN LIANG ET AL: "A Deep Reinforcement Learning Network for Traffic Light Cycle Control", 《IEEE TRANSACTIONS ON VEHICULAR TECHNOLOGY》 * |
张悦: "多智能体深度强化学习方法及应用研究", 《中国博士学位论文全文数据库 信息科技辑》 * |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111178496A (zh) * | 2019-11-30 | 2020-05-19 | 浙江大学 | 多代理强化学习合作任务场景下的代理间交换知识的方法 |
WO2021103419A1 (zh) * | 2019-11-30 | 2021-06-03 | 浙江大学 | 多代理强化学习合作任务场景下的代理间交换知识的方法 |
CN111198966A (zh) * | 2019-12-22 | 2020-05-26 | 同济大学 | 基于多智能体边界感知网络的自然语言视频片段检索方法 |
CN111198966B (zh) * | 2019-12-22 | 2023-09-26 | 同济大学 | 基于多智能体边界感知网络的自然语言视频片段检索方法 |
CN113206786A (zh) * | 2020-01-31 | 2021-08-03 | 华为技术有限公司 | 训练智能体的方法和装置 |
CN111514585A (zh) * | 2020-03-17 | 2020-08-11 | 清华大学 | 智能体的控制方法及系统、计算机装置以及存储介质 |
CN111432015A (zh) * | 2020-03-31 | 2020-07-17 | 中国人民解放军国防科技大学 | 一种面向动态噪声环境的全覆盖任务分配方法 |
CN111432015B (zh) * | 2020-03-31 | 2022-07-19 | 中国人民解放军国防科技大学 | 一种面向动态噪声环境的全覆盖任务分配方法 |
CN112101564B (zh) * | 2020-08-17 | 2024-09-06 | 清华大学 | 基于注意力机制的多智能体值函数分解方法及装置 |
CN112101564A (zh) * | 2020-08-17 | 2020-12-18 | 清华大学 | 基于注意力机制的多智能体值函数分解方法及装置 |
CN112069662A (zh) * | 2020-08-20 | 2020-12-11 | 北京仿真中心 | 一种基于人机混合增强的复杂产品自主构建方法和模块 |
CN111967199B (zh) * | 2020-09-23 | 2022-08-05 | 浙江大学 | 一种强化学习多代理合作任务下的代理贡献分配的方法 |
CN111967199A (zh) * | 2020-09-23 | 2020-11-20 | 浙江大学 | 一种强化学习多代理合作任务下的代理贡献分配的方法 |
CN112966641A (zh) * | 2021-03-23 | 2021-06-15 | 中国电子科技集团公司电子科学研究院 | 一种对多传感器多目标的智能决策方法及存储介质 |
CN113110582A (zh) * | 2021-04-22 | 2021-07-13 | 中国科学院重庆绿色智能技术研究院 | 无人机集群智能系统控制方法 |
CN113110582B (zh) * | 2021-04-22 | 2023-06-02 | 中国科学院重庆绿色智能技术研究院 | 无人机集群智能系统控制方法 |
CN113377884A (zh) * | 2021-07-08 | 2021-09-10 | 中央财经大学 | 基于多智能体增强学习的事件语料库提纯方法 |
CN113792844A (zh) * | 2021-08-19 | 2021-12-14 | 中国人民解放军军事科学院国防科技创新研究院 | 基于深度自动编码和特征融合的智能体蜂拥行为控制方法 |
CN113792844B (zh) * | 2021-08-19 | 2023-07-25 | 中国人民解放军军事科学院国防科技创新研究院 | 基于深度自动编码和特征融合的智能体蜂拥行为控制方法 |
CN117997906A (zh) * | 2024-03-29 | 2024-05-07 | 广东琴智科技研究院有限公司 | 节点计算资源分配方法、网络交换子系统及智能计算平台 |
CN117997906B (zh) * | 2024-03-29 | 2024-06-11 | 广东琴智科技研究院有限公司 | 节点计算资源分配方法、网络交换子系统及智能计算平台 |
Also Published As
Publication number | Publication date |
---|---|
CN109978176B (zh) | 2021-01-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109978176A (zh) | 一种基于状态动态感知的多智能体合作学习方法 | |
Shao et al. | Starcraft micromanagement with reinforcement learning and curriculum transfer learning | |
CN108052004B (zh) | 基于深度增强学习的工业机械臂自动控制方法 | |
CN110968866B (zh) | 一种面向深度强化学习模型对抗攻击的防御方法 | |
CN109992000A (zh) | 一种基于分层强化学习的多无人机路径协同规划方法及装置 | |
CN110794842A (zh) | 基于势场的强化学习路径规划算法 | |
Tang et al. | A lévy flight-based shuffled frog-leaping algorithm and its applications for continuous optimization problems | |
CN106778682A (zh) | 一种卷积神经网络模型的训练方法及其设备 | |
CN116382267B (zh) | 一种基于多模态脉冲神经网络的机器人动态避障方法 | |
CN108510058A (zh) | 神经网络中的权重存储方法以及基于该方法的处理器 | |
CN113627596A (zh) | 基于动态图神经网络的多智能体对抗方法及系统 | |
CN114077258A (zh) | 一种基于强化学习ppo2算法的无人艇位姿控制方法 | |
Shao et al. | Cooperative reinforcement learning for multiple units combat in StarCraft | |
CN107890675A (zh) | Ai行为实现方法和装置 | |
CN116449863A (zh) | 一种基于信息素的强化学习的无人机集群多目标搜索方法 | |
CN113110101B (zh) | 一种生产线移动机器人聚集式回收入库仿真方法及系统 | |
Agah et al. | Robots playing to win: evolutionary soccer strategies | |
CN108376283A (zh) | 用于神经网络的池化装置和池化方法 | |
Li et al. | Adaptive scheduling for smart shop floor based on deep Q-network | |
CN115951711A (zh) | 一种高海况环境下的无人集群多目标搜索和追捕方法 | |
Liu | Artificial Intelligence and Its Application in Educational Industry | |
Rafati et al. | Learning sparse representations in reinforcement learning | |
Li et al. | Research on Multi-robot Path Planning Method Based on Improved MADDPG Algorithm | |
Wu | Research on the Development of Integration of Neuroscience and Artificial Intelligence | |
CN112926729B (zh) | 人机对抗智能体策略制定方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20220104 Address after: 528313 room 308a, floor 3, building 22, Shunlian Machinery City, No. 18, Xingye Fourth Road, Guanglong Industrial Park, Chihua community, Chencun Town, Shunde District, Foshan City, Guangdong Province Patentee after: Guangdong Weibo Intelligent Technology Co.,Ltd. Address before: 510640 No. five, 381 mountain road, Guangzhou, Guangdong, Tianhe District Patentee before: SOUTH CHINA University OF TECHNOLOGY |
|
TR01 | Transfer of patent right |