CN110084375A - 一种基于深度强化学习的多agent协作框架 - Google Patents
一种基于深度强化学习的多agent协作框架 Download PDFInfo
- Publication number
- CN110084375A CN110084375A CN201910347694.9A CN201910347694A CN110084375A CN 110084375 A CN110084375 A CN 110084375A CN 201910347694 A CN201910347694 A CN 201910347694A CN 110084375 A CN110084375 A CN 110084375A
- Authority
- CN
- China
- Prior art keywords
- agent
- state
- billboard
- critic
- actor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明公开一种基于深度强化学习的多agent协作框架,其包括agent,billboard,基于actor‑critic的深度强化学习模块以及下一时刻状态计算模块。agent由当前状态、速度和期望目标定义;billboard负责信息的存储、更新和传递;基于Actor‑Critic的深度强化学习模块中actor根据当前环境状态和agent自身状态选择合适动作,并通过Critic结合各agent的状态序列给出的评价不断进行训练学习,从而获取最优控制策略;下一时刻状态计算模块根据各agent的当前状态和采取的动作分别计算各agent下一时刻的状态,并与billboard进行交互。本发明提出的基于深度强化学习的多agent协作框架具有较好的可扩展性和较强的通用性,可以为实现多样的多agent协作提供技术方案。
Description
技术领域:
本发明涉及虚拟现实及人工智能领域,具体涉及一种基于深度强化学习的多agent协作框架。
背景技术:
多agent(即智能体)系统能够解决复杂、分布式的问题,在速度、可靠性、灵活性和可维护性方面具有优势,一直是人工智能领域的研究重点,强化学习由于不需要环境建模,已成为多agent协作的主要研究方法,但是其在求解具有连续状态和动作空间的多agent协作时仍面临诸多挑战,例如存在“维数灾难”和学习效率不高的问题。近年来,随着人工智能技术的飞速发展,深度强化学习越来越得到广泛关注,由于其在机器人控制、参数优化、机器视觉、游戏等领域有着广泛的应用前景,并且通过引入深度神经网络解决了强化学习固有的问题,因此被认为是迈向通用人工智能的重要途径。
在多agent强化学习中,一个agent的策略会影响其他agent的决策,如果将其忽略,把其他agent与环境的互动作为自己局部环境的一部分,那么这些局部环境是非稳态和非马尔可夫的,会导致算法缺乏收敛性,因此,为了保证多agent强化学习系统的稳定性,解决环境部分可观测的问题,并进一步实现多agent之间竞争、协作等多样化的交互,本发明研究基于深度强化学习的多agent协作框架。通过本发明的研究,不仅可以求解具有连续状态和动作空间的多agent协作问题,避免维数灾难,而且通过为每个agent定义不同的奖励函数,可以为仿真多agent间的协作或竞争行为提供新方法和新思路。综上所述,研究基于深度强化学习的多agent协作框架具有重要的理论意义和工程应用价值。
发明内容
本发明的目的是克服具有连续状态和动作空间的多agent协作所存在的维数灾难以及多agent强化学习中环境部分可观测所导致的算法缺乏收敛性的缺陷,从而提供一种基于深度强化学习的多agent协作框架,为实现多agent间的协作或竞争行为仿真提供技术手段。
为了实现上述目的,本发明提供了一种基于深度强化学习的多agent协作框架,包括agent(即:智能体),billboard(即:黑板),基于Actor-Critic(即:演员-评论家算法)的深度强化学习模块以及下一时刻状态计算模块,其中:
所述的agent由当前状态、速度和期望目标定义和描述;
所述的billboard对各agent的状态序列、当前时间步采取的动作以及各agent下一时刻的状态进行存储,并进行相关信息的传递,以实现agent之间的信息交互;
所述的基于Actor-Critic的深度强化学习模块根据当前环境状态和agent的自身状态,通过不断训练网络参数,为agent提供最优控制策略;
所述的下一时刻状态计算模块根据各agent的当前状态和采取的动作分别计算各agent下一时刻的状态。
所述的agent为所述的billboard、所述的基于Actor-Critic的深度强化学习模块和所述的下一时刻状态计算模块提供自身状态信息,所述的基于Actor-Critic的深度强化学习模块为所述的billboard和所述的下一时刻状态计算模块提供动作信息;所述的billboard为所述的基于Actor-Critic的深度强化学习模块和所述的下一时刻状态计算模块提供所有agent的状态信息和动作信息。
上述技术方案中,所述的agent由当前状态、速度和期望目标定义,其中:
所述的当前状态由agent的当前位置pc和朝向θc共同表示;
所述的速度定义了agent的运动速率和方向;
所述的期望目标提供了agent的运动目标和方向。
上述技术方案中,所述的billboard负责信息的存储、更新和传递,其中:
billboard存储的信息包括每个agent固定时间步长的状态序列、当前时间步采取的动作以及各agent下一时刻的状态;
billboard在每一时间步对其所存储的信息进行更新;
billboard在agent、基于Actor-Critic的深度强化学习模块和下一时刻状态计算模块需要时对agent的相关信息进行传递。
上述技术方案中,所述的基于Actor-Critic的深度强化学习模块包括actor网络和critic网络,其中:
所述的actor网络根据当前环境状态和agent自身状态选择合适动作,并根据critic网络给出的评价采用策略梯度方法更新其网络参数,从而获取最优控制策略;
所述的critic网络结合各agent固定时间步长的状态序列,对agent采取的动作做出评价并采用TDerror(即时序差分学习方法中估计值和现有值之间的偏差)方法对其网络参数进行更新直至达到最大步数或损失值小于给定阈值,在计算即时奖励时,可以为每个agent定义不同的奖励函数,以实现多agent间的协作或者竞争,产生多样的行为。
上述技术方案中,所述的下一时刻状态计算模块负责对各agent下一时刻的状态进行计算,其通过billboard获取各agent的当前状态和采取的动作,计算各agent下一时刻的状态,并将得到的状态信息传递给billboard。
本发明的优点主要体现在:
1、本发明的一种基于深度强化学习的多agent协作框架不受应用场景和环境因素的限制,无需对环境进行建模即可为多agent的协作或竞争行为仿真提供技术手段,因此,该框架具有较强的通用性。
2、本发明的一种基于深度强化学习的多agent协作框架解决了传统的强化学习在求解具有连续状态和动作空间的多agent协作所出现的维数灾难问题,通过引入billboard,解决了环境部分可观测的问题,保证了多agent强化学习系统的稳定性。
3、本发明的一种基于深度强化学习的多agent协作框架,可为每个agent定义不同的奖励函数,实现多agent间的协作或者竞争,产生多样的行为,因此,该框架具有较好的可扩展性。
附图说明
图1为本发明的基于深度强化学习的多agent协作框架的一个结构图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步的详细说明。
如图1所示,本发明的基于深度强化学习的多agent协作框架由四部分组成,包括:agent,billboard,基于Actor-Critic的深度强化学习模块以及下一时刻状态计算模块。
agent由当前状态、速度和期望目标定义,其中,当前状态由agent的当前位置pc和朝向θc共同表示;速度定义了agent的运动速率和方向;期望目标提供了agent的运动目标点,根据当前位置和目标位置可计算出期望的运动方向。
billboard主要负责信息的存储、更新和传递,其中,billboard存储的信息包括每个agent固定时间步长的状态序列、当前时间步采取的动作以及各agent下一时刻的状态。固定时间步长是指最近T个时间步,即billboard会根据时间的先后,将早期的已不在T时间步内的agent状态删除,以保证Actor-Critic网络输入维度的确定性。billboard在每一时间步对其所存储的信息进行更新;billboard在agent、基于Actor-Critic的深度强化学习模块和下一时刻状态计算模块需要时对agent的相关信息进行传递。
基于Actor-Critic的深度强化学习模块根据当前环境状态和agent的自身状态,通过不断训练网络参数,为agent提供最优控制策略。其具体包括actor网络和critic网络。其中,actor网络根据当前环境状态和agent自身状态选择合适动作,并根据critic网络给出的评价采用策略梯度方法更新其网络参数,从而获取最优控制策略;critic网络结合各agent固定时间步长的状态序列,对agent采取的动作做出评价并采用TDerror方法对其网络参数进行更新直至达到最大步数或损失值小于给定阈值,在计算即时奖励时,可以为每个agent定义不同的奖励函数,以实现多agent间的协作或者竞争,产生多样的行为。
具体地,actor通过一个多输入多输出的神经网络进行表征。该网络的输入包括环境信息和agent的自身状态,经过网络中间层映射,输出层输出动作的概率分布,进而产生对应的动作与环境交互,其中,中间层由两个神经元个数分别为256和128的全连接层构成,激活函数采用tanh函数;输出层采用线性函数作为其激活函数。
具体地,critic通过一个与actor网络架构相似的神经网络进行表征,不同的是值网络的输出层由一个线性单元构成。该网络的输入包括环境信息、各agent固定T时间步的状态序列,经过网络中间层映射,输出层输出Q值。
具体地,每个agent的状态行为值函数是独立学习的,其奖励函数可以根据agent的目标定义,表现为任意结构,例如,对于存在竞争关系的多agent,其拥有的奖励函数相反。
下一时刻状态计算模块负责对各agent下一时刻的状态进行计算,其通过billboard获取各agent的当前状态和采取的动作,分别计算各agent下一时刻的状态,并将得到的状态信息传递给billboard。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (5)
1.一种基于深度强化学习的多agent协作框架,包括agent,billboard,基于actor-critic的深度强化学习模块以及下一时刻状态计算模块,其中:
所述的agent由当前状态、速度和期望目标定义和描述;
所述的billboard对各agent的状态序列、当前时间步采取的动作以及各agent下一时刻的状态进行存储,并进行相关信息的传递,以实现agent之间的信息交互;
所述的基于Actor-Critic的深度强化学习模块根据当前环境状态和agent的自身状态,通过不断训练网络参数,为agent提供最优控制策略;
所述的下一时刻状态计算模块根据各agent的当前状态和采取的动作分别计算各agent下一时刻的状态。
所述的agent为所述的billboard、所述的基于Actor-Critic的深度强化学习模块和所述的下一时刻状态计算模块提供自身状态信息,所述的基于Actor-Critic的深度强化学习模块为所述的billboard和所述的下一时刻状态计算模块提供动作信息;所述的billboard为所述的基于Actor-Critic的深度强化学习模块和所述的下一时刻状态计算模块提供所有agent的状态信息。
2.根据权利要求1所述的基于深度强化学习的多agent协作框架,其特征在于,所述的agent由当前状态、速度和期望目标定义,其中:
所述的当前状态由agent的当前位置pc和朝向θc共同表示;
所述的速度定义了agent的运动速率和方向;
所述的期望目标提供了agent的运动目标和方向。
3.根据权利要求1所述的基于深度强化学习的多agent协作框架,其特征在于,所述的billboard主要负责信息的存储、更新和传递,其中:
billboard存储的信息包括每个agent固定时间步长的状态序列、当前时间步采取的动作以及各agent下一时刻的状态;
billboard在每一时间步对其所存储的信息进行更新;
billboard在agent、基于Actor-Critic的深度强化学习模块和下一时刻状态计算模块需要时对agent的相关信息进行传递。
4.根据权利要求1所述的基于深度强化学习的多agent协作框架,其特征在于,所述的基于Actor-Critic的深度强化学习模块包括actor网络和critic网络,其中:
所述的actor网络根据当前环境状态和agent自身状态选择合适动作,并根据critic网络给出的评价采用策略梯度方法更新其网络参数,从而获取最优控制策略;
所述的critic网络结合各agent固定时间步长的状态序列,对agent采取的动作做出评价并采用TDerror方法对其网络参数进行更新直至达到最大步数或损失值小于给定阈值,在计算即时奖励时,可以为每个agent定义不同的奖励函数,以实现多agent间的协作或者竞争,产生多样的行为。
5.根据权利要求1所述的基于深度强化学习的多agent协作框架,其特征在于,所述的下一时刻状态计算模块负责对各agent下一时刻的状态进行计算,其通过billboard获取各agent的当前状态和采取的动作,计算各agent下一时刻的状态,并将得到的状态信息传递给billboard。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910347694.9A CN110084375B (zh) | 2019-04-26 | 2019-04-26 | 一种基于深度强化学习的多agent协作框架 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910347694.9A CN110084375B (zh) | 2019-04-26 | 2019-04-26 | 一种基于深度强化学习的多agent协作框架 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110084375A true CN110084375A (zh) | 2019-08-02 |
CN110084375B CN110084375B (zh) | 2021-09-17 |
Family
ID=67417187
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910347694.9A Active CN110084375B (zh) | 2019-04-26 | 2019-04-26 | 一种基于深度强化学习的多agent协作框架 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110084375B (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110648049A (zh) * | 2019-08-21 | 2020-01-03 | 北京大学 | 一种基于多智能体的资源分配方法与系统 |
CN110673602A (zh) * | 2019-10-24 | 2020-01-10 | 驭势科技(北京)有限公司 | 一种强化学习模型、车辆自动驾驶决策的方法和车载设备 |
CN110968102A (zh) * | 2019-12-27 | 2020-04-07 | 东南大学 | 一种基于深度强化学习的多agent避碰方法 |
CN110991972A (zh) * | 2019-12-14 | 2020-04-10 | 中国科学院深圳先进技术研究院 | 一种基于多智能体强化学习的货物运输系统 |
CN111401458A (zh) * | 2020-03-23 | 2020-07-10 | 清华大学 | 一种基于深度强化学习的多模型目标状态预测方法及系统 |
CN111897327A (zh) * | 2020-07-14 | 2020-11-06 | 季华实验室 | 多移动机器人控制/分派模型获取方法、装置、电子设备 |
CN111985672A (zh) * | 2020-05-08 | 2020-11-24 | 东华大学 | 一种多Agent深度强化学习的单件作业车间调度方法 |
CN112116129A (zh) * | 2020-08-24 | 2020-12-22 | 中山大学 | 一种基于深度强化学习的动态路径优化问题求解方法 |
CN112347104A (zh) * | 2020-11-06 | 2021-02-09 | 中国人民大学 | 一种基于深度强化学习的列存储布局优化方法 |
CN112782973A (zh) * | 2019-11-07 | 2021-05-11 | 四川省桑瑞光辉标识系统股份有限公司 | 基于双智能体协作博弈的双足机器人行走控制方法和系统 |
CN112853560A (zh) * | 2020-12-31 | 2021-05-28 | 盐城师范学院 | 一种基于环锭纺纱线质量的全局工序共享控制系统及方法 |
CN113589842A (zh) * | 2021-07-26 | 2021-11-02 | 中国电子科技集团公司第五十四研究所 | 一种基于多智能体强化学习的无人集群任务协同方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102238555A (zh) * | 2011-07-18 | 2011-11-09 | 南京邮电大学 | 认知无线电中基于协作学习的多用户动态频谱接入方法 |
CN103248693A (zh) * | 2013-05-03 | 2013-08-14 | 东南大学 | 基于多智能体强化学习的大规模服务组合优化方法 |
CN108600379A (zh) * | 2018-04-28 | 2018-09-28 | 中国科学院软件研究所 | 一种基于深度确定性策略梯度的异构多智能体协同决策方法 |
-
2019
- 2019-04-26 CN CN201910347694.9A patent/CN110084375B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102238555A (zh) * | 2011-07-18 | 2011-11-09 | 南京邮电大学 | 认知无线电中基于协作学习的多用户动态频谱接入方法 |
CN103248693A (zh) * | 2013-05-03 | 2013-08-14 | 东南大学 | 基于多智能体强化学习的大规模服务组合优化方法 |
CN108600379A (zh) * | 2018-04-28 | 2018-09-28 | 中国科学院软件研究所 | 一种基于深度确定性策略梯度的异构多智能体协同决策方法 |
Non-Patent Citations (4)
Title |
---|
CHUN-GUI LI, MENG WANG, QING-NENG YUAN: "A Multi-agent Reinforcement Learning using Actor-Critic methods", 《MACHINE LEARNING AND CYBERNETICS,2008 INTERNATIONAL》 * |
RYAN LOWE,ET AL: "Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments", 《PROCEEDINGS OF THE 31ST INTERNATIONAL CONFERENCE ON NEURAL INFORMATION PROCESSING SYSTEMS》 * |
乐逸祥,周磊山: "基于Multi-Agent 的列车速度联控系统的仿真研究", 《系统仿真学报》 * |
薛丽华: "多智能体协作学习方法的研究", 《中国硕士学位论文全文数据库 信息科技辑》 * |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110648049A (zh) * | 2019-08-21 | 2020-01-03 | 北京大学 | 一种基于多智能体的资源分配方法与系统 |
CN110648049B (zh) * | 2019-08-21 | 2022-06-03 | 北京大学 | 一种基于多智能体的资源分配方法与系统 |
CN110673602B (zh) * | 2019-10-24 | 2022-11-25 | 驭势科技(北京)有限公司 | 一种强化学习模型、车辆自动驾驶决策的方法和车载设备 |
CN110673602A (zh) * | 2019-10-24 | 2020-01-10 | 驭势科技(北京)有限公司 | 一种强化学习模型、车辆自动驾驶决策的方法和车载设备 |
CN112782973A (zh) * | 2019-11-07 | 2021-05-11 | 四川省桑瑞光辉标识系统股份有限公司 | 基于双智能体协作博弈的双足机器人行走控制方法和系统 |
CN110991972A (zh) * | 2019-12-14 | 2020-04-10 | 中国科学院深圳先进技术研究院 | 一种基于多智能体强化学习的货物运输系统 |
CN110968102A (zh) * | 2019-12-27 | 2020-04-07 | 东南大学 | 一种基于深度强化学习的多agent避碰方法 |
CN110968102B (zh) * | 2019-12-27 | 2022-08-26 | 东南大学 | 一种基于深度强化学习的多agent避碰方法 |
CN111401458A (zh) * | 2020-03-23 | 2020-07-10 | 清华大学 | 一种基于深度强化学习的多模型目标状态预测方法及系统 |
CN111985672A (zh) * | 2020-05-08 | 2020-11-24 | 东华大学 | 一种多Agent深度强化学习的单件作业车间调度方法 |
CN111985672B (zh) * | 2020-05-08 | 2021-08-27 | 东华大学 | 一种多Agent深度强化学习的单件作业车间调度方法 |
CN111897327B (zh) * | 2020-07-14 | 2024-02-23 | 季华实验室 | 多移动机器人控制/分派模型获取方法、装置、电子设备 |
CN111897327A (zh) * | 2020-07-14 | 2020-11-06 | 季华实验室 | 多移动机器人控制/分派模型获取方法、装置、电子设备 |
CN112116129B (zh) * | 2020-08-24 | 2022-11-01 | 中山大学 | 一种基于深度强化学习的动态路径优化问题求解方法 |
CN112116129A (zh) * | 2020-08-24 | 2020-12-22 | 中山大学 | 一种基于深度强化学习的动态路径优化问题求解方法 |
CN112347104A (zh) * | 2020-11-06 | 2021-02-09 | 中国人民大学 | 一种基于深度强化学习的列存储布局优化方法 |
CN112347104B (zh) * | 2020-11-06 | 2023-09-29 | 中国人民大学 | 一种基于深度强化学习的列存储布局优化方法 |
CN112853560A (zh) * | 2020-12-31 | 2021-05-28 | 盐城师范学院 | 一种基于环锭纺纱线质量的全局工序共享控制系统及方法 |
CN113589842A (zh) * | 2021-07-26 | 2021-11-02 | 中国电子科技集团公司第五十四研究所 | 一种基于多智能体强化学习的无人集群任务协同方法 |
CN113589842B (zh) * | 2021-07-26 | 2024-04-19 | 中国电子科技集团公司第五十四研究所 | 一种基于多智能体强化学习的无人集群任务协同方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110084375B (zh) | 2021-09-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110084375A (zh) | 一种基于深度强化学习的多agent协作框架 | |
CN112132263B (zh) | 一种基于强化学习的多智能体自主导航方法 | |
CN102819264B (zh) | 移动机器人路径规划q学习初始化方法 | |
Qiang et al. | Reinforcement learning model, algorithms and its application | |
CN110852448A (zh) | 一种基于多智能体强化学习的合作型智能体的学习方法 | |
CN102402712B (zh) | 基于神经网络的机器人强化学习初始化方法 | |
WO2021103419A1 (zh) | 多代理强化学习合作任务场景下的代理间交换知识的方法 | |
Fan et al. | Average consensus of multi-agent systems with self-triggered controllers | |
CN114510012A (zh) | 一种基于元动作序列强化学习的无人集群演进系统及方法 | |
CN113741533A (zh) | 一种基于模仿学习与强化学习的无人机智能决策系统 | |
CN109491396A (zh) | 一种多智能体事件驱动编队控制系统及方法 | |
CN110728368B (zh) | 一种仿真机器人深度强化学习的加速方法 | |
CN116562332B (zh) | 一种人机共融环境下的机器人社交性运动规划方法 | |
Hwang et al. | Fusion of multiple behaviors using layered reinforcement learning | |
Hu et al. | Research on 3D animation character design based on multimedia interaction | |
CN115640754A (zh) | 一种可视化的uuv目标跟踪路径规划训练系统 | |
Zhu et al. | A novel method combining leader-following control and reinforcement learning for pursuit evasion games of multi-agent systems | |
Rakshit et al. | ABC-TDQL: An adaptive memetic algorithm | |
Han et al. | Robot path planning in dynamic environments based on deep reinforcement learning | |
Tang et al. | Reinforcement learning for robots path planning with rule-based shallow-trial | |
CN105467841A (zh) | 一种类人机器人上肢运动的类神经控制方法 | |
Wang et al. | A coordinated multiagent reinforcement learning method using chicken game | |
CN113625561B (zh) | 一种基于强化学习的域协调多智能体系统协作控制方法 | |
CN112396501B (zh) | 一种基于交互式强化学习的订单分派方法及系统 | |
Li et al. | Learning a skill-sequence-dependent policy for long-horizon manipulation tasks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |