CN110084375A

CN110084375A - 一种基于深度强化学习的多agent协作框架

Info

Publication number: CN110084375A
Application number: CN201910347694.9A
Authority: CN
Inventors: 孙立博; 秦文虎; 翟金凤
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2019-04-26
Filing date: 2019-04-26
Publication date: 2019-08-02
Anticipated expiration: 2039-04-26
Also published as: CN110084375B

Abstract

本发明公开一种基于深度强化学习的多agent协作框架，其包括agent，billboard，基于actor‑critic的深度强化学习模块以及下一时刻状态计算模块。agent由当前状态、速度和期望目标定义；billboard负责信息的存储、更新和传递；基于Actor‑Critic的深度强化学习模块中actor根据当前环境状态和agent自身状态选择合适动作，并通过Critic结合各agent的状态序列给出的评价不断进行训练学习，从而获取最优控制策略；下一时刻状态计算模块根据各agent的当前状态和采取的动作分别计算各agent下一时刻的状态，并与billboard进行交互。本发明提出的基于深度强化学习的多agent协作框架具有较好的可扩展性和较强的通用性，可以为实现多样的多agent协作提供技术方案。

Description

一种基于深度强化学习的多agent协作框架

技术领域：

本发明涉及虚拟现实及人工智能领域，具体涉及一种基于深度强化学习的多agent协作框架。

背景技术：

多agent(即智能体)系统能够解决复杂、分布式的问题，在速度、可靠性、灵活性和可维护性方面具有优势，一直是人工智能领域的研究重点，强化学习由于不需要环境建模，已成为多agent协作的主要研究方法，但是其在求解具有连续状态和动作空间的多agent协作时仍面临诸多挑战，例如存在“维数灾难”和学习效率不高的问题。近年来，随着人工智能技术的飞速发展，深度强化学习越来越得到广泛关注，由于其在机器人控制、参数优化、机器视觉、游戏等领域有着广泛的应用前景，并且通过引入深度神经网络解决了强化学习固有的问题，因此被认为是迈向通用人工智能的重要途径。

在多agent强化学习中，一个agent的策略会影响其他agent的决策，如果将其忽略，把其他agent与环境的互动作为自己局部环境的一部分，那么这些局部环境是非稳态和非马尔可夫的，会导致算法缺乏收敛性，因此，为了保证多agent强化学习系统的稳定性，解决环境部分可观测的问题，并进一步实现多agent之间竞争、协作等多样化的交互，本发明研究基于深度强化学习的多agent协作框架。通过本发明的研究，不仅可以求解具有连续状态和动作空间的多agent协作问题，避免维数灾难，而且通过为每个agent定义不同的奖励函数，可以为仿真多agent间的协作或竞争行为提供新方法和新思路。综上所述，研究基于深度强化学习的多agent协作框架具有重要的理论意义和工程应用价值。

发明内容

本发明的目的是克服具有连续状态和动作空间的多agent协作所存在的维数灾难以及多agent强化学习中环境部分可观测所导致的算法缺乏收敛性的缺陷，从而提供一种基于深度强化学习的多agent协作框架，为实现多agent间的协作或竞争行为仿真提供技术手段。

为了实现上述目的，本发明提供了一种基于深度强化学习的多agent协作框架，包括agent(即：智能体)，billboard(即：黑板)，基于Actor-Critic(即：演员-评论家算法)的深度强化学习模块以及下一时刻状态计算模块，其中：

所述的agent由当前状态、速度和期望目标定义和描述；

所述的billboard对各agent的状态序列、当前时间步采取的动作以及各agent下一时刻的状态进行存储，并进行相关信息的传递，以实现agent之间的信息交互；

所述的基于Actor-Critic的深度强化学习模块根据当前环境状态和agent的自身状态，通过不断训练网络参数，为agent提供最优控制策略；

所述的下一时刻状态计算模块根据各agent的当前状态和采取的动作分别计算各agent下一时刻的状态。

所述的agent为所述的billboard、所述的基于Actor-Critic的深度强化学习模块和所述的下一时刻状态计算模块提供自身状态信息，所述的基于Actor-Critic的深度强化学习模块为所述的billboard和所述的下一时刻状态计算模块提供动作信息；所述的billboard为所述的基于Actor-Critic的深度强化学习模块和所述的下一时刻状态计算模块提供所有agent的状态信息和动作信息。

上述技术方案中，所述的agent由当前状态、速度和期望目标定义，其中：

所述的当前状态由agent的当前位置p_c和朝向θ_c共同表示；

所述的速度定义了agent的运动速率和方向；

所述的期望目标提供了agent的运动目标和方向。

上述技术方案中，所述的billboard负责信息的存储、更新和传递，其中：

billboard存储的信息包括每个agent固定时间步长的状态序列、当前时间步采取的动作以及各agent下一时刻的状态；

billboard在每一时间步对其所存储的信息进行更新；

billboard在agent、基于Actor-Critic的深度强化学习模块和下一时刻状态计算模块需要时对agent的相关信息进行传递。

上述技术方案中，所述的基于Actor-Critic的深度强化学习模块包括actor网络和critic网络，其中：

所述的actor网络根据当前环境状态和agent自身状态选择合适动作，并根据critic网络给出的评价采用策略梯度方法更新其网络参数，从而获取最优控制策略；

所述的critic网络结合各agent固定时间步长的状态序列，对agent采取的动作做出评价并采用TDerror(即时序差分学习方法中估计值和现有值之间的偏差)方法对其网络参数进行更新直至达到最大步数或损失值小于给定阈值，在计算即时奖励时，可以为每个agent定义不同的奖励函数，以实现多agent间的协作或者竞争，产生多样的行为。

上述技术方案中，所述的下一时刻状态计算模块负责对各agent下一时刻的状态进行计算，其通过billboard获取各agent的当前状态和采取的动作，计算各agent下一时刻的状态，并将得到的状态信息传递给billboard。

本发明的优点主要体现在：

1、本发明的一种基于深度强化学习的多agent协作框架不受应用场景和环境因素的限制，无需对环境进行建模即可为多agent的协作或竞争行为仿真提供技术手段，因此，该框架具有较强的通用性。

2、本发明的一种基于深度强化学习的多agent协作框架解决了传统的强化学习在求解具有连续状态和动作空间的多agent协作所出现的维数灾难问题，通过引入billboard，解决了环境部分可观测的问题，保证了多agent强化学习系统的稳定性。

3、本发明的一种基于深度强化学习的多agent协作框架，可为每个agent定义不同的奖励函数，实现多agent间的协作或者竞争，产生多样的行为，因此，该框架具有较好的可扩展性。

附图说明

图1为本发明的基于深度强化学习的多agent协作框架的一个结构图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步的详细说明。

如图1所示，本发明的基于深度强化学习的多agent协作框架由四部分组成，包括：agent，billboard，基于Actor-Critic的深度强化学习模块以及下一时刻状态计算模块。

agent由当前状态、速度和期望目标定义，其中，当前状态由agent的当前位置p_c和朝向θ_c共同表示；速度定义了agent的运动速率和方向；期望目标提供了agent的运动目标点，根据当前位置和目标位置可计算出期望的运动方向。

billboard主要负责信息的存储、更新和传递，其中，billboard存储的信息包括每个agent固定时间步长的状态序列、当前时间步采取的动作以及各agent下一时刻的状态。固定时间步长是指最近T个时间步，即billboard会根据时间的先后，将早期的已不在T时间步内的agent状态删除，以保证Actor-Critic网络输入维度的确定性。billboard在每一时间步对其所存储的信息进行更新；billboard在agent、基于Actor-Critic的深度强化学习模块和下一时刻状态计算模块需要时对agent的相关信息进行传递。

基于Actor-Critic的深度强化学习模块根据当前环境状态和agent的自身状态，通过不断训练网络参数，为agent提供最优控制策略。其具体包括actor网络和critic网络。其中，actor网络根据当前环境状态和agent自身状态选择合适动作，并根据critic网络给出的评价采用策略梯度方法更新其网络参数，从而获取最优控制策略；critic网络结合各agent固定时间步长的状态序列，对agent采取的动作做出评价并采用TDerror方法对其网络参数进行更新直至达到最大步数或损失值小于给定阈值，在计算即时奖励时，可以为每个agent定义不同的奖励函数，以实现多agent间的协作或者竞争，产生多样的行为。

具体地，actor通过一个多输入多输出的神经网络进行表征。该网络的输入包括环境信息和agent的自身状态，经过网络中间层映射，输出层输出动作的概率分布，进而产生对应的动作与环境交互，其中，中间层由两个神经元个数分别为256和128的全连接层构成，激活函数采用tanh函数；输出层采用线性函数作为其激活函数。

具体地，critic通过一个与actor网络架构相似的神经网络进行表征，不同的是值网络的输出层由一个线性单元构成。该网络的输入包括环境信息、各agent固定T时间步的状态序列，经过网络中间层映射，输出层输出Q值。

具体地，每个agent的状态行为值函数是独立学习的，其奖励函数可以根据agent的目标定义，表现为任意结构，例如，对于存在竞争关系的多agent，其拥有的奖励函数相反。

下一时刻状态计算模块负责对各agent下一时刻的状态进行计算，其通过billboard获取各agent的当前状态和采取的动作，分别计算各agent下一时刻的状态，并将得到的状态信息传递给billboard。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于深度强化学习的多agent协作框架，包括agent，billboard，基于actor-critic的深度强化学习模块以及下一时刻状态计算模块，其中：

所述的agent由当前状态、速度和期望目标定义和描述；

所述的agent为所述的billboard、所述的基于Actor-Critic的深度强化学习模块和所述的下一时刻状态计算模块提供自身状态信息，所述的基于Actor-Critic的深度强化学习模块为所述的billboard和所述的下一时刻状态计算模块提供动作信息；所述的billboard为所述的基于Actor-Critic的深度强化学习模块和所述的下一时刻状态计算模块提供所有agent的状态信息。

2.根据权利要求1所述的基于深度强化学习的多agent协作框架，其特征在于，所述的agent由当前状态、速度和期望目标定义，其中：

所述的当前状态由agent的当前位置p_c和朝向θ_c共同表示；

所述的速度定义了agent的运动速率和方向；

所述的期望目标提供了agent的运动目标和方向。

3.根据权利要求1所述的基于深度强化学习的多agent协作框架，其特征在于，所述的billboard主要负责信息的存储、更新和传递，其中：

billboard在每一时间步对其所存储的信息进行更新；

4.根据权利要求1所述的基于深度强化学习的多agent协作框架，其特征在于，所述的基于Actor-Critic的深度强化学习模块包括actor网络和critic网络，其中：

所述的critic网络结合各agent固定时间步长的状态序列，对agent采取的动作做出评价并采用TDerror方法对其网络参数进行更新直至达到最大步数或损失值小于给定阈值，在计算即时奖励时，可以为每个agent定义不同的奖励函数，以实现多agent间的协作或者竞争，产生多样的行为。

5.根据权利要求1所述的基于深度强化学习的多agent协作框架，其特征在于，所述的下一时刻状态计算模块负责对各agent下一时刻的状态进行计算，其通过billboard获取各agent的当前状态和采取的动作，计算各agent下一时刻的状态，并将得到的状态信息传递给billboard。