CN110852448A

CN110852448A - 一种基于多智能体强化学习的合作型智能体的学习方法

Info

Publication number: CN110852448A
Application number: CN201911121271.1A
Authority: CN
Inventors: 陈伟威; 潘嵘
Original assignee: National Sun Yat Sen University
Current assignee: Sun Yat Sen University; National Sun Yat Sen University
Priority date: 2019-11-15
Filing date: 2019-11-15
Publication date: 2020-02-28

Abstract

本发明涉及一种基于多智能体强化学习的合作型智能体的学习方法，步骤一：重置多个目标环境；步骤二：初始化策略网络π_θ的模型参数θ_π和全局信息预测网络f_θ的模型参数θ_f；步骤三：在环境中对多环境中的多智能体以当前策略π进行采样；每一步中，环境中的多个智能体共享同一状态，针对每个智能体对状态提取特征后作为模型输入的数据；步骤四：对模型参数θ_π和θ_f进行更新；步骤五：直至模型收敛或达到最大步数。本发明在智能体处于合作关系的环境下更好地利用了全局特征信息，通过局部信息预测全局信息的模型令每个智能体学会感知局部信息与全局信息的联系，更好地协作；使得不同智能体得以直接共享模型参数，简化模型复杂度，提高效率。

Description

一种基于多智能体强化学习的合作型智能体的学习方法

技术领域

本发明涉及机器学习领域，更具体地，涉及一种基于多智能体强化学习的合作型智能体的学习方法。

背景技术

强化学习是机器学习的一个子领域，目标是基于环境进行决策行动，从而获得最大收益。其中，强化学习通过引入深度学习技术来作为强化学习中学习值函数、策略的函数逼近方法，相比人工提取特征大大提高了端到端性能，从而解决了一系列传统强化学习未能解决的问题，比如在视频游戏上，深度强化学习甚至取得了超越人类平均水平的表现。

现有的强化学习方法已有较为成熟的体系，包括基于模型和无模型两大类，而更加常用的无模型方法中，则又分为同策略和异策略两类方法。但无论是哪种算法，大多都只限定适用于单智能体环境而往往无法直接应用到多智能体环境。这是由于多智能体环境引入的问题：每一个智能体都在学习改进的情况下，环境是不稳定的；而不同智能体之间的关系有很多种，包括完全竞争、完全合作以及处于两者之间的各种情况，智能体之间如何共享信息，能共享多少信息，根据具体场景不同会有不同的限制。

已有的多智能体深度强化学习方法MADDPG是一个基于Actor-Critic框架的算法，提出集中训练、分散执行的思想，在训练Critic时加入了全局信息，而实际应用的Actor的输入只包含单个智能体的状态特征，从而突破了深度Q网络只能使用单一结构的网络的限制。

在一些合作场景中，多智能体的状态信息往往是共享且共同行动的，现有技术MADDPG未特别关注这种情况，而仅考虑到在模型训练过程中利用共享信息，而未关注多智能体共同行动的特性，导致多智能体之间的协作性差的问题；而同样的，基于Actor-Critic的BiCNet虽然在训练和测试时都采用了完全的全局信息，但共享信息的方式为利用RNN网络，导致学习训练的效率低。

发明内容

本发明为克服上述现有技术中多智能体在合作环境中协作性差和效率低的问题，提供一种基于多智能体强化学习的合作型智能体的学习方法，提高合作环境下多智能体的协作性和效率，强化智能体的性能。

为解决上述技术问题，本发明采用的技术方案是：提供一种基于多智能体强化学习的合作型智能体的学习方法，包括以下步骤：

步骤一：重置多个目标环境，该环境满足存在处于合作关系的多智能体共享信息、共同行动的特点；

步骤二：初始化策略网络π_θ的模型参数θ_π和全局信息预测网络f_θ的模型参数θ_f；

步骤三：以固定步数在环境中对多环境中的多智能体以当前策略π进行采样；每一步中，环境e_i中的多个智能体共享同一状态S_i,t，针对该状态提取全局特征s_i,t,global，并针对每个智能体对状态s_i,t提取局部特征s_i,t,local,两者合并得智能体特征s_i,t,comb后作为策略网络模型输入的数据；

步骤四：步骤四：使用近端策略优化算法对策略网络π_θ的模型参数θ_π进行更新，算法的目标函数如下：

其中，s_i,t为环境e_i中时刻t的状态，a_i,t为智能体在环境e_i中时刻t选择的动作，θ为当前模型的参数，θ′为采集数据的模型参数，A为优势函数；

同时，更新全局信息预测网络f_θ的模型参数θ_f；

步骤五：重复步骤三和步骤四，直至模型收敛或达到最大步数。

优选的，全局信息预测网络为通过局部信息进行预测全局信息预测的模型，与策略网络同时训练并共享策略网络参数，模型公式如下：

其中，s_i,t,global为环境e_i中时刻t的全局状态特征；s_i,t,local为环境e_i时刻t下当前智能体的局部状态特征；

为

的模型预测值；

为从特征空间到编码向量的前向模型。

优选的，模型的损失函数如下：

其中，s_i,t,global为时刻t的全局状态特征；s_i,t,local为时刻t下当前智能体的局部状态特征；

为

的模型预测值；

为从特征空间到编码向量的前向模型。

优选的，在所述步骤三中，采样的方式为并行采样，采集数据时同时对多个环境中的处于合作关系的每个智能体进行采样。

优选的，对每个环境中的智能体按设定的概率抽取一部分，只使用该部分智能体所收集的数据，可以提高利用数据的效率。

优选的，对每个环境中的智能体同步进行状态特征提取对每个环境中的智能体同步进行状态特征提取，同时考虑全局信息和局部信息分别提取全局特征和局部特征，奖励设计也因此可根据各智能体所对应的不同局部状态特征针对单一智能体进行优化。

优选的，采用梯度下降法更新全局信息预测网络f_θ的模型参数θ_f。

与现有技术相比，本发明的有益效果是：

1、本发明在智能体处于合作关系的环境下更好地利用了全局特征信息，不仅在训练时使用全局信息，在应用时也能提供全局信息给处于合作关系、共同行动的智能体；

2、通过局部信息预测全局信息的模型令每个智能体学会感知局部信息与全局信息的联系，更好地协作；

3、对每一个智能体有针对地进行特征提取，全局信息降低了训练过程中的方差，而同时多对局并行训练则降低了由于多个智能体处于同一对局带来的偏差，使模型训练更加稳定。

4、不需使用RNN，通过多局并行采样方式泛化模型表现性能，使得不同智能体得以直接共享模型参数，简化模型复杂度，提高效率。

5、使用属于同策略算法的近端策略优化算法代替异策略算法，更加适用于不断变化的多智能体环境；

6、使用属于策略梯度算法的近端策略优化算法，解决经验回放方法不适用于多智能体导致的不稳定环境的问题。

附图说明

图1是本发明的一种基于多智能体强化学习的合作型智能体的学习方法的流程图；

图2是本发明的一种基于多智能体强化学习的合作型智能体的训练框架图；

图3是本发明的一种基于多智能体强化学习的合作型智能体的学习方法的策略网络与预测网络共享参数图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。附图中描述位置关系仅用于示例性说明，不能理解为对本专利的限制。

下面通过具体实施例，并结合附图，对本发明的技术方案作进一步的具体描述：

实施例

如图1-3所示为一种基于多智能体强化学习的合作型智能体的学习方法的是实施例，包括以下步骤：

步骤三：以固定步数在环境中对多环境中的多智能体以当前策略π进行并行采样；每一步中，环境e_i中的多个智能体共享同一状态S_i,t，针对该状态提取全局特征s_i,t,global，并针对每个智能体对状态s_i,t提取局部特征，两者合并得智能体特征s_i,t,comb后作为策略网络模型输入的数据；

每个环境中的智能体按设定的概率抽取一部分，只使用该部分智能体所收集的数据；

步骤四：使用近端策略优化算法对策略网络π_θ的模型参数θ_π进行更新，算法的目标函数如下：

同时，采用梯度下降法更新全局信息预测网络f_θ的模型参数θ_f；

具体的，全局信息预测网络为通过局部信息进行预测全局信息预测的模型，与策略网络同时训练并共享策略网络参数，模型公式如下：

为

的模型预测值；

为从特征空间到编码向量的前向模型。

模型的损失函数为：

其中，s_i,t,global为时刻t的全局状态特征；s_i,t,local为时刻t下当前智能体的局部状态特征；为

的模型预测值；

为从特征空间到编码向量的前向模型。

进一步的，对每个环境中的智能体同步进行状态特征提取对每个环境中的智能体同步进行状态特征提取，同时考虑全局信息和局部信息分别提取全局特征和局部特征，奖励设计也因此可根据各智能体所对应的不同局部状态特征针对单一智能体进行优化。

本实施例的有益效果：

5、使用属于策略梯度算法的近端策略优化算法，解决经验回放方法不适用于多智能体导致的不稳定环境的问题。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于多智能体强化学习的合作型智能体的学习方法，其特征在于，包括如下步骤：

步骤一：重置多个目标环境；

步骤三：以固定步数在环境中对多环境中的多智能体以当前策略π进行采样；每一步中，同一个环境e_i中的多个智能体共享同一状态s_i,t，针对该状态提取全局特征s_i,t,global，并针对每个智能体对状态s_i,t提取局部特征s_i,t,local,两者合并得智能体特征s_i,t,comb后作为策略网络模型输入的数据；

同时，更新全局信息预测网络f_θ的模型参数θ_f；

2.根据权利要求1所述的一种基于多智能体强化学习的合作型智能体的学习方法，其特征在于，全局信息预测网络为通过局部信息进行预测全局信息预测的模型，与策略网络同时训练并共享策略网络参数，模型公式如下：

其中，s_i,t,global为环境e_i中时刻t的全局状态特征；s_i,t,local为环境e_i时刻t下当前智能体的局部状态特征；为

的模型预测值；

为从特征空间到编码向量的前向模型。

3.根据权利要求2所述的一种基于多智能体强化学习的合作型智能体的学习方法，其特征在于，模型的损失函数如下：

为的模型预测值；

为从特征空间到编码向量的前向模型。

4.根据权利要求1所述的一种基于多智能体强化学习的合作型智能体的学习方法，其特征在于，在所述步骤三中，采样的方式为并行采样，采集数据时同时对多个环境中的处于合作关系的每个智能体进行采样。

5.根据权利要求4所述的一种基于多智能体强化学习的合作型智能体的学习方法，其特征在于，对每个环境中的智能体按设定的概率抽取一部分，只使用该部分智能体所收集的数据。

6.根据权利要求1所述的一种基于多智能体强化学习的合作型智能体的学习方法，其特征在于，对每个环境中的智能体同步进行状态特征提取，同时考虑全局信息和局部信息分别提取全局特征和局部特征，奖励设计也因此可根据各智能体所对应的不同局部状态特征针对单一智能体进行优化。

7.根据权利要求1所述的一种基于多智能体强化学习的合作型智能体的学习方法，其特征在于，采用梯度下降法更新全局信息预测网络f_θ的模型参数θ_f。