CN113952733A

CN113952733A - 一种多智能体自适应采样策略生成方法

Info

Publication number: CN113952733A
Application number: CN202110600360.5A
Authority: CN
Inventors: 洪万福; 钱智毅; 黄在斌
Original assignee: Xiamen Yuanting Information Technology Co ltd
Current assignee: Xiamen Yuanting Information Technology Co ltd
Priority date: 2021-05-31
Filing date: 2021-05-31
Publication date: 2022-01-21

Abstract

本发明公开了一种多智能体自适应采样策略生成方法，本方法根据应用环境定义智能体及其策略网络、评估网络和经验，实现多智能体协作策略的自动生成，其采用的算法在MADDPG算法的基础上利用经验优先级对经验池经验进行按照优先级概率抽取：每进行M步，对每个智能体，计算当前智能体近M步经验的策略损失，并计算当前经验的优先级，并以优先级为概率抽取minibatch大小的经验，并通过目标评估网络计算期望回报的最小化损失，更新策略网络参数和评估网络参数；每执行一定步数，更新所有智能体的策略网络参数θ^πi和评估网络参数。本发明的方法能加速模型的收敛，以提升智能体学习效率，降低智能体探索时间，从而提高多智能体协作策略自动生成和评估效率。

Description

一种多智能体自适应采样策略生成方法

技术领域

本发明涉及人工智能领域，尤其涉及一种多智能体自适应采样策略生成方法。

背景技术

强化学习(Reinforcement Learning,RL)，又称再励学习、评价学习或增强学习，是机器学习的范式和方法论之一，用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。

强化学习中很多场景涉及多个智能体的交互，比如多个机器人的控制，语言的交流，多玩家的游戏等等。

MADDPG为基于深度确定性策略梯度算法的多智能体强化学习框架，可用于多智能体协作策略的自动生成。

在多智能体系统中，每个智能体通过与环境进行交互获取奖励值(reward)来学习改善自己的策略，从而获得该环境下最优策略的过程就多智能体强化学习。

在单智能体强化学习中，智能体所在的环境是稳定不变的，但是在多智能体强化学习中，环境是复杂的、动态的，因此给学习过程带来很大的困难。

维度爆炸：在单体强化学习中，需要存储状态值函数或动作-状态值函数。在多体强化学习中，状态空间变大，联结动作空间(联结动作是指每个智能体当前动作组合而成的多智能体系统当前时刻的动作)随智能体数量指数增长，因此多智能体系统维度非常大，计算复杂。

目标奖励确定困难：多智能体系统中每个智能体的任务可能不同，但是彼此之间又相互耦合影响。奖励设计的优劣直接影响学习到的策略的好坏。

不稳定性：在多智能体系统中，多个智能体是同时学习的。当同伴的策略改变时，每个智能体自身的最优策略也可能会变化，这将对算法的收敛性带来影响。

探索-利用：探索不光要考虑自身对环境的探索，也要对同伴的策略变化进行探索，可能打破同伴策略的平衡状态。每个智能体的探索都可能对同伴智能体的策略产生影响，这将使算法很难稳定，学习速度慢。

发明内容

有鉴于现有技术的上述缺陷或不足，本发明的目的是提供一种多智能体自适应采样策略生成方法，能加速MADDPG模型的收敛，大大提升智能体学习效率，降低智能体探索时间，提高多智能体协作策略的自动生成效率。

为实现上述目的，本发明提供了一种多智能体自适应采样策略生成方法，包括以下步骤：

步骤S1：构建智能体的神经网络模型，并初始化多智能体协作的策略网络π、目标策略网络π'、评估网络Q、目标评估网络Q'，及各自的网络参数θ^π、θ^π'、θ^Q、θ^Q'；初始化智能体的经验缓存池和动作探索噪声；

步骤S2：执行设定次数的回合，每个回合包括以下步骤：

步骤S21：初始化环境和所有智能体状态集合；

步骤S22：对回合中的每一步，各智能体学习经验，并将各智能体学习的经验保存到各自的经验缓存池中；

步骤S23：每执行M步，M为不小于2的整数，对每个智能体，训练各自的神经网络，执行：

步骤S23-1：计算当前智能体近M步经验的策略损失Loss；

步骤S23-2：根据近M步经验的策略损失Loss计算当前M步经验的优先级Pr(i)；

步骤S23-3：判断当前M步经验的优先级Pr(i)的概率是否满足阈值，满足则抽取minibatch大小的经验；

步骤S23-4：根据抽取的minibatch大小的经验，学习策略网络和评估网络；

步骤S24：循环执行步骤S22、S23，直至遍历所有经验，输出多智能体协作策略评估结果。

进一步的，所述步骤S22具体包括：

1)根据当前智能体agent_i的观察状态

策略网络π_i和探索噪声R_a选择当前动作

2)智能体agent_i执行当前动作

得到下一个状态

和奖励

并将经验集合

存入经验缓存池R_i。

进一步的，所述当前动作

的公式表示为：

其中，

表示智能体agent_i的策略网络。

进一步的，所述步骤S23-1计算当前智能体近M步经验的策略损失Loss，包括以下公式：

y＝r+γQ^π'(s',a₁',a'₂^a'_N)|_{ai'＝πi'(oi)}

Loss＝(y-Q^π(s,a₁,a₂^a_N))²

其中，y表示当前经验中当前动作的期望回报；γ表示奖励折扣系数；r表示目标评估网络的奖励值。

进一步的，所述步骤S23-2中：根据近M步经验的策略损失Loss计算当前M步经验的优先级Pr(i)，包括以下公式：

p(i)＝rank(rank(Loss(i))+rank_reverse(T))

其中：p(i)表示当前经验发生的概率，β表示自适应采样的超参数，取值范围为0到1之间，α用于调节优先程度；rank表示对其传入元素进行排序的排位方法；rank_reverse表示对其传入元素进行排序的倒排位方法；T是对应时间差分误差；Loss表示损失函数返回的值。

进一步的，所述步骤S23-4具体包括：

(1)计算每个经验动作

的期望回报y_j：y_j＝r_j+γQ'(s_j+1,a₁',a'₂^a'_N,θ^Q')，其中γ表示奖励折扣系数；r_j表示目标评估网络的奖励值；

(2)计算最小化损失以更新评估网络参数：

其中L表示最小化损失，K表示智能体的数量；

(3)通过梯度公式计算策略网络参数的总奖励，更新当前智能体的策略网络参数：

其中

表示梯度；J表示总奖励；K表示智能体的数量；

(4)每执行N步，通过加权因子τ更新所有智能体的目标策略网络和目标评估网络参数：θ^Q'＝τθ^Q+(1-τ)θ^Q',θ^π'＝τθ^π+(1-τ)θ^π'。

进一步的，所述多智能体自适应采样策略生成方法用于多交通信号机的协作控制，其中，智能体表示为交通信号机；确定性行为策略为交通灯控制策略；策略网络表示为交通信号机每次对交通灯的控制策略，评估网络表示为交通信号机对交通灯的控制策略的评估，所述经验中，当前状态的观测值表示交通信号机观察到的交通环境的实时信息；下一个状态表示交通信号机对交通环境的预测值；动作表示交通信号机的交通控制的动作；奖励表示节省车辆的延误时间。

本发明实现了如下技术效果：

1.本发明提出的多智能体自适应采样策略生成方法，根据应用环境定义智能体及其策略网络、评估网络和经验，实现多智能体协作策略的自动生成，其采用的ET-MADDPG算法在MADDPG算法的基础上利用经验优先级对经验池经验进行按照优先级概率抽取，加速模型的收敛，大大提升智能体学习效率，降低智能体探索时间，提高多智能体协作的效果评估效率。

2.利用经验优先级对经验抽取优势，可获取到对于智能体可以更快学到获取最大奖励的策略，还能通过设定优先级概率阈值限制智能体探索空间，有效避免陷入局部最优。

附图说明

图1为本发明实施例给出的算法流程图。

图2为采用MADDPG算法的实验结果；

图3为采用ET-MADDPG算法的实验结果。

具体实施方式

为进一步说明各实施例，本发明提供有附图。这些附图为本发明揭露内容的一部分，其主要用以说明实施例，并可配合说明书的相关描述来解释实施例的运作原理。配合参考这些内容，本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点。

现结合附图和具体实施方式对本发明进一步说明。

实施例1

本发明公开了一种多智能体自适应采样策略生成方法，涉及一种多智能体协作策略自动生成算法，以下简称ET-MADDPG算法，ET-MADDPG算法在传统的MADDPG算法上进行了优化，包括：首先初始化系统模型，初始化每个智能体的策略网络π_i以及目标策略网络π'_i和评估网络Q_i以及目标评估网络Q_i'以及其网络参数θ^πi、θ^πi'、θ^Qi、θ^πi'，初始化每个智能体的经验缓存池R_i和动作探索噪声R_a。之后对每个动作回合，初始化所有智能体状态集合S，对回合中每一步(step)，对环境中的每个智能体agent_i，执行以下步骤：根据当前智能体agent_i的观察状态

策略网络π_i和动作探索噪声R_a选择当前动作

之后将当前动作

作为下一步的状态

以及奖励

将经验

存入经验缓存池R_i；每进行M步，对每个智能体agent_i，计算当前智能体agent_i近M步经验的策略损失，并计算当前经验的优先级P_r，并以优先级P_r为概率抽取minibatch大小的经验，并通过目标评估网络计算期望回报y_j最小化损失更新评估网络参数和策略网络参数；每执行一定步数，更新所有智能体的目标策略和评估网络参数。如图1所示。

首先定义系统所需要的输入输出字符的缩写，以便之后叙述：智能体的策略网络π_i，目标策略网络π_i'，评估网络Q_i，目标评估网络Q_i'，参数θ^πi和θ^Qi，经验缓存池R_i和动作探索噪声R_a，所有智能体的状态集合S，经验缓存池R_i，经验

优先级P_r，经验取样次数T，T为经验被取样后进行训练的次数。在本示例中，多智能体自适应采样策略生成方法具体包括：

步骤S1：构建智能体的神经网络模型；初始化每个智能体的策略网络π_i(o,θ^πi)和评估网络Q_i(s,a₁,a₂^a_N,θ^Qi)以及策略网络和评估网络的网络参数θ^πi和θ^Qi；初始化每个智能体的目标策略网络π_i'(o,θ^πi')和目标评估网络Q_i'(s,a₁,a₂^a_N,θ^Qi')以及对应的目标策略网络和目标评估网络的网络参数θ^πi'和θ^Qi'。策略网络和目标策略网络即为MADDPG算法中的actor网络和targetactor网络；评估网络和目标评估网络即为MADDPG算法中的Critic网络和targetcritic网络；初始化每个智能体agent_i的经验缓存池R_i和动作探索噪声R_a。

步骤S2：执行设定次数的回合，对每个回合(episode)，通过神经网络模型构建和模拟，存储所有智能体的经验，并各智能体的经验添加到各自的经验缓存池中。该算法具体步骤如下：

对每一回合(episode)，循环操作以下步骤：

步骤S21：初始化环境和所有智能体状态集合S；

步骤S22：对回合中的每一步(step)，对环境中的每个智能体agent_i，执行以下步骤：

1)根据当前智能体的观察状态

策略网络π_i和探索噪声R_a选择当前动作

2)智能体agent_i执行当前动作

得到下一个状态

和奖励

并将由当前智能体的观察状态

当前动作

下一个状态

和奖励

组成的经验

存入经验缓存池R_i。

步骤S23：每执行M步(即经验池R_i已存储近M步的经验)，对每个智能体，训练各自的神经网络：计算当前智能体的近M步经验的策略损失和当前经验优先级，并根据当前经验优先级抽取设定的样本数量(minibatch批大小)的经验作为最终选择的高质量经验；利用抽取的minibatch批大小的高质量经验，通过目标评估网络计算每个经验动作的期望回报，并更新评估网络参数和策略网络参数。在本示例中，步骤S23具体包括：

步骤S23-1：每执行M步，对每个智能体，执行以下步骤：

根据公式Loss＝(y-Q^π(s,a₁,a₂^a_N))²和y＝r+γQ^π'(s',a₁',a'₂^a'_N)|_{ai'＝πi'(oi)}计算当前智能体近M步经验的策略损失Loss，其中y表示期望回报；γ表示奖励折扣系数；r_j表示目标评估网络的奖励值。

步骤S23-2：根据公式

计算当前M步经验的优先级。其中：p(i)表示当前经验发生的概率，β表示自适应采样的超参数，取值范围为0到1之间，α用于调节优先程度；p(i)的计算公式为：p(i)＝rank(rank(Loss(i))+rank_reverse(T))，其中rank表示对其传入元素进行排序的排位方法；rank_reverse表示对其传入元素进行排序的倒排位方法；T是对应时间差分误差；Loss表示损失函数返回的值。

步骤S23-3：判断当前经验的优先级Pr(i)的概率是否满足阈值，满足则抽取设定的样本数量(即minibatch批大小)的经验。该阈值在训练时可通过随机函数rand(0,1)产生，并根据训练评估效果进行调整。参见图1中所示的判断式rand(0,1)＞Pr(i)。

步骤S23-4：利用minibatch经验，学习策略网络和评估网络。

在本示例中，步骤S23-4步骤具体包括：

(1)计算每个经验动作

(2)计算最小化损失以更新评估网络参数：

其中L表示最小化损失，K表示智能体的数量；

其中

表示梯度；J表示总奖励；K表示智能体的数量；

(4)每执行N步，通过加权因子τ更新所有智能体的目标策略网络和目标评估网络参数：θ^Q'＝τθ^Q+(1-τ)θ^Q',θ^π'＝τθ^π+(1-τ)θ^π'。N为正整数，可根据环境变化的快慢更改N值，以调节加权因子τ的更新频率。

循环执行步骤S22、S23直至遍历所有智能体的经验，结束循环，然后输出多智能体协作策略协作策略和/或评估结果。

实施例2

本发明的多智能自适应采样策略生成方法，可适用于智能机器人、交通控制、柔性制造、制造系统的调度等多个领域。

在本实施例中，所述多智能体自适应采样策略生成方法用于多交通信号机的协作控制，其中，智能体表示为交通信号机；确定性行为策略为交通灯控制策略；策略网络表示为交通信号机每次对交通灯的控制策略，评估网络表示为交通信号机对交通灯的控制策略的评估，所述经验中，当前状态的观测值表示交通信号机观察到的交通环境的实时信息；下一个状态表示交通信号机对交通环境的预测值；动作表示交通信号机的交通控制的动作；奖励表示节省车辆的延误时间。

具体包括以下步骤：

步骤S1：定义交通信号机的神经网络模型，并初始化多交通信号机协作的策略网络、目标策略网络、评估网络、目标评估网络，及各自的网络参数；初始化智能体的经验缓存池和动作探索噪声；

步骤S2：执行设定次数的回合，每个回合包括以下步骤：

步骤S21：初始化环境和所有交通信号机的状态集合；

步骤S22：每执行一步，各交通信号机学习经验，并将各交通信号机学习的经验保存到各自的经验缓存池中；

步骤S23：每执行M步，对每个交通信号机，训练各自的神经网络，计算当前交通信号机近M步经验的策略损失，计算当前经验的优先级，并根据优先级是否满足阈值为条件抽取设定的样本数量的经验，通过目标评估网络计算期望回报的最小化损失，并更新策略网络参数和评估网络参数；每执行N步，通过加权因子更新目标策略网络和目标评估网络；

步骤S24：循环执行步骤S22、S23，直至遍历所有经验，输出多交通信号机协作策略和/或评估结果。

在如智能机器人、柔性制造、制造系统的调度等其他技术领域，针对相似的应用条件，可参照所述的多智能体自适应采样策略生成方法执行多智能体协作策略的自动生成。

实施例3

为验证多智能体自适应采样策略生成方法中的多智能体协作策略自动生成算法(以下用ET-MADDPG算法表示)的实现及其效果，进行了以下实现。

实验内容：

(1)环境：本实验是基于Starcraft2游戏进行的实验；

(2)游戏设置：具体游戏中，以4个人族智能体对战Starcraft2难度为7级难度(最高难度)游戏内置的4个人族；

(3)训练设置：本实验分别，使用MADDPG算法和ET-MADDPG算法进行实验，使用中训练的迭代次数epoch都设置170次，分别统计了训练的战斗胜率battle_won_mean(等于：胜利游戏局数/总游戏局数)和模型的损失值loss变化。

实验结果数据参见图2和图3。

其中图2给出的是采用MADDPG算法的实验结果；图3给出的是采用ET-MADDPG算法的实验结果。图中，曲线①为损失函数(LOSS)；曲线②为战斗胜率(battle_WON_mean)。

根据实验结果可以看出，ET-MADDPG算法和MADDPG算法的随机抽取从经验池中抽取经验进行学习相比，ET-MADDPG算法大大提高了智能体的学习效率，ET-MADDPG在进行50次迭代(epoch)学习之后，基本处于稳定状态，并一直维持在较高的战斗胜率上，而MADDPG算法在170次迭代(epoch)之后，智能体还在学习，胜率上升过程中。

由此可见，本发明提出的多智能体自适应采样策略生成方法，根据应用环境定义智能体及其策略网络、评估网络和经验，实现多智能体协作策略的自动生成，其采用的ET-MADDPG算法在MADDPG算法的基础上利用经验优先级对经验池经验进行按照优先级概率抽取，加速模型的收敛，大大提升智能体学习效率，降低智能体探索时间。同时，利用经验优先级对经验抽取优势，可获取到对于智能体可以更快学到获取最大奖励的策略，还能通过设定优先级概率阈值限制智能体探索空间，有效避免陷入局部最优。

尽管结合优选实施方案具体展示和介绍了本发明，但所属领域的技术人员应该明白，在不脱离所附权利要求书所限定的本发明的精神和范围内，在形式上和细节上可以对本发明做出各种变化，均为本发明的保护范围。

Claims

1.一种多智能体自适应采样策略生成方法，其特征在于，包括：

步骤S1：构建智能体的神经网络模型，并初始化多智能体协作的策略网络π、目标策略网络π'、评估网络Q、目标评估网络Q'，及各自的网络参数θ^π、θ^π'、θ^Q、θ^Q'；初始化智能体的经验缓存池和动作探索噪声R_a；

步骤S2：执行设定次数的回合，每个回合包括以下步骤：

步骤S21：初始化环境和所有智能体状态集合；

步骤S23-1：计算当前智能体近M步经验的策略损失Loss；

2.如权利要求1所述的多智能体自适应采样策略生成方法，其特征在于，所述步骤S22具体包括：

1)根据当前智能体agent_i的观察状态

策略网络π_i和探索噪声R_a选择当前动作

2)智能体agent_i执行当前动作

得到下一个状态

和奖励r_i ^j，并将经验集合

存入经验缓存池R_i。

3.如权利要求2所述的多智能体自适应采样策略生成方法，其特征在于，所述当前动作

的公式表示为：

其中，

表示智能体agent_i的策略网络。

4.如权利要求1所述的多智能体自适应采样策略生成方法，其特征在于，所述步骤S23-1计算当前智能体近M步经验的策略损失Loss，包括以下公式：

y＝r+γQ^π'(s',a₁',a'₂^a'_N)|_{ai'＝πi'(oi)}

Loss＝(y-Q^π(s,a₁,a₂^a_N))²

5.如权利要求4所述的多智能体自适应采样策略生成方法，其特征在于，所述步骤S23-2中：根据近M步经验的策略损失Loss计算当前M步经验的优先级Pr(i)，包括以下公式：

p(i)＝rank(rank(Loss(i))+rank_reverse(T))

6.如权利要求1所述的多智能体自适应采样策略生成方法，其特征在于，所述步骤S23-4具体包括：

(1)计算每个经验动作

(2)计算最小化损失以更新评估网络参数：

其中L表示最小化损失，K表示智能体的数量；

其中

表示梯度；J表示总奖励；K表示智能体的数量；

7.如权利要求1-6任一项所述的多智能体自适应采样策略生成方法，其特征在于，用于多交通信号机的协作控制，其中，智能体表示为交通信号机；确定性行为策略为交通灯控制策略；策略网络表示为交通信号机每次对交通灯的控制策略，评估网络表示为交通信号机对交通灯的控制策略的评估，所述经验中，当前状态的观测值表示交通信号机观察到的交通环境的实时信息；下一个状态表示交通信号机对交通环境的预测值；动作表示交通信号机的交通控制的动作；奖励表示节省车辆的延误时间。