CN113139024A

CN113139024A - 面向maddpg多智能体强化学习模型的可视分析方法

Info

Publication number: CN113139024A
Application number: CN202110504970.5A
Authority: CN
Inventors: 史晓颖; 梁紫怡; 僧德文; 张家铭
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2021-05-10
Filing date: 2021-05-10
Publication date: 2021-07-20
Anticipated expiration: 2041-05-10
Also published as: CN113139024B

Abstract

本发明属于信息技术领域，公开了一种面向MADDPG多智能体强化学习模型的可视分析方法，包括如下步骤：步骤1：选取一款合作类游戏作为MADDPG模型的运行环境，并定义相关的参数集合；步骤2：训练MADDPG模型，保存并计算重要的中间数据；步骤3：设计标签板，标识智能体和地标；步骤4：设计统计视图；步骤5：设计评论家行为视图，用于评估模型学习得到的评论家的性能；步骤6：设计交互视图。本发明提出了一种新的可视分析方法，能支持交互式地分析合作类环境中MADDPG模型的工作流程和内部原理。该发明设计了多个协同的视图，从不同角度揭示MADDPG模型的内部执行机制。

Description

面向MADDPG多智能体强化学习模型的可视分析方法

技术领域

本发明属于信息技术领域，尤其涉及一种面向MADDPG多智能体强化学习模型的可视分析方法。

背景技术

深度强化学习是当今非常热门的研究领域，已经被用于解决自动驾驶、交通控制、机器人系统控制等各种具有挑战性的应用问题。尽管深度强化学习在这些应用中表现出了优越的性能，研究人员对它们内在的执行机制仍然知之胜少。近几年来，研究人员提出了各种可视分析方法来提升深度强化学习模型的可解释性。对于Q网络(DQN)，设计了可视分析系统DQNViz从不同层次揭示智能体的经验空间。对于竞争深度Q网络(dueling DQN)和异步优势行动者评论家(Asynchronous Advantage Actor-Critic)模型，生成显著性图来展示网络关注于输入图像的哪个部分。为了理解具有记忆的深度强化学习模型，研究人员设计了两个可视分析工具：DRLViz和DynamicsExplorer，分别用于辅助分析所训练智能体的内部状态和模拟参数对于内部状态的影响。但是，上述方法都只能分析单智能体强化学习模型。

多智能体深度确定性策略梯度模型(MADDPG，Multi-Agent Deep DeterministicPolicy Gradient)是一个具有代表性的多智能体强化学习模型。该模型采用集中训练和分散执行的机制，能基于所有智能体的观测和动作，对每个智能体学习得到一个评论家。相比于单智能体深度强化学习，分析多智能体深度强化学习模型更具挑战，主要在于：1)智能体数量的增加导致状态空间呈指数级增长，如何可视化由多个智能体生成的经验空间并揭示它们之间潜在的关联？2)多个智能体和不同的环境物体(地标)不断交互，如何直观地可视化随着时间变化的交互过程？现有研究缺乏对多智能体深度强化学习模型的可解释性研究。

发明内容

本发明目的在于提供一种可视分析方法，辅助分析者从不同角度理解MADDPG模型的内在执行原理。该发明针对多智能体合作类游戏环境，通过设计多个协同的视图，不仅能够提供模型训练过程中统计信息的概览，而且支持观察不同游戏轮次下各个智能体的经验空间、某个选定轮次下智能体和环境物体间的动态交互过程，辅助分析者评估所学习得到的评论家的有效性和理解智能体的学习过程。

本发明的具体技术方案如下：

一种面向MADDPG多智能体强化学习模型的可视分析方法，包括如下步骤：

步骤1：选取一款合作类游戏作为MADDPG模型的运行环境，并定义相关的参数集合；

步骤2：训练MADDPG模型，保存并计算重要的中间数据；

步骤3：设计标签板，标识智能体和地标；

步骤4：设计统计视图，包括平均Q值子视图、平均A_loss子视图和平均奖励子视图，展示MADDPG模型的训练统计信息随时间变化的情况；

步骤5：设计评论家行为视图，用于评估模型学习得到的评论家的性能；

步骤6：设计交互视图，包括距离子视图、奖励子视图和故事流子视图，提供在某一轮中智能体和地标交互情况的概览和细节，揭示不同智能体的行为模式。

进一步地，步骤1包括：

选择一个合作交流或合作导航的合作类游戏环境，所述环境中包含N个智能体和L个地标；设置相关参数，包括学习率learning_rate、折扣因子γ、轮数EN、每一轮的最大时间步数max_step、批大小batch_size和多层感知器中的隐藏单元数大小HUN。

进一步地，步骤2包括如下具体步骤：

步骤2.1：训练MADDPG模型：对MADDPG模型进行EN轮训练，在每一轮中，首先初始化一个初始状态，然后根据最大时间步数max_step的大小迭代执行四个阶段：执行阶段、观测阶段、评论家更新阶段和行动者更新阶段，所述评论家更新阶段和行动者更新阶段间隔一定时间步数执行一次。

步骤2.2：保存并计算中间数据：在执行阶段，保存每一轮的奖励值，同时保存每一轮每一步中所有智能体和地标的环境位置和所有智能体共享的奖励值；在观测阶段，保存经验回放池中的数据，包括：多层感知器模型最后一个隐藏层的激活值、每个智能体的评论家预测得到的Q值和从经验回放池中采样得到样本中所有智能体和地标的位置；在评论家更新阶段，保存每一轮的Q值；在行动者更新阶段，保存每一轮的损失值A_loss。

进一步地，步骤3包括如下具体步骤：

在标签板中，用不同颜色的圆表示不同的智能体和地标，所述智能体用较大的圆标识，所述地标用较小的圆标识。

进一步地，步骤4包括如下具体步骤：

基于保存得到的每一轮的Q值、A_loss值和奖励值，计算得到每隔200轮的平均Q值、平均A_loss值和平均奖励值；采用三个折线图分别显示平均Q值子视图、平均A_loss子视图和平均奖励子视图；平均Q值子视图和平均A_loss子视图的折线数量与智能体的数量一致，每条线表示某个智能体的Q值/A_loss值的变化情况；线条的颜色与标签板中智能体的颜色保持统一；平均奖励值采用黑色的折线来表示；当用户选择统计视图中某个特定的轮次时，更新评论家行为视图和交互视图。

进一步地，步骤5包括如下具体步骤：

步骤5.1：收集不同轮次下每个智能体经验回放池中样本的状态；对于选定的轮次X，从X-200轮开始，每隔20轮，收集一次多层感知器最后一个隐藏层的激活值；每个智能体能收集到batch_size*10个样本的激活值；对于具有N个智能体的游戏，特征矩阵定义为hdata∈R^{(batch_size×10×N)×HUN}，hdata中的每一行数据对应于一个具有HUN维特征的样本；采用t-SNE降维方法将hdata投影到二维空间，得到降维后的矩阵rdata，同时保存原始的智能体ID和由评论家预测得到的Q值；

步骤5.2：基于rdata、Q值和智能体ID，渲染得到评论家行为视图；一个点代表某个智能体经验回放池中的一个样本，点的位置由rdata决定，采用根据类别或者Q值为点赋值颜色：根据类别来赋值颜色，点的颜色和对应智能体在标签板中的颜色一致；根据Q值来赋值颜色，点的颜色通过一种渐变的配色方案来编码；

步骤5.3：为用户提供两种方式来过滤得到重要的点；第一种：选择视图提供的蓝噪声采样模型来自动过滤点:输入采样率，视图将调用蓝噪声采样算法来自动重采样点，当采样率为1时，保留所有的原始点，不进行采样；第二种：通过修改Q值的范围来过滤样本点:只显示Q值落在该范围内的点；点击评论家行为视图中的一个点时，显示对应的Q值和全局环境图；全局环境图根据所有智能体和地标的位置绘制得到。

进一步地，步骤6包括如下具体步骤：

步骤6.1：数据预处理；

步骤6.1.1：假设地标j的位置为pos_l_j，智能体i在时刻t的位置为

计算得到智能体i在时刻t到地标j的距离dis(i,j,t)，用于距离子视图；

步骤6.1.2：将智能体活动的空间范围划分为n×n的网格，每个网格的ID用g_k表示；根据智能体的位置，计算得到智能体所位于的网格；在不同时间步下，智能体i所在的网格被记为一个位置时间序列：

0≤t＜max_step，其中

表示智能体i在时刻t所在的网格ID；地标j的位置时间序列表示为

0≤t＜max_step，

表示地标j在时刻t所在的网格ID，用于故事流子视图；

步骤6.2：设计距离子视图；距离子视图可视化在一轮的不同时间步下每个智能体到不同地标的距离，N个智能体对应于N个折线图，每个折线图包含L条线，代表当前智能体在不同时间步到不同地标的距离；X轴代表时间步，Y轴代表由dis(i,j,t)计算得到的距离值；线的颜色和标签板中的地标颜色相对应；

步骤6.3：设计奖励子视图；奖励子视图展示在一轮的不同时间步下奖励值的变化，X轴代表时间步，Y轴代表奖励值；所述奖励子视图只包含一条线；

步骤6.4：设计故事流子视图。

进一步地，步骤6.4包括如下具体步骤：

步骤6.4.1：将智能体和地标都称为实体，由E＝{e_i},(0≤i＜N+L)所表示，将所有实体的位置时间序列转化为一个交互会话的集合：I＝{i₁,...,i_p,...,i_n}，一个会话i_p表示一段时间内多个实体在某个位置上的交互，包含开始时间st_p、结束时间et_p、成员

和网格ID g_k，成员M_p表示参与某个交互会话的实体集合；一个网格内所包含的成员发生变化表示一个新的交互会话的开始；

步骤6.4.2：渲染故事流子视图；水平轴表示时间，每个实体被一种颜色的线条所表示，线条的颜色与标签板中的颜色定义一致；每个网格也用一种颜色赋值，由一种颜色填充的轮廓表示一个网格，在轮廓上方标识网格ID；如果一条线在一段时间内位于一个轮廓区域内，表示该实体在该段时间内出现在一个网格内；如果多条线在一段时间内被同一个轮廓所包围，表明相应的实体在该段时间内位于相同的网格中；线的聚合或发散表明一个交互会话的开始或结束，亦表明实体的交互关系发生了改变；

步骤6.4.3：在故事流子视图下渲染了一条显式的时间轴，当用户点击时间轴上的一个点时，在时间轴下方添加一个所选时间步的全局环境图，用于展示所有智能体和地标的空间位置，同时显示多个时间步下的全局环境图以辅助观察一个连续的交互过程。

本发明的优点在于，提出了一种新的可视分析方法，能支持交互式地分析合作类环境中MADDPG模型的工作流程和内部原理。该发明设计了多个协同的视图，从不同角度揭示MADDPG模型的内部执行机制。其中统计视图呈现了训练统计数据随着时间的变化情况；评论家行为视图支持比较和分析多个智能体在不同轮次下的经验回放池，结合t-SNE特征降维和蓝噪声采样的方法能在极大减少点数量的同时，保留重要的内部状态用于分析。交互视图能揭示不同智能体和环境物体之间的动态交互过程，辅助研究人员理解智能体如何通过协作完成一个任务的具体行为模式。

附图说明

图1为本发明的可视分析方法的流程图。

图2为本发明的系统界面图。

具体实施方式

为了更好地了解本发明的目的、结构及功能，下面结合附图，对本发明的面向MADDPG多智能体强化学习模型的可视分析方法做进一步详细的描述。

如图1所示，面向MADDPG多智能体强化学习模型的可视分析方法，包括如下步骤：

步骤1：选取一款合作类游戏作为MADDPG模型的运行环境，并定义相关的参数集合。

选择一个合作类游戏环境，如合作交流(cooperative communication)或合作导航(cooperative navigation)，该环境中包含N个智能体和L个地标。设置相关参数，包括学习率learning_rate、折扣因子γ、轮数EN、每一轮的最大时间步数max_step、批大小batch_size和多层感知器中的隐藏单元数大小HUN。

步骤2：训练MADDPG模型，保存并计算重要的中间数据。

步骤2.1：训练MADDPG模型。对MADDPG模型进行训练，一共训练EN轮。在每一轮中，首先初始化一个初始状态，然后根据最大时间步数max_step的大小迭代执行四个阶段：执行阶段、观测阶段、评论家(critic)更新阶段和行动者(actor)更新阶段。其中评论家更新阶段和行动者更新阶段不是在每次迭代中都执行，而是间隔一定时间步数才执行一次。

步骤2.2：保存并计算中间数据。在执行阶段，保存每一轮的奖励值，同时保存每一轮每一步中所有智能体和地标的环境位置和所有智能体共享的奖励值。在观测阶段，保存经验回放池中的数据，包括：1)多层感知器模型最后一个隐藏层的激活值；2)每个智能体的评论家预测得到的Q值；3)从经验回放池中采样得到样本中所有智能体和地标的位置。在评论家更新阶段，保存每一轮的Q值。在行动者更新阶段，保存每一轮的损失值A_loss。

步骤3：设计标签板，标识智能体和地标。

在标签板中，用不同颜色的圆表示不同的智能体和地标，其中智能体用较大的圆标识，地标用较小的圆标识。

步骤4：设计统计视图，包括平均Q值子视图、平均A_loss子视图和平均奖励子视图，展示MADDPG模型的训练统计信息随时间变化的情况。

基于保存得到的每一轮的Q值、A_loss值和奖励值，计算得到每隔200轮的平均Q值、平均A_loss值和平均奖励值。采用三个折线图分别显示平均Q值子视图、平均A_loss子视图和平均奖励子视图。对于平均Q值子视图和平均A_loss子视图来说，折线的数量与智能体的数量一致，每条线表示某个智能体的Q值/A_loss值的变化情况。线条的颜色与标签板中智能体的颜色保持统一。对于平均奖励值来说，由于在合作类环境中智能体有一个共享的奖励值，采用黑色的折线来表示。当用户选择统计视图中某个特定的轮次时，将更新下述的评论家行为视图和交互视图。

步骤5：设计评论家行为视图，用于评估模型学习得到的评论家的性能。

首先收集不同轮次下每个智能体经验回放池中样本的状态。对于选定的轮次X，从X-200轮开始，每隔20轮，收集一次多层感知器最后一个隐藏层的激活值。对于每个智能体，能收集得到batch_size*10个样本的激活值。对于具有N个智能体的游戏，特征矩阵被定义为hdata∈R^{(batch_size×10×N)×HUN}。hdata中的每一行数据对应于一个具有HUN维特征的样本。为了统一地比较不同智能体的经验回放池，采用t-SNE降维方法将hdata投影到二维空间，得到降维后的矩阵rdata，同时保存原始的智能体ID和由评论家预测得到的Q值。

基于rdata、Q值和智能体ID，可以渲染得到评论家行为视图。一个点代表某个智能体经验回放池中的一个样本，点的位置由rdata决定，采用两种方式为点赋值颜色。如果根据类别来赋值颜色，点的颜色和对应智能体在标签板中的颜色一致。如果根据Q值来赋值颜色，点的颜色通过一种渐变的配色方案来编码，如“紫色-红色-黄色-绿色”。其中，紫色的点具有较高的Q值，绿色的点具有较低的Q值。

由于初始收集的样本数量较大，直接展示所有样本点会导致视觉混乱。该视图为用户提供两种方式来过滤得到重要的点。用户可以首先选择视图提供的蓝噪声采样模型来自动过滤点。只需要输入采样率，视图将调用蓝噪声采样算法来自动重采样点，在极大减少样本点数量的同时，提供对不同智能体样本整体分布的精简表示。当采样率为1时，表示保留所有的原始点，即不进行采样。用户还可以修改Q值的范围来过滤样本点，只有Q值落在该范围内的点才被显示。当点击评论家行为视图中的一个点时，将显示对应的Q值和全局环境图。全局环境图根据所有智能体和地标的位置绘制得到。

步骤6：设计交互视图，包括距离子视图、奖励子视图和故事流(storyflow)子视图，提供在某一轮中智能体和地标交互情况的概览和细节，揭示不同智能体的行为模式。

步骤6.1：数据预处理。

对于某一轮来说，地标的位置随时间不动，而智能体的位置随时间变化。假设地标j的位置为pos_l_j，智能体i在时刻t的位置为

计算得到智能体i在时刻t到地标j的距离dis(i,j,t)，将用于距离子视图。

将智能体活动的空间范围划分为n×n的网格，每个网格的ID用g_k表示。根据智能体的位置，可以计算得到它所位于的网格。在不同时间步下，智能体i所在的网格可以被记为一个位置时间序列：

0≤t＜max_step。其中

表示智能体i在时刻t所在的网格ID。地标j的位置时间序列可以表示为

0≤t＜max_step。

表示地标j在时刻t所在的网格ID，不随时间变化。它们将用于故事流子视图。

步骤6.2：设计距离子视图。距离子视图可视化了在一轮的不同时间步下每个智能体到不同地标的距离。N个智能体对应于N个折线图。每个折线图包含L条线，代表当前智能体在不同时间步到不同地标的距离。X轴代表时间步，Y轴代表由dis(i,j,t)计算得到的距离值。线的颜色和标签板中的地标颜色相对应。

步骤6.3：设计奖励子视图。奖励子视图展示了在一轮的不同时间步下奖励值的变化。X轴代表时间步，Y轴代表奖励值。奖励子视图只包含一条线，因为多个智能体具有共享的奖励值。

步骤6.4：设计故事流子视图。

首先，将智能体和地标都称为实体，由E＝{e_i},(0≤i＜N+L)所表示。将所有实体的位置时间序列转化为一个交互会话的集合：I＝{i₁,...,i_p,...,i_n}。一个会话i_p表示一段时间内多个实体在某个位置上的交互，包含开始时间st_p、结束时间et_p、成员

和网格ID g_k。成员M_p表示参与某个交互会话的实体集合。对于一个网格来说，网格内所包含的成员发生变化则表示一个新的交互会话的开始。

然后，渲染故事流子视图。水平轴表示时间，每个实体被一种颜色的线条所表示，线条的颜色与标签板中的颜色定义一致。每个网格也用一种颜色赋值，由一种颜色填充的轮廓即表示一个网格，在轮廓上方标识了网格ID。如果一条线在一段时间内位于一个轮廓区域内，则表示该实体在那段时间内出现在一个网格内。如果多条线在一段时间内被同一个轮廓所包围，则表明相应的实体在该段时间内位于相同的网格中。线的聚合或发散表明一个交互会话的开始或结束，亦表明实体的交互关系发生了改变。

在故事流子视图下渲染了一条显式的时间轴，帮助用户对全局状态有直观的感受。当用户点击时间轴上的一个点时，将在时间轴下方添加一个所选时间步的全局环境图，用于展示所有智能体和地标的空间位置，同时显示多个时间步下的全局环境图能辅助观察一个连续的交互过程。

可以理解，本发明是通过一些实施例进行描述的，本领域技术人员知悉的，在不脱离本发明的精神和范围的情况下，可以对这些特征和实施例进行各种改变或等效替换。另外，在本发明的教导下，可以对这些特征和实施例进行修改以适应具体的情况及材料而不会脱离本发明的精神和范围。因此，本发明不受此处所公开的具体实施例的限制，所有落入本申请的权利要求范围内的实施例都属于本发明所保护的范围内。