CN113139024A - 面向maddpg多智能体强化学习模型的可视分析方法 - Google Patents

面向maddpg多智能体强化学习模型的可视分析方法 Download PDF

Info

Publication number
CN113139024A
CN113139024A CN202110504970.5A CN202110504970A CN113139024A CN 113139024 A CN113139024 A CN 113139024A CN 202110504970 A CN202110504970 A CN 202110504970A CN 113139024 A CN113139024 A CN 113139024A
Authority
CN
China
Prior art keywords
view
value
time
agent
sub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110504970.5A
Other languages
English (en)
Other versions
CN113139024B (zh
Inventor
史晓颖
梁紫怡
僧德文
张家铭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202110504970.5A priority Critical patent/CN113139024B/zh
Publication of CN113139024A publication Critical patent/CN113139024A/zh
Application granted granted Critical
Publication of CN113139024B publication Critical patent/CN113139024B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • G06F16/287Visualization; Browsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明属于信息技术领域,公开了一种面向MADDPG多智能体强化学习模型的可视分析方法,包括如下步骤:步骤1:选取一款合作类游戏作为MADDPG模型的运行环境,并定义相关的参数集合;步骤2:训练MADDPG模型,保存并计算重要的中间数据;步骤3:设计标签板,标识智能体和地标;步骤4:设计统计视图;步骤5:设计评论家行为视图,用于评估模型学习得到的评论家的性能;步骤6:设计交互视图。本发明提出了一种新的可视分析方法,能支持交互式地分析合作类环境中MADDPG模型的工作流程和内部原理。该发明设计了多个协同的视图,从不同角度揭示MADDPG模型的内部执行机制。

Description

面向MADDPG多智能体强化学习模型的可视分析方法
技术领域
本发明属于信息技术领域,尤其涉及一种面向MADDPG多智能体强化学习模型的可视分析方法。
背景技术
深度强化学习是当今非常热门的研究领域,已经被用于解决自动驾驶、交通控制、机器人系统控制等各种具有挑战性的应用问题。尽管深度强化学习在这些应用中表现出了优越的性能,研究人员对它们内在的执行机制仍然知之胜少。近几年来,研究人员提出了各种可视分析方法来提升深度强化学习模型的可解释性。对于Q网络(DQN),设计了可视分析系统DQNViz从不同层次揭示智能体的经验空间。对于竞争深度Q网络(dueling DQN)和异步优势行动者评论家(Asynchronous Advantage Actor-Critic)模型,生成显著性图来展示网络关注于输入图像的哪个部分。为了理解具有记忆的深度强化学习模型,研究人员设计了两个可视分析工具:DRLViz和DynamicsExplorer,分别用于辅助分析所训练智能体的内部状态和模拟参数对于内部状态的影响。但是,上述方法都只能分析单智能体强化学习模型。
多智能体深度确定性策略梯度模型(MADDPG,Multi-Agent Deep DeterministicPolicy Gradient)是一个具有代表性的多智能体强化学习模型。该模型采用集中训练和分散执行的机制,能基于所有智能体的观测和动作,对每个智能体学习得到一个评论家。相比于单智能体深度强化学习,分析多智能体深度强化学习模型更具挑战,主要在于:1)智能体数量的增加导致状态空间呈指数级增长,如何可视化由多个智能体生成的经验空间并揭示它们之间潜在的关联?2)多个智能体和不同的环境物体(地标)不断交互,如何直观地可视化随着时间变化的交互过程?现有研究缺乏对多智能体深度强化学习模型的可解释性研究。
发明内容
本发明目的在于提供一种可视分析方法,辅助分析者从不同角度理解MADDPG模型的内在执行原理。该发明针对多智能体合作类游戏环境,通过设计多个协同的视图,不仅能够提供模型训练过程中统计信息的概览,而且支持观察不同游戏轮次下各个智能体的经验空间、某个选定轮次下智能体和环境物体间的动态交互过程,辅助分析者评估所学习得到的评论家的有效性和理解智能体的学习过程。
本发明的具体技术方案如下:
一种面向MADDPG多智能体强化学习模型的可视分析方法,包括如下步骤:
步骤1:选取一款合作类游戏作为MADDPG模型的运行环境,并定义相关的参数集合;
步骤2:训练MADDPG模型,保存并计算重要的中间数据;
步骤3:设计标签板,标识智能体和地标;
步骤4:设计统计视图,包括平均Q值子视图、平均A_loss子视图和平均奖励子视图,展示MADDPG模型的训练统计信息随时间变化的情况;
步骤5:设计评论家行为视图,用于评估模型学习得到的评论家的性能;
步骤6:设计交互视图,包括距离子视图、奖励子视图和故事流子视图,提供在某一轮中智能体和地标交互情况的概览和细节,揭示不同智能体的行为模式。
进一步地,步骤1包括:
选择一个合作交流或合作导航的合作类游戏环境,所述环境中包含N个智能体和L个地标;设置相关参数,包括学习率learning_rate、折扣因子γ、轮数EN、每一轮的最大时间步数max_step、批大小batch_size和多层感知器中的隐藏单元数大小HUN。
进一步地,步骤2包括如下具体步骤:
步骤2.1:训练MADDPG模型:对MADDPG模型进行EN轮训练,在每一轮中,首先初始化一个初始状态,然后根据最大时间步数max_step的大小迭代执行四个阶段:执行阶段、观测阶段、评论家更新阶段和行动者更新阶段,所述评论家更新阶段和行动者更新阶段间隔一定时间步数执行一次。
步骤2.2:保存并计算中间数据:在执行阶段,保存每一轮的奖励值,同时保存每一轮每一步中所有智能体和地标的环境位置和所有智能体共享的奖励值;在观测阶段,保存经验回放池中的数据,包括:多层感知器模型最后一个隐藏层的激活值、每个智能体的评论家预测得到的Q值和从经验回放池中采样得到样本中所有智能体和地标的位置;在评论家更新阶段,保存每一轮的Q值;在行动者更新阶段,保存每一轮的损失值A_loss。
进一步地,步骤3包括如下具体步骤:
在标签板中,用不同颜色的圆表示不同的智能体和地标,所述智能体用较大的圆标识,所述地标用较小的圆标识。
进一步地,步骤4包括如下具体步骤:
基于保存得到的每一轮的Q值、A_loss值和奖励值,计算得到每隔200轮的平均Q值、平均A_loss值和平均奖励值;采用三个折线图分别显示平均Q值子视图、平均A_loss子视图和平均奖励子视图;平均Q值子视图和平均A_loss子视图的折线数量与智能体的数量一致,每条线表示某个智能体的Q值/A_loss值的变化情况;线条的颜色与标签板中智能体的颜色保持统一;平均奖励值采用黑色的折线来表示;当用户选择统计视图中某个特定的轮次时,更新评论家行为视图和交互视图。
进一步地,步骤5包括如下具体步骤:
步骤5.1:收集不同轮次下每个智能体经验回放池中样本的状态;对于选定的轮次X,从X-200轮开始,每隔20轮,收集一次多层感知器最后一个隐藏层的激活值;每个智能体能收集到batch_size*10个样本的激活值;对于具有N个智能体的游戏,特征矩阵定义为hdata∈R(batch_size×10×N)×HUN,hdata中的每一行数据对应于一个具有HUN维特征的样本;采用t-SNE降维方法将hdata投影到二维空间,得到降维后的矩阵rdata,同时保存原始的智能体ID和由评论家预测得到的Q值;
步骤5.2:基于rdata、Q值和智能体ID,渲染得到评论家行为视图;一个点代表某个智能体经验回放池中的一个样本,点的位置由rdata决定,采用根据类别或者Q值为点赋值颜色:根据类别来赋值颜色,点的颜色和对应智能体在标签板中的颜色一致;根据Q值来赋值颜色,点的颜色通过一种渐变的配色方案来编码;
步骤5.3:为用户提供两种方式来过滤得到重要的点;第一种:选择视图提供的蓝噪声采样模型来自动过滤点:输入采样率,视图将调用蓝噪声采样算法来自动重采样点,当采样率为1时,保留所有的原始点,不进行采样;第二种:通过修改Q值的范围来过滤样本点:只显示Q值落在该范围内的点;点击评论家行为视图中的一个点时,显示对应的Q值和全局环境图;全局环境图根据所有智能体和地标的位置绘制得到。
进一步地,步骤6包括如下具体步骤:
步骤6.1:数据预处理;
步骤6.1.1:假设地标j的位置为pos_lj,智能体i在时刻t的位置为
Figure BDA0003058004020000041
计算得到智能体i在时刻t到地标j的距离dis(i,j,t),用于距离子视图;
步骤6.1.2:将智能体活动的空间范围划分为n×n的网格,每个网格的ID用gk表示;根据智能体的位置,计算得到智能体所位于的网格;在不同时间步下,智能体i所在的网格被记为一个位置时间序列:
Figure BDA0003058004020000042
0≤t<max_step,其中
Figure BDA0003058004020000043
表示智能体i在时刻t所在的网格ID;地标j的位置时间序列表示为
Figure BDA0003058004020000051
0≤t<max_step,
Figure BDA0003058004020000052
表示地标j在时刻t所在的网格ID,用于故事流子视图;
步骤6.2:设计距离子视图;距离子视图可视化在一轮的不同时间步下每个智能体到不同地标的距离,N个智能体对应于N个折线图,每个折线图包含L条线,代表当前智能体在不同时间步到不同地标的距离;X轴代表时间步,Y轴代表由dis(i,j,t)计算得到的距离值;线的颜色和标签板中的地标颜色相对应;
步骤6.3:设计奖励子视图;奖励子视图展示在一轮的不同时间步下奖励值的变化,X轴代表时间步,Y轴代表奖励值;所述奖励子视图只包含一条线;
步骤6.4:设计故事流子视图。
进一步地,步骤6.4包括如下具体步骤:
步骤6.4.1:将智能体和地标都称为实体,由E={ei},(0≤i<N+L)所表示,将所有实体的位置时间序列转化为一个交互会话的集合:I={i1,...,ip,...,in},一个会话ip表示一段时间内多个实体在某个位置上的交互,包含开始时间stp、结束时间etp、成员
Figure BDA0003058004020000053
和网格ID gk,成员Mp表示参与某个交互会话的实体集合;一个网格内所包含的成员发生变化表示一个新的交互会话的开始;
步骤6.4.2:渲染故事流子视图;水平轴表示时间,每个实体被一种颜色的线条所表示,线条的颜色与标签板中的颜色定义一致;每个网格也用一种颜色赋值,由一种颜色填充的轮廓表示一个网格,在轮廓上方标识网格ID;如果一条线在一段时间内位于一个轮廓区域内,表示该实体在该段时间内出现在一个网格内;如果多条线在一段时间内被同一个轮廓所包围,表明相应的实体在该段时间内位于相同的网格中;线的聚合或发散表明一个交互会话的开始或结束,亦表明实体的交互关系发生了改变;
步骤6.4.3:在故事流子视图下渲染了一条显式的时间轴,当用户点击时间轴上的一个点时,在时间轴下方添加一个所选时间步的全局环境图,用于展示所有智能体和地标的空间位置,同时显示多个时间步下的全局环境图以辅助观察一个连续的交互过程。
本发明的优点在于,提出了一种新的可视分析方法,能支持交互式地分析合作类环境中MADDPG模型的工作流程和内部原理。该发明设计了多个协同的视图,从不同角度揭示MADDPG模型的内部执行机制。其中统计视图呈现了训练统计数据随着时间的变化情况;评论家行为视图支持比较和分析多个智能体在不同轮次下的经验回放池,结合t-SNE特征降维和蓝噪声采样的方法能在极大减少点数量的同时,保留重要的内部状态用于分析。交互视图能揭示不同智能体和环境物体之间的动态交互过程,辅助研究人员理解智能体如何通过协作完成一个任务的具体行为模式。
附图说明
图1为本发明的可视分析方法的流程图。
图2为本发明的系统界面图。
具体实施方式
为了更好地了解本发明的目的、结构及功能,下面结合附图,对本发明的面向MADDPG多智能体强化学习模型的可视分析方法做进一步详细的描述。
如图1所示,面向MADDPG多智能体强化学习模型的可视分析方法,包括如下步骤:
步骤1:选取一款合作类游戏作为MADDPG模型的运行环境,并定义相关的参数集合。
选择一个合作类游戏环境,如合作交流(cooperative communication)或合作导航(cooperative navigation),该环境中包含N个智能体和L个地标。设置相关参数,包括学习率learning_rate、折扣因子γ、轮数EN、每一轮的最大时间步数max_step、批大小batch_size和多层感知器中的隐藏单元数大小HUN。
步骤2:训练MADDPG模型,保存并计算重要的中间数据。
步骤2.1:训练MADDPG模型。对MADDPG模型进行训练,一共训练EN轮。在每一轮中,首先初始化一个初始状态,然后根据最大时间步数max_step的大小迭代执行四个阶段:执行阶段、观测阶段、评论家(critic)更新阶段和行动者(actor)更新阶段。其中评论家更新阶段和行动者更新阶段不是在每次迭代中都执行,而是间隔一定时间步数才执行一次。
步骤2.2:保存并计算中间数据。在执行阶段,保存每一轮的奖励值,同时保存每一轮每一步中所有智能体和地标的环境位置和所有智能体共享的奖励值。在观测阶段,保存经验回放池中的数据,包括:1)多层感知器模型最后一个隐藏层的激活值;2)每个智能体的评论家预测得到的Q值;3)从经验回放池中采样得到样本中所有智能体和地标的位置。在评论家更新阶段,保存每一轮的Q值。在行动者更新阶段,保存每一轮的损失值A_loss。
步骤3:设计标签板,标识智能体和地标。
在标签板中,用不同颜色的圆表示不同的智能体和地标,其中智能体用较大的圆标识,地标用较小的圆标识。
步骤4:设计统计视图,包括平均Q值子视图、平均A_loss子视图和平均奖励子视图,展示MADDPG模型的训练统计信息随时间变化的情况。
基于保存得到的每一轮的Q值、A_loss值和奖励值,计算得到每隔200轮的平均Q值、平均A_loss值和平均奖励值。采用三个折线图分别显示平均Q值子视图、平均A_loss子视图和平均奖励子视图。对于平均Q值子视图和平均A_loss子视图来说,折线的数量与智能体的数量一致,每条线表示某个智能体的Q值/A_loss值的变化情况。线条的颜色与标签板中智能体的颜色保持统一。对于平均奖励值来说,由于在合作类环境中智能体有一个共享的奖励值,采用黑色的折线来表示。当用户选择统计视图中某个特定的轮次时,将更新下述的评论家行为视图和交互视图。
步骤5:设计评论家行为视图,用于评估模型学习得到的评论家的性能。
首先收集不同轮次下每个智能体经验回放池中样本的状态。对于选定的轮次X,从X-200轮开始,每隔20轮,收集一次多层感知器最后一个隐藏层的激活值。对于每个智能体,能收集得到batch_size*10个样本的激活值。对于具有N个智能体的游戏,特征矩阵被定义为hdata∈R(batch_size×10×N)×HUN。hdata中的每一行数据对应于一个具有HUN维特征的样本。为了统一地比较不同智能体的经验回放池,采用t-SNE降维方法将hdata投影到二维空间,得到降维后的矩阵rdata,同时保存原始的智能体ID和由评论家预测得到的Q值。
基于rdata、Q值和智能体ID,可以渲染得到评论家行为视图。一个点代表某个智能体经验回放池中的一个样本,点的位置由rdata决定,采用两种方式为点赋值颜色。如果根据类别来赋值颜色,点的颜色和对应智能体在标签板中的颜色一致。如果根据Q值来赋值颜色,点的颜色通过一种渐变的配色方案来编码,如“紫色-红色-黄色-绿色”。其中,紫色的点具有较高的Q值,绿色的点具有较低的Q值。
由于初始收集的样本数量较大,直接展示所有样本点会导致视觉混乱。该视图为用户提供两种方式来过滤得到重要的点。用户可以首先选择视图提供的蓝噪声采样模型来自动过滤点。只需要输入采样率,视图将调用蓝噪声采样算法来自动重采样点,在极大减少样本点数量的同时,提供对不同智能体样本整体分布的精简表示。当采样率为1时,表示保留所有的原始点,即不进行采样。用户还可以修改Q值的范围来过滤样本点,只有Q值落在该范围内的点才被显示。当点击评论家行为视图中的一个点时,将显示对应的Q值和全局环境图。全局环境图根据所有智能体和地标的位置绘制得到。
步骤6:设计交互视图,包括距离子视图、奖励子视图和故事流(storyflow)子视图,提供在某一轮中智能体和地标交互情况的概览和细节,揭示不同智能体的行为模式。
步骤6.1:数据预处理。
对于某一轮来说,地标的位置随时间不动,而智能体的位置随时间变化。假设地标j的位置为pos_lj,智能体i在时刻t的位置为
Figure BDA0003058004020000091
计算得到智能体i在时刻t到地标j的距离dis(i,j,t),将用于距离子视图。
将智能体活动的空间范围划分为n×n的网格,每个网格的ID用gk表示。根据智能体的位置,可以计算得到它所位于的网格。在不同时间步下,智能体i所在的网格可以被记为一个位置时间序列:
Figure BDA0003058004020000092
0≤t<max_step。其中
Figure BDA0003058004020000093
表示智能体i在时刻t所在的网格ID。地标j的位置时间序列可以表示为
Figure BDA0003058004020000094
0≤t<max_step。
Figure BDA0003058004020000095
表示地标j在时刻t所在的网格ID,不随时间变化。它们将用于故事流子视图。
步骤6.2:设计距离子视图。距离子视图可视化了在一轮的不同时间步下每个智能体到不同地标的距离。N个智能体对应于N个折线图。每个折线图包含L条线,代表当前智能体在不同时间步到不同地标的距离。X轴代表时间步,Y轴代表由dis(i,j,t)计算得到的距离值。线的颜色和标签板中的地标颜色相对应。
步骤6.3:设计奖励子视图。奖励子视图展示了在一轮的不同时间步下奖励值的变化。X轴代表时间步,Y轴代表奖励值。奖励子视图只包含一条线,因为多个智能体具有共享的奖励值。
步骤6.4:设计故事流子视图。
首先,将智能体和地标都称为实体,由E={ei},(0≤i<N+L)所表示。将所有实体的位置时间序列转化为一个交互会话的集合:I={i1,...,ip,...,in}。一个会话ip表示一段时间内多个实体在某个位置上的交互,包含开始时间stp、结束时间etp、成员
Figure BDA0003058004020000101
和网格ID gk。成员Mp表示参与某个交互会话的实体集合。对于一个网格来说,网格内所包含的成员发生变化则表示一个新的交互会话的开始。
然后,渲染故事流子视图。水平轴表示时间,每个实体被一种颜色的线条所表示,线条的颜色与标签板中的颜色定义一致。每个网格也用一种颜色赋值,由一种颜色填充的轮廓即表示一个网格,在轮廓上方标识了网格ID。如果一条线在一段时间内位于一个轮廓区域内,则表示该实体在那段时间内出现在一个网格内。如果多条线在一段时间内被同一个轮廓所包围,则表明相应的实体在该段时间内位于相同的网格中。线的聚合或发散表明一个交互会话的开始或结束,亦表明实体的交互关系发生了改变。
在故事流子视图下渲染了一条显式的时间轴,帮助用户对全局状态有直观的感受。当用户点击时间轴上的一个点时,将在时间轴下方添加一个所选时间步的全局环境图,用于展示所有智能体和地标的空间位置,同时显示多个时间步下的全局环境图能辅助观察一个连续的交互过程。
可以理解,本发明是通过一些实施例进行描述的,本领域技术人员知悉的,在不脱离本发明的精神和范围的情况下,可以对这些特征和实施例进行各种改变或等效替换。另外,在本发明的教导下,可以对这些特征和实施例进行修改以适应具体的情况及材料而不会脱离本发明的精神和范围。因此,本发明不受此处所公开的具体实施例的限制,所有落入本申请的权利要求范围内的实施例都属于本发明所保护的范围内。

Claims (8)

1.一种面向MADDPG多智能体强化学习模型的可视分析方法,其特征在于,包括如下步骤:
步骤1:选取一款合作类游戏作为MADDPG模型的运行环境,并定义相关的参数集合;
步骤2:训练MADDPG模型,保存并计算重要的中间数据;
步骤3:设计标签板,标识智能体和地标;
步骤4:设计统计视图,包括平均Q值子视图、平均A_loss子视图和平均奖励子视图,展示MADDPG模型的训练统计信息随时间变化的情况;
步骤5:设计评论家行为视图,用于评估模型学习得到的评论家的性能;
步骤6:设计交互视图,包括距离子视图、奖励子视图和故事流子视图,提供在某一轮中智能体和地标交互情况的概览和细节,揭示不同智能体的行为模式。
2.根据权利要求1所述的面向MADDPG多智能体强化学习模型的可视分析方法,其特征在于,步骤1包括:
选择一个合作交流或合作导航的合作类游戏环境,所述环境中包含N个智能体和L个地标;设置相关参数,包括学习率learning_rate、折扣因子γ、轮数EN、每一轮的最大时间步数max_step、批大小batch_size和多层感知器中的隐藏单元数大小HUN。
3.根据权利要求2所述的面向MADDPG多智能体强化学习模型的可视分析方法,其特征在于,步骤2包括如下具体步骤:
步骤2.1:训练MADDPG模型:对MADDPG模型进行EN轮训练,在每一轮中,首先初始化一个初始状态,然后根据最大时间步数max_step的大小迭代执行四个阶段:执行阶段、观测阶段、评论家更新阶段和行动者更新阶段,所述评论家更新阶段和行动者更新阶段间隔一定时间步数执行一次。
步骤2.2:保存并计算中间数据:在执行阶段,保存每一轮的奖励值,同时保存每一轮每一步中所有智能体和地标的环境位置和所有智能体共享的奖励值;在观测阶段,保存经验回放池中的数据,包括:多层感知器模型最后一个隐藏层的激活值、每个智能体的评论家预测得到的Q值和从经验回放池中采样得到样本中所有智能体和地标的位置;在评论家更新阶段,保存每一轮的Q值;在行动者更新阶段,保存每一轮的损失值A_loss。
4.根据权利要求1所述的面向MADDPG多智能体强化学习模型的可视分析方法,其特征在于,步骤3包括如下具体步骤:
在标签板中,用不同颜色的圆表示不同的智能体和地标,所述智能体用较大的圆标识,所述地标用较小的圆标识。
5.根据权利要求3所述的面向MADDPG多智能体强化学习模型的可视分析方法,其特征在于,步骤4包括如下具体步骤:
基于保存得到的每一轮的Q值、A_loss值和奖励值,计算得到每隔200轮的平均Q值、平均A_loss值和平均奖励值;采用三个折线图分别显示平均Q值子视图、平均A_loss子视图和平均奖励子视图;平均Q值子视图和平均A_loss子视图的折线数量与智能体的数量一致,每条线表示某个智能体的Q值/A_loss值的变化情况;线条的颜色与标签板中智能体的颜色保持统一;平均奖励值采用黑色的折线来表示;当用户选择统计视图中某个特定的轮次时,更新评论家行为视图和交互视图。
6.根据权利要求3所述的面向MADDPG多智能体强化学习模型的可视分析方法,其特征在于,步骤5包括如下具体步骤:
步骤5.1:收集不同轮次下每个智能体经验回放池中样本的状态;对于选定的轮次X,从X-200轮开始,每隔20轮,收集一次多层感知器最后一个隐藏层的激活值;每个智能体能收集到batch_size*10个样本的激活值;对于具有N个智能体的游戏,特征矩阵定义为hdata∈R(batch_size×10×N)×HUN,hdata中的每一行数据对应于一个具有HUN维特征的样本;采用t-SNE降维方法将hdata投影到二维空间,得到降维后的矩阵rdata,同时保存原始的智能体ID和由评论家预测得到的Q值;
步骤5.2:基于rdata、Q值和智能体ID,渲染得到评论家行为视图;一个点代表某个智能体经验回放池中的一个样本,点的位置由rdata决定,采用根据类别或者Q值为点赋值颜色:根据类别来赋值颜色,点的颜色和对应智能体在标签板中的颜色一致;根据Q值来赋值颜色,点的颜色通过一种渐变的配色方案来编码;
步骤5.3:为用户提供两种方式来过滤得到重要的点;第一种:选择视图提供的蓝噪声采样模型来自动过滤点:输入采样率,视图将调用蓝噪声采样算法来自动重采样点,当采样率为1时,保留所有的原始点,不进行采样;第二种:通过修改Q值的范围来过滤样本点:只显示Q值落在该范围内的点;点击评论家行为视图中的一个点时,显示对应的Q值和全局环境图;全局环境图根据所有智能体和地标的位置绘制得到。
7.根据权利要求1所述的面向MADDPG多智能体强化学习模型的可视分析方法,其特征在于,步骤6包括如下具体步骤:
步骤6.1:数据预处理;
步骤6.1.1:假设地标j的位置为pos_lj,智能体i在时刻t的位置为
Figure FDA0003058004010000031
计算得到智能体i在时刻t到地标j的距离dis(i,j,t),用于距离子视图;
步骤6.1.2:将智能体活动的空间范围划分为n×n的网格,每个网格的ID用gk表示;根据智能体的位置,计算得到智能体所位于的网格;在不同时间步下,智能体i所在的网格被记为一个位置时间序列:
Figure FDA0003058004010000032
其中
Figure FDA0003058004010000033
表示智能体i在时刻t所在的网格ID;地标j的位置时间序列表示为
Figure FDA0003058004010000034
Figure FDA0003058004010000035
表示地标j在时刻t所在的网格ID,用于故事流子视图;
步骤6.2:设计距离子视图;距离子视图可视化在一轮的不同时间步下每个智能体到不同地标的距离,N个智能体对应于N个折线图,每个折线图包含L条线,代表当前智能体在不同时间步到不同地标的距离;X轴代表时间步,Y轴代表由dis(i,j,t)计算得到的距离值;线的颜色和标签板中的地标颜色相对应;
步骤6.3:设计奖励子视图;奖励子视图展示在一轮的不同时间步下奖励值的变化,X轴代表时间步,Y轴代表奖励值;所述奖励子视图只包含一条线;
步骤6.4:设计故事流子视图。
8.根据权利要求7所述的面向MADDPG多智能体强化学习模型的可视分析方法,其特征在于,步骤6.4包括如下具体步骤:
步骤6.4.1:将智能体和地标都称为实体,由E={ei},(0≤i<N+L)所表示,将所有实体的位置时间序列转化为一个交互会话的集合:I={i1,...,ip,...,in},一个会话ip表示一段时间内多个实体在某个位置上的交互,包含开始时间stp、结束时间etp、成员
Figure FDA0003058004010000041
和网格ID gk,成员Mp表示参与某个交互会话的实体集合;一个网格内所包含的成员发生变化表示一个新的交互会话的开始;
步骤6.4.2:渲染故事流子视图;水平轴表示时间,每个实体被一种颜色的线条所表示,线条的颜色与标签板中的颜色定义一致;每个网格也用一种颜色赋值,由一种颜色填充的轮廓表示一个网格,在轮廓上方标识网格ID;如果一条线在一段时间内位于一个轮廓区域内,表示该实体在该段时间内出现在一个网格内;如果多条线在一段时间内被同一个轮廓所包围,表明相应的实体在该段时间内位于相同的网格中;线的聚合或发散表明一个交互会话的开始或结束,亦表明实体的交互关系发生了改变;
步骤6.4.3:在故事流子视图下渲染了一条显式的时间轴,当用户点击时间轴上的一个点时,在时间轴下方添加一个所选时间步的全局环境图,用于展示所有智能体和地标的空间位置,同时显示多个时间步下的全局环境图以辅助观察一个连续的交互过程。
CN202110504970.5A 2021-05-10 2021-05-10 面向maddpg多智能体强化学习模型的可视分析方法 Active CN113139024B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110504970.5A CN113139024B (zh) 2021-05-10 2021-05-10 面向maddpg多智能体强化学习模型的可视分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110504970.5A CN113139024B (zh) 2021-05-10 2021-05-10 面向maddpg多智能体强化学习模型的可视分析方法

Publications (2)

Publication Number Publication Date
CN113139024A true CN113139024A (zh) 2021-07-20
CN113139024B CN113139024B (zh) 2022-07-08

Family

ID=76817919

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110504970.5A Active CN113139024B (zh) 2021-05-10 2021-05-10 面向maddpg多智能体强化学习模型的可视分析方法

Country Status (1)

Country Link
CN (1) CN113139024B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023109640A1 (zh) * 2021-12-14 2023-06-22 深圳先进技术研究院 无人驾驶场景下深度强化学习模型的可解释性方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130055115A1 (en) * 2011-08-26 2013-02-28 Marek Obitko System And Method For Implementing A User Interface To A Multi-Agent Distributed Control System
US20160063992A1 (en) * 2014-08-29 2016-03-03 At&T Intellectual Property I, L.P. System and method for multi-agent architecture for interactive machines
US20190303765A1 (en) * 2018-03-30 2019-10-03 Visa International Service Association Method, System, and Computer Program Product for Implementing Reinforcement Learning
CN110428057A (zh) * 2019-05-06 2019-11-08 南京大学 一种基于多智能体深度强化学习算法的智能博弈系统
CN111428865A (zh) * 2020-04-20 2020-07-17 杭州电子科技大学 一种用于理解dqn模型的可视分析方法
CN112215364A (zh) * 2020-09-17 2021-01-12 天津(滨海)人工智能军民融合创新中心 一种基于强化学习的敌-友深度确定性策略方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130055115A1 (en) * 2011-08-26 2013-02-28 Marek Obitko System And Method For Implementing A User Interface To A Multi-Agent Distributed Control System
US20160063992A1 (en) * 2014-08-29 2016-03-03 At&T Intellectual Property I, L.P. System and method for multi-agent architecture for interactive machines
US20190303765A1 (en) * 2018-03-30 2019-10-03 Visa International Service Association Method, System, and Computer Program Product for Implementing Reinforcement Learning
CN110428057A (zh) * 2019-05-06 2019-11-08 南京大学 一种基于多智能体深度强化学习算法的智能博弈系统
CN111428865A (zh) * 2020-04-20 2020-07-17 杭州电子科技大学 一种用于理解dqn模型的可视分析方法
CN112215364A (zh) * 2020-09-17 2021-01-12 天津(滨海)人工智能军民融合创新中心 一种基于强化学习的敌-友深度确定性策略方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
祁文凯等: "基于延迟策略的最大熵优势演员评论家算法", 《小型微型计算机系统》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023109640A1 (zh) * 2021-12-14 2023-06-22 深圳先进技术研究院 无人驾驶场景下深度强化学习模型的可解释性方法及系统

Also Published As

Publication number Publication date
CN113139024B (zh) 2022-07-08

Similar Documents

Publication Publication Date Title
CN107403426B (zh) 一种目标物体检测方法及设备
CN106981080A (zh) 基于红外图像和雷达数据的夜间无人车场景深度估计方法
Wilson et al. How to generate a thousand master plans: A framework for computational urban design
CN111861588B (zh) 流失预测模型的训练方法、玩家流失原因分析方法及装置
CN107204025A (zh) 基于视觉感知的自适应服装动画建模方法
CN109189519A (zh) 一种通用的用户桌面行为模拟系统及方法
CN108920805B (zh) 具有状态特征提取功能的驾驶员行为建模系统
CN113139024B (zh) 面向maddpg多智能体强化学习模型的可视分析方法
CN108891421B (zh) 一种构建驾驶策略的方法
DE102022201780A1 (de) Visuelles Analysesystem zum Bewerten, Verstehen und Verbessern tiefer neuronaler Netze
CN108944940B (zh) 基于神经网络的驾驶员行为建模方法
CN114330109A (zh) 无人驾驶场景下深度强化学习模型的可解释性方法及系统
CN112121419B (zh) 虚拟对象控制方法、装置、电子设备以及存储介质
Zha et al. Evaluate, explain, and explore the state more exactly: an improved Actor-Critic algorithm for complex environment
Yang et al. Algorithm for appearance simulation of plant diseases based on symptom classification
Strezoski et al. Plug-and-play interactive deep network visualization
Peters et al. Machine learning meets individual-based modelling: Self-organising feature maps for the analysis of below-ground competition among plants
Boschetti et al. Interactive modelling for natural resource management
CN115018729B (zh) 一种面向内容的白盒图像增强方法
CN116510302A (zh) 虚拟对象异常行为的分析方法、装置及电子设备
CN113393667B (zh) 一种基于Categorical-DQN乐观探索的交通控制方法
DE102021122663A1 (de) Auf künstlicher Intelligenz beruhende Techniken zur Gestaltungserzeugung in virtuellen Umgebungen
Farooq et al. An interactive visualization of genetic algorithm on 2-d graph
US7756692B2 (en) Crowd behavior modeling method and system
Montana Gonzalez Sketching for real-time control of crowd simulations

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant