CN115936058A - 一种基于图注意力网络的多智能体迁移强化学习方法 - Google Patents

一种基于图注意力网络的多智能体迁移强化学习方法 Download PDF

Info

Publication number
CN115936058A
CN115936058A CN202211578473.0A CN202211578473A CN115936058A CN 115936058 A CN115936058 A CN 115936058A CN 202211578473 A CN202211578473 A CN 202211578473A CN 115936058 A CN115936058 A CN 115936058A
Authority
CN
China
Prior art keywords
agent
migration
state
action
knowledge
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211578473.0A
Other languages
English (en)
Inventor
于向超
候亚庆
张强
裴文彬
葛宏伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN202211578473.0A priority Critical patent/CN115936058A/zh
Publication of CN115936058A publication Critical patent/CN115936058A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种基于图注意力网络的多智能体迁移强化学习方法。本发明计算智能体与环境交互的轨迹特征,根据智能体轨迹特征的相似程度构建智能体知识迁移关系图;在关系图上应用硬注意力机制切断无关的迁移关系,进一步应用软注意力机制选择注意权重最大的智能体作为知识迁移对象。在判断知识迁移时间的方式上,设计一个二分类神经网络,通过向网络输入智能体和知识迁移对象的动作及价值,输出本次知识迁移是否执行;通过设计基于动作价值方差的损失函数指导分类网络训练,实现自适应学习与判断知识迁移时间;该方式充分的减少了不必要的知识迁移,增加了知识有效迁移的效率,促使智能体在任务上得到收敛速度更快、表现更好的解决方案。

Description

一种基于图注意力网络的多智能体迁移强化学习方法
技术领域
本发明属于多智能体强化学习技术领域,涉及一种基于图注意力网络的多智能体迁移强化学习方法。
背景技术
随着科学技术的进步,多智能体系统已经成为复杂动态系统研究的一个热点,引起了计算机、人工智能、生物生态、通讯控制等诸多领域科技工作者的广泛关注,并且在包括无线通信系统、电力网络、机器人、游戏AI等在内的多种行业中得到广泛应用。随着当前社会劳动力成本的提高和人工智能算法的飞速发展,相较于需要依靠专家才能设计多智能体系统任务策略的传统方法而言,使用强化学习技术训练的多智能体系统策略可以在没有专家的指导下自行学习如何完成任务,这使得越来越多的研究人员倾向于使用强化学习技术来设计多智能体系统的任务策略。多智能体系统中复杂的任务环境以及智能体数量庞大等特性对系统的任务解决能力和学习效率提出了更高的要求。因此,针对具体的多智能体任务场景,设计出高效的多智能体强化学习算法至关重要。
多智能体强化学习通常针对具体的任务场景,为环境中的智能体建立相应的策略学习网络。进一步设计强化学习算法使得智能体在与环境的交互过程中根据环境的奖励反馈调整自身的网络参数,以便更好的完成多智能体系统的预设任务。在实际的工作场景中,任务开始时智能体并不清楚环境信息、任务信息、奖励信息,以及如何完成任务。通常为智能体设计随机的而探索策略来帮助智能体了解环境和任务,所以从零开始的学习智能体需要长时间的训练才能更好的适应任务环境和学习到如何完成任务。例如,在足球游戏场景中,智能体(球员)事先不知道将足球射入球门才能得分,因此智能体在球场上随机移动,经过长时间的训练才能学会进球得分。一个良好的智能体策略通常需要上万轮的训练才能得到,耗费了大量的训练时间和计算资源。因此,如何在多智能体系统中设计一种高效加快系统学习的强化学习算法,是一个值得研究的问题。
迁移学习是一种将从专家或其他过程中获取的知识迁移到当前任务中,达到加速学习的有效手段。传统的多智能体强化学习训练速度慢、学习效率低等问题,很大程度是由于环境中的智能体独自学习,缺乏有效的沟通与知识共享造成的。例如,在导航任务中,每个智能体独自学习如何到达目标,相当于同时训练多个相同的策略,造成重复训练和资源浪费;若一个智能体学会如何到达目标,将其知识分享给其他智能体,则可以显著加快系统的学习效率。因此,迁移学习与强化学习融合的多智能体迁移强化学习是加快多智能体系统学习的有效手段。
多智能体迁移强化学习的核心思想是帮助智能体在学习目标任务时,借鉴与其相似任务上的知识,以提高在目标任务上的学习效率。具体地,智能体需要与环境中的其他智能体进行知识迁移,针对具体的任务选择合适的智能体寻求知识建议,从而帮助自己更好的学习。在多智能体系统中,智能体试图探索环境以学习到合适的策略来解决问题,但不同智能体探索的差异导致了策略知识的不同。表现良好的智能体拥有其他智能体未学到的知识,通过寻找表现良好的智能体进行知识迁移,可以帮助表现不好的智能体学习,从而加快系统学习的速度。
现有的多智能体迁移强化学习算法包括:依靠人类专家的传统方法;基于建议的知识迁移方法,包括:Ad-Hoc、建议交换、双向模仿等;基于建议预算的多智能体迁移强化学习算法(Teachona Budget);将多头网络的思想应用于深度价值网络(DQN)的带有信心的缓和策略方法(RCMP)等等。然而上述方法需要依靠人类专家的加入或者需要面向所有智能体进行轮询来选择迁移目标,仅适用于少量智能体的简单场景。在具有大量智能体的复杂任务场景中,人类专家难以设计任务策略,向所有智能体进行轮询请求建议,将导致计算成本高、效率低、收敛速度慢等问题。除此之外,现有算法依然无法有效的解决以下三个难题:
(1)选择哪些知识进行迁移(What)。当前的多智能体迁移强化学习算法通常采取状态、动作、动作价值、网络参数、抽象的高级知识等作为迁移内容。当迁移的知识过多时,会导致通信成本增加;迁移知识过少时,知识难以起到帮助学习的作用,因此需要设计合适的知识迁移内容。
(2)和谁进行知识迁移(Who)。多智能体系统中存在大量的智能体,每个智能体具有不同的知识和任务完成能力,如何选择合适的智能体进行知识迁移是一个关键问题。仅选择表现最好的精英智能体进行知识迁移忽视了从其他智能体(具有相似轨迹等)中获取有效知识迁移的可能性。采用轮询的方式又会导致资源浪费,增加迁移成本。
(3)何时进行知识迁移(When)。当确定了知识迁移对象后,智能体需要决定是否接受迁移对象传递的知识,如果盲目的接受知识迁移可能导致负迁移。若智能体自身可以很好地处理任务,多余的知识迁移过程也会造成通信资源的浪费。
发明内容
针对当前算法在选择知识迁移对象和判断知识迁移时间的不足等问题,本发明提出了一种基于图注意力网络的多智能体迁移强化学习方法。
本发明中,在知识迁移对象的选择上,与传统多智能体迁移强化学习算法在智能体间通过轮询选择知识迁移对象的方式不同。本发明计算智能体与环境交互的轨迹特征,根据智能体轨迹特征的相似程度构建智能体知识迁移关系图。在关系图上应用硬注意力机制切断无关的迁移关系,进一步应用软注意力机制选择注意权重最大的智能体作为知识迁移对象。这种方式不但有效的增加了知识迁移对象选择的精度,还降低了计算成本,更好地适用于智能体规模较大的场景。在判断知识迁移时间的方式上,本发明设计了一个二分类神经网络,通过向网络输入智能体和知识迁移对象的动作及价值,输出本次知识迁移是否执行。通过设计基于动作价值方差的损失函数指导分类网络训练,实现自适应学习与判断知识迁移时间。该方式充分的减少了不必要的知识迁移,增加了知识有效迁移的效率,促使智能体在任务上得到收敛速度更快、表现更好的解决方案。
本发明中,智能体的任务是完成多智能体系统设定的任务目标,解决方案是智能体完成任务的策略网络参数。在此基础上,本发明方法大致分为三个阶段:
(1)选择知识迁移对象阶段:将多智能体系统中的智能体定义为点,智能体之间的知识迁移关系定义为边,即将多智能体系统构建为完全连接图。每个智能体的观测状态作为其点的特征,通过长短期记忆单元计算每个节点的隐藏特征表示,即智能体轨迹特征。将所有智能体的轨迹特征输入硬注意力网络,输出智能体之间的迁移关系权重为0或1(为0则表示切断不需要迁移的边,为1则表示保留潜在的迁移关系边)。进一步通过软注意力机制,获得保留下的潜在迁移关系的重要性权重(其值在0和1之间),选择注意权重最大的智能体作为迁移对象。即通过轨迹的相似性选择最相似的智能体作为迁移对象,因为具有相似的轨迹的智能体具有相似的任务策略。
(2)判断知识迁移时间阶段:智能体的知识定义为在某一环境状态下应当采取何种动作,所以知识迁移的内容为动作。即在某一状态下智能体将当前状态传递给迁移对象,迁移对象根据自己的策略知识给出在此状态下应采取何种动作,并作为动作建议传递给该智能体。将智能体在该状态下的所有动作估计值的方差作为该状态的信心。方差越小,意味着在该状态下的动作估计值的分布越均匀,智能体越不能明确采取何种动作;而方差越大,意味着在该状态下的动作估计值的分布越离散,智能体对某动作有显著的信心,因此不需要知识迁移。通过将两智能体的动作估计值输入神经网络,在状态信心的指导下输出是否进行知识迁移,即完成迁移时间判断。
(3)多智能体强化学习阶段:将智能体在环境中的学习过程定义为马尔可夫决策过程,即智能体学习策略为状态-动作到奖励的映射关系。智能体在学习过程中通过与环境交互获得状态、动作、奖励等存入经验池,采用重要性采样等方式训练智能体网络来完成策略更新。在智能体与环境交互过程中,智能体首先通过上述选择知识迁移对象和判断知识迁移时间过程决定是否进行知识迁移。若进行知识迁移,则采取知识迁移过程中建议的动作;若不进行知识迁移,则采取智能体自身的策略选择动作。
本发明采用传统深度强化学习算法(例如,DQN算法、DDQN算法等)求解多智能体环境中的单个智能体策略,通过智能体策略知识的迁移操作加快任务收敛速度。
为了达到上述目的,本发明采用的技术方案如下。
一种基于图注意力网络的多智能体迁移强化学习方法,具体步骤如下:
步骤1、设定智能体强化学习模型。
多智能体强化学习任务由一个元组表示<S,Ai,Oi,Ri,T,γ,n>。其中,S表示环境的状态空间。ai∈Ai、oi∈Oi和ri∈Ri分别表示智能体i的动作空间、观察空间和奖励函数。T为环境的状态转移函数,γ为奖励折扣因子,n为环境中智能体的数目。所有的智能体都由结构相同的神经网络表示,每个智能体都可以获得自己的观察oi。由于任务环境的限制,如果环境的状态可以被每个智能体完全观察到,即是全局可观察环境;否则,是一个部分可观察的环境。部分可观察环境为智能体的学习增加了困难。
所有智能体的动作构成一个联合动作,记为
Figure BDA0003989927580000061
每个智能体的策略πi可以建模为智能体在状态si下采取动作ai的概率,智能体的联合策略定义为π=(π1,π2...,πn),即
π=p(s,a)=p(a|s)=p((a1,a2,...,an)|s) (1)
每个智能体的奖励函数会受到环境状态和其他智能体动作的影响,即ri=Ri(s,a,s′)。奖励函数设置为只有智能体自己才能获得。环境的状态转换是由环境的前一个状态和智能体的联合动作决定的。
针对多智能体系统,多智能体强化学习的目标是找到一组策略参数,使得累计奖励的期望最大化。具体步骤如下:
(1.1)通过随机初始化智能体Q网络参数wi,清空经验池D。
(1.2)智能体与环境交互迭代。
(1.2.1)观测智能体i的状态si,计算其特征
Figure BDA0003989927580000062
(1.2.2)将特征
Figure BDA0003989927580000063
输入智能体Q网络,得到所有动作的估计值,使用∈-贪婪法选择执行动作ai
(1.2.3)执行动作ai,获得环境奖励ri和新的环境状态s′i,将(si,ai,ri,s′i)存入经验池。
(1.2.4)从经验池D中采集m个样本(sj,aj,rj,s′j),j=1,...,m。计算目标值yj
Figure BDA0003989927580000071
其中,a′j为在状态s′j时估计智能体会采取获得最大回报的动作,任务结束表示智能体到达终止状态。
(1.2.5)使用均方损失误差函数通过神经网络的梯度反向传播来更新Q网络的所有参数wi
Figure BDA0003989927580000072
其中,
Figure BDA0003989927580000073
为在状态sj采取动作aj时策略网络估计获得的价值,yj表示在状态sj时获得的真实奖励。
步骤2、选择知识迁移对象
(2.1)建立智能体迁移关系图:本步骤的目的是构建智能体之间的相似关系。智能体观测的状态作为点的特征表示,采用长短期记忆网络LSTM(Long Short-Term Memory)提取智能体轨迹的隐藏特征,通过计算智能体隐藏特征之间的相似性确定迁移对象。智能体之间存在边,则表示智能体之间存在迁移关系。初始时,智能体之间边默认全部存在,即构建完全连接图。
(2.2)硬注意力机制:将步骤(2.1)建立的完全连接图输入硬注意力机制,输出为断开不必要进行知识迁移边后的关系图,实现了知识迁移关系的数量约简。输出时选择所有输入元素的一个子集,只关注重要的元素,完全忽略其他不相关的元素。传统的硬注意力机制在网络输出端使用Softmax函数归一化处理,获得每一个输出对应的概率值后进行采样,采样过程导致梯度无法正常反向传播,本方法使用Gumbel-softmax函数解决该问题。在上述Softmax函数输出之前添加Gumbel噪声信息gi,从而在不需要直接采样的情况下输出具有随机性的采样样本yi
Figure BDA0003989927580000081
其中,xi和xj为硬注意力网络最后一层的输出;gi和gj为随机的噪声;τ为控制Gumbel-softmax函数输出结果表现形式的系数,其值越小,输出结果越接近one-hot向量;K为输入的维度;exp(·)为以e为底的指数函数;yi为添加噪声后的采样样本。
具体步骤为:
(2.2.1)将智能体i的观测输入到LSTM网络获得隐藏特征hi
(2.2.2)将特征hi依次与其他智能体的特征hj拼接,输入到双向LSTM实现的硬注意力机制中:
Figure BDA0003989927580000082
其中,
Figure BDA0003989927580000083
为智能体i与智能体j之间的硬注意力权重(其值为0或1)。0表示i与j之间不存在迁移关系,则断开智能体i与智能体j之间的边;1表示i与j之间具有潜在的迁移关系,则保留智能体i与智能体j之间的边。gum为Gumbel-softmax函数,Bi-LSTM为双向LSTM,f为全连接层。
(2.3)软注意力机制:将经过步骤(2.2)处理后的智能体迁移关系图删除了不相关的边,只保留潜在的迁移关系。进一步通过软注意力机制计算保留边的权重,从而选择迁移目标。软注意力机制采用softmax函数计算智能体之间的重要性分布。
Figure BDA0003989927580000084
其中,hi和hk为智能体i和k的隐藏特征;f(·)为全连接层;exp(·)以e为底的指数函数;K为输入隐藏特征的维度,wik为智能体i和j之间的注意力权重。
具体步骤为:
(2.3.1)初始化查询向量Wq和键值向量Wk
(2.3.2)将特征hi与其他智能体的特征hj,依次输入到软注意力机制中:
Figure BDA0003989927580000091
其中,
Figure BDA0003989927580000092
为hj的转置,
Figure BDA0003989927580000093
为Wk的转置,
Figure BDA0003989927580000094
为智能体i与智能体j之间的软注意力权重(其值属于0到1)。
(2.4)计算迁移目标:将经过步骤(2.2)和步骤(2.3)得到的
Figure BDA0003989927580000095
Figure BDA0003989927580000096
融合,获得最终的注意力权重。
Figure BDA0003989927580000097
其中,Wi,j为智能体i与智能体j之间的注意力权重,其值越大,表示智能体i与智能体j越相似。因此,对于智能体i来说,选择Wi,j最大的智能体j作为迁移目标。
(2.5)更新注意力网络权重:具有相似轨迹的智能体往往学习类似的策略,因此具有相似轨迹的智能体之间的知识转移通常会加快智能体的学习速度。使用智能体隐藏特征之间的JS散度作为智能体之间的相似性度量。
Figure BDA0003989927580000098
其中,n为智能体的隐藏特征维度;xi为第i维的特征;JS(p||q)为智能体p和智能体q的JS散度。
(2.5.1)计算相似度标签:利用JS散度计算智能体i与智能体j之间的相似度指标作为标签。
Figure BDA0003989927580000099
其中,JSi,k为智能体i与k之间隐藏特征的JS散度,li,j为智能体i与k相似程度的标签,用于指导注意力网络训练。
(2.5.2)梯度下降更新参数:采用(2.5.1)计算的相似度标签作为步骤(2.4)计算的注意力权重的真实标签,使用均方误差损失函数训练硬、软注意力机制。
Figure BDA0003989927580000101
步骤3、判断知识迁移时间
在通过图注意力机制选择出知识迁移对象的基础上,应用二分类神经网络判断在当前状态下智能体是否需要接受迁移对象建议的动作。采用智能体动作估计值的方差作为智能体的状态信心,若在某一状态下,智能体的动作估计值方差较小,则智能体对所有可能的动作估计出相似的价值,智能体对该状态的处理信心不足(所有动作价值相似,不知道应该采取何种动作);若对于所有可以执行的动作,智能体估计的动作值并不相似,即某个动作的价值明显大于其他动作价值,则智能体处理该状态的信心是足够的(智能体明确知道选择最大价值的动作)。
Figure BDA0003989927580000102
Figure BDA0003989927580000103
其中,Q(s,a)为智能体在状态s下采取动作a的估计价值,|A|为智能体可以采取的所有可能动作数量,μ(s)为智能体在状态s下的价值期望,V(s)为智能体在状态s下动作价值的方差,即状态信心。
具体步骤如下:
(3.1)迁移时间判断网络输入:在状态s下,向二分类神经网络中输入智能体i与迁移目标智能体j的所有动作估计值以及各自决定采取的动作价值。
(3.2)获得迁移时间判断结果:根据神经网络的输出,判断此次是否迁移。网络的输出为0或1(为0则代表此次不进行知识迁移;为1则代表执行知识迁移)。
(3.3)神经网络梯度更新:每次进行神经网络的前向传播后,采用状态信心和动作价值等指标设计的规则计算标签,指导网络参数的反向传播。
Figure BDA0003989927580000111
其中,Vi(s)和Vj(s)分别为智能体i和智能体j在状态s下的动作价值方差,Qi(s,ai)和Qj(s,aj)分别为智能体i和智能体j在状态s下所采取各自执行动作的价值。步骤4、多智能体迁移强化学习
将步骤1的多智能体强化学习中智能体根据自身策略选择动作的过程修改为:首先通过步骤2选择知识迁移对象,其次通过步骤3判断知识迁移时间以确定是否进行知识迁移;若进行知识迁移,则使用迁移的动作完成后续强化学习过程,否则使用智能体自身策略完成强化学习过程;智能体在迭代的强化学习过程中进行必要的知识迁移,优化智能体的策略,直到达到预设的任务完成能力指标或训练次数。
本发明的有益效果:
本发明在多智能体强化学习的训练过程中采用了新的知识迁移方法。根据智能体间轨迹的相似性,首先采用硬注意力机制去掉不相关的智能体,实现了智能体迁移关系的初步约简,节约计算资源。其次,采用软注意力机制计算智能体迁移关系权重,选择权重最大的智能体进行知识迁移,实现了迁移目标的精准选择,提升了知识迁移的精度;在选定知识迁移目标后,通过智能体状态信息和动作价值训练的二分类神经网络,自适应的判断是否进行知识迁移。不仅阻止了负面迁移的发生,同时节约了迁移过程的通信成本。最终加快了多智能体强化学习的学习能力和学习速度。
附图说明
图1为本发明的框架流程图。
图2为本发明所使用的智能体强化学习模型。
图3(a)为本发明所设计的知识迁移对象算法模型,图3(b)为知识迁移时间判断算法模型示意图。
图4(a)和图4(b)分别为知识迁移对象选择和知识迁移时间判断过程及结果的示意图。
具体实施例:
以下结合附图和技术方案,进一步说明本发明的具体实施方式。
本发明的方法可用于在多智能体环境中加速智能体的训练过程,本发明的方法流程如图1所示。
本发明所采用DQN网络构建智能体,其强化学习模型如图2所示。知识迁移对象算法和知识迁移时间判断算法模型如图3(a)和图3(b)所示。
以下对本发明的实施方式进行详细说明(如图1所示),具体包括以下步骤:
(1)初始化过程:首先初始化智能体的DQN网络参数,并清空经验池。
(2)主循环过程:
(2.1)观测环境状态:通过智能体的传感器获得当前的环境状态。
(2.2)计算动作价值:将观测的状态特征输入到DQN网络中,得到智能体采取所有动作的估计动作价值。
(2.3)选择知识迁移目标:通过硬注意力机制与软注意力机制,为每个智能体选择一个知识迁移的目标。
(2.4)判断知识迁移时间:将智能体与知识迁移目标的动作价值等信息输入二分类神经网络,判断是否需要进行此次知识迁移。
(2.5)选择动作并执行:根据知识迁移结果,选择智能体自身动作或迁移得到的动作,执行动作后,获得环境反馈奖励与下一状态特征。
(2.6)存储经验:将智能体状态,动作,奖励,下一状态信息存入经验池。
(2.7)网络参数更新:在经验池中抽样样本数据,计算损失,使用梯度下降法反向更新DQN网络参数。
当不满足循环条件时,即循环达到预先设定训练次数或预先设定的指标时,可得到在多智能体系统中表现良好的智能体策略方案。
本实施例的知识迁移对象选择和知识迁移时间判断过程如图4(a)和图4(b)所示。由图可知,在有6个无人车的导航任务中,所有无人车需要导航到目标,在本方法中无人车作为参与系统训练的个体,可以被抽象为智能体。智能体(无人车)的状态通过传感器获得,“空心圆”代表智能体,“实线”代表智能体之间的迁移关系,“实线”越粗代表智能体之间的迁移关系权重越大。图4(a)表示在有6个智能体(无人车)的系统中,智能体1选择迁移对象的过程,经过硬注意力约简后,智能体1仅与智能体2、5、6存在潜在的迁移关系,通过软注意力机制求得注意力权值,获得最终的迁移对象为智能体6,准确地选择了迁移对象。图4(b)所示的过程,表明了智能体通过二分类神经网络判断智能体1和智能体6之间是否存在迁移关系。

Claims (1)

1.一种基于图注意力网络的多智能体迁移强化学习方法,其特征在于,具体步骤如下:
步骤1、设定智能体强化学习模型;
多智能体强化学习任务由一个元组表示<S,Ai,Oi,Ri,T,γ,n>;其中,S表示环境的状态空间;ai∈Ai、oi∈Oi和ri∈Ri分别表示智能体i的动作空间、观察空间和奖励函数;T为环境的状态转移函数,γ为奖励折扣因子,n为环境中智能体的数目;所有的智能体都由结构相同的神经网络表示,每个智能体都可以获得自己的观察oi
所有智能体的动作构成一个联合动作,记为
Figure FDA0003989927570000011
每个智能体的策略πi建模为智能体在状态si下采取动作ai的概率,智能体的联合策略定义为π=(π12…,πn),即
π=p(s,a)=p(a|s)=p((a1,a2,…,an)|s) (1)
每个智能体的奖励函数会受到环境状态和其他智能体动作的影响,即ri=Ri(s,a,s′);奖励函数设置为只有智能体自己才能获得;环境的状态转换是由环境的前一个状态和智能体的联合动作决定的;
针对多智能体系统,多智能体强化学习的目标是找到一组策略参数,使得累计奖励的期望最大化;具体步骤如下:
(1.1)通过随机初始化智能体Q网络参数wi,清空经验池D;
(1.2)智能体与环境交互迭代;
(1.2.1)观测智能体i的状态si,计算其特征
Figure FDA0003989927570000012
(1.2.2)将特征
Figure FDA0003989927570000013
输入智能体Q网络,得到所有动作的估计值,使用∈-贪婪法选择执行动作ai
(1.2.3)执行动作ai,获得环境奖励ri和新的环境状态s′i,将(si,ai,ri,s′i)存入经验池;
(1.2.4)从经验池D中采集m个样本(sj,aj,rj,sj ),j=1,…,m;计算目标值yj
Figure FDA0003989927570000021
其中,aj 为在状态sj 时估计智能体会采取获得最大回报的动作,任务结束表示智能体到达终止状态;
(1.2.5)使用均方损失误差函数通过神经网络的梯度反向传播来更新Q网络的所有参数wi
Figure FDA0003989927570000022
其中,
Figure FDA0003989927570000023
为在状态sj采取动作aj时策略网络估计获得的价值,yj表示在状态sj时获得的真实奖励;
步骤2、选择知识迁移对象
(2.1)建立智能体迁移关系图:目的是构建智能体之间的相似关系;智能体观测的状态作为点的特征表示,采用长短期记忆网络LSTM提取智能体轨迹的隐藏特征,通过计算智能体隐藏特征之间的相似性确定迁移对象;智能体之间存在边,则表示智能体之间存在迁移关系;初始时,智能体之间边默认全部存在,即构建完全连接图;
(2.2)硬注意力机制:将步骤(2.1)建立的完全连接图输入硬注意力机制,输出为断开不必要进行知识迁移边后的关系图,实现知识迁移关系的数量约简;在硬注意力机制输出端使用Softmax函数归一化处理前,使用Gumbel-softmax函数添加Gumbel噪声信息gi输出具有随机性的样本,解决直接采样导致梯度无法反向传播的问题;
Figure FDA0003989927570000031
其中,xi和xj为硬注意力网络最后一层的输出;gi和gj为随机的噪声;τ为控制Gumbel-softmax函数输出结果表现形式的系数,其值越小,输出结果越接近one-hot向量;K为输入的维度;exp(·)为以e为底的指数函数;yi为添加噪声后的采样样本;
具体步骤为:
(2.2.1)将智能体i的观测输入到LSTM网络获得隐藏特征hi
(2.2.2)将特征hi依次与其他智能体的特征hj拼接,输入到双向LSTM实现的硬注意力机制中:
Figure FDA0003989927570000032
其中,
Figure FDA0003989927570000033
为智能体i与智能体j之间的硬注意力权重,其值为0或1;0表示i与j之间不存在迁移关系,则断开智能体i与智能体j之间的边;1表示i与j之间具有潜在的迁移关系,则保留智能体i与智能体j之间的边;gum为Gumbel-softmax函数,Bi-LSTM为双向LSTM,f为全连接层;
(2.3)软注意力机制:将经过步骤(2.2)处理后的智能体迁移关系图删除了不相关的边,只保留潜在的迁移关系;进一步通过软注意力机制计算保留边的权重,从而选择迁移目标;软注意力机制采用softmax函数计算智能体之间的重要性分布;
Figure FDA0003989927570000034
其中,hi和hk为智能体i和k的隐藏特征;f(·)为全连接层;exp(·)以e为底的指数函数;K为输入隐藏特征的维度,wik为智能体i和j之间的注意力权重;
具体步骤为:
(2.3.1)初始化查询向量Wq和键值向量Wk
(2.3.2)将特征hi与其他智能体的特征hj,依次输入到软注意力机制中:
Figure FDA0003989927570000041
其中,
Figure FDA0003989927570000042
为hj的转置,
Figure FDA0003989927570000043
为Wk的转置,
Figure FDA0003989927570000044
为智能体i与智能体j之间的软注意力权重,其值属于0到1;
(2.4)计算迁移目标:将经过步骤(2.2)和步骤(2.3)得到的
Figure FDA0003989927570000045
Figure FDA0003989927570000046
融合,获得最终的注意力权重;
Figure FDA0003989927570000047
其中,Wi,j为智能体i与智能体j之间的注意力权重,其值越大,表示智能体i与智能体j越相似;因此,对于智能体i来说,选择Wi,j最大的智能体j作为迁移目标;
(2.5)更新注意力网络权重:使用智能体隐藏特征之间的JS散度作为智能体之间的相似性度量;
Figure FDA0003989927570000048
其中,n为智能体的隐藏特征维度;xi为第i维的特征;JS(p||q)为智能体p和智能体q的JS散度;
(2.5.1)计算相似度标签:利用JS散度计算智能体i与智能体j之间的相似度指标作为标签;
Figure FDA0003989927570000049
其中,JSi,k为智能体i与k之间隐藏特征的JS散度,li,j为智能体i与k相似程度的标签,用于指导注意力网络训练;
(2.5.2)梯度下降更新参数:采用(2.5.1)计算的相似度标签作为步骤(2.4)计算的注意力权重的真实标签,使用均方误差损失函数训练硬、软注意力机制;
Figure FDA0003989927570000051
步骤3、判断知识迁移时间
在通过图注意力机制选择出知识迁移对象的基础上,应用二分类神经网络判断在当前状态下智能体是否需要接受迁移对象建议的动作;采用智能体动作估计值的方差作为智能体的状态信心,若在某一状态下,智能体的动作估计值方差较小,则智能体对所有可能的动作估计出相似的价值,智能体对该状态的处理信心不足,即所有动作价值相似,不知道应该采取何种动作;若对于所有可以执行的动作,智能体估计的动作值并不相似,即某个动作的价值明显大于其他动作价值,则智能体处理该状态的信心是足够的,即智能体明确知道选择最大价值的动作;
Figure FDA0003989927570000052
Figure FDA0003989927570000053
其中,Q(s,a)为智能体在状态s下采取动作a的估计价值,|A|为智能体可以采取的所有可能动作数量,μ(s)为智能体在状态s下的价值期望,V(s)为智能体在状态s下动作价值的方差,即状态信心;
具体步骤如下:
(3.1)迁移时间判断网络输入:在状态s下,向二分类神经网络中输入智能体i与迁移目标智能体j的所有动作估计值以及各自决定采取的动作价值;
(3.2)获得迁移时间判断结果:根据神经网络的输出,判断此次是否迁移;网络的输出为0或1,为0则代表此次不进行知识迁移,为1则代表执行知识迁移;
(3.3)神经网络梯度更新:每次进行神经网络的前向传播后,采用状态信心和动作价值等指标设计的规则计算标签,指导网络参数的反向传播;
Figure FDA0003989927570000061
其中,Vi(s)和Vj(s)分别为智能体i和智能体j在状态s下的动作价值方差,Qi(s,ai)和Qj(s,aj)分别为智能体i和智能体j在状态s下所采取各自执行动作的价值;
步骤4、多智能体迁移强化学习
将步骤1的多智能体强化学习中智能体根据自身策略选择动作的过程修改为:首先通过步骤2选择知识迁移对象,其次通过步骤3判断知识迁移时间以确定是否进行知识迁移;若进行知识迁移,则使用迁移的动作完成后续强化学习过程,否则使用智能体自身策略完成强化学习过程;智能体在迭代的强化学习过程中进行必要的知识迁移,优化智能体的策略,直到达到预设的任务完成能力指标或训练次数。
CN202211578473.0A 2022-12-09 2022-12-09 一种基于图注意力网络的多智能体迁移强化学习方法 Pending CN115936058A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211578473.0A CN115936058A (zh) 2022-12-09 2022-12-09 一种基于图注意力网络的多智能体迁移强化学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211578473.0A CN115936058A (zh) 2022-12-09 2022-12-09 一种基于图注意力网络的多智能体迁移强化学习方法

Publications (1)

Publication Number Publication Date
CN115936058A true CN115936058A (zh) 2023-04-07

Family

ID=86651861

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211578473.0A Pending CN115936058A (zh) 2022-12-09 2022-12-09 一种基于图注意力网络的多智能体迁移强化学习方法

Country Status (1)

Country Link
CN (1) CN115936058A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116864343A (zh) * 2023-07-25 2023-10-10 江苏双汇电力发展股份有限公司 一种一体化下三工位开关及其智能化监测方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116864343A (zh) * 2023-07-25 2023-10-10 江苏双汇电力发展股份有限公司 一种一体化下三工位开关及其智能化监测方法

Similar Documents

Publication Publication Date Title
CN110262511B (zh) 基于深度强化学习的双足机器人自适应性行走控制方法
CN111582469A (zh) 多智能体协作信息处理方法、系统、存储介质、智能终端
CN114952828B (zh) 一种基于深度强化学习的机械臂运动规划方法和系统
CN109782600A (zh) 一种通过虚拟环境建立自主移动机器人导航系统的方法
CN109726676B (zh) 自动驾驶系统的规划方法
CN111352419B (zh) 基于时序差分更新经验回放缓存的路径规划方法及系统
CN110442129A (zh) 一种多智能体编队的控制方法和系统
CN114261400B (zh) 一种自动驾驶决策方法、装置、设备和存储介质
CN115099606B (zh) 一种电网调度模型的训练方法及终端
CN111783994A (zh) 强化学习的训练方法和装置
CN113894780B (zh) 多机器人协作对抗方法、装置、电子设备和存储介质
CN115936058A (zh) 一种基于图注意力网络的多智能体迁移强化学习方法
CN117709437A (zh) 一种基于融合差分建议的多智能体复杂系统迁移强化学习方法
CN116700327A (zh) 一种基于连续动作优势函数学习的无人机轨迹规划方法
CN117705113A (zh) 一种改进ppo的无人机视觉避障及自主导航方法
Zuo et al. Off-policy adversarial imitation learning for robotic tasks with low-quality demonstrations
CN114662656A (zh) 一种深度神经网络模型训练方法、自主导航方法及系统
Li et al. Research on the agricultural machinery path tracking method based on deep reinforcement learning
Yin et al. Reinforcement learning path planning based on step batch Q-learning algorithm
CN114219066A (zh) 基于瓦瑟斯坦距离的无监督强化学习方法及装置
CN117520956A (zh) 一种基于强化学习和元学习的两阶段自动化特征工程方法
CN116360435A (zh) 基于情节记忆的多智能体协同策略的训练方法和系统
CN110705704A (zh) 一种基于相关性分析的神经网络自组织遗传进化算法
CN115630566A (zh) 一种基于深度学习和动力约束的资料同化方法和系统
CN114118371A (zh) 一种智能体深度强化学习方法及计算机可读介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination