CN112465151A - 一种基于深度强化学习的多智能体联邦协作方法 - Google Patents

一种基于深度强化学习的多智能体联邦协作方法 Download PDF

Info

Publication number
CN112465151A
CN112465151A CN202011490926.5A CN202011490926A CN112465151A CN 112465151 A CN112465151 A CN 112465151A CN 202011490926 A CN202011490926 A CN 202011490926A CN 112465151 A CN112465151 A CN 112465151A
Authority
CN
China
Prior art keywords
agent
agents
intelligent
theta
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011490926.5A
Other languages
English (en)
Inventor
韦云凯
周思佩
冷甦鹏
杨鲲
刘强
沈军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yangtze River Delta Research Institute of UESTC Huzhou
Original Assignee
Yangtze River Delta Research Institute of UESTC Huzhou
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yangtze River Delta Research Institute of UESTC Huzhou filed Critical Yangtze River Delta Research Institute of UESTC Huzhou
Priority to CN202011490926.5A priority Critical patent/CN112465151A/zh
Publication of CN112465151A publication Critical patent/CN112465151A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/60Software deployment
    • G06F8/65Updates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于深度强化学习的多智能体联邦协作方法,包括以下步骤:S1、对每个智能体建立深度强化学习模型;S2、为智能体建立对应的神经网络;S3、智能体与环境进行交互,将决策经验存储到经验池中,并且根据随机梯度下降法更新本地的神经网络模型;S4、将本地的神经网络模型参数传给协作平台;S5、对智能体上传的参数进行聚合处理,并将结果返回给各个智能体进行参数更新;S6、智能体进行软更新,得到最新的本地模型参数;S7、重复S3‑S6,直到完成目标任务。本发明的智能体在通过深度强化学习进行环境探索与决策的同时,利用联邦学习技术获取其他智能体学习经验,从而有效地提高智能体学习效率,且降低智能体之间的协作开销。

Description

一种基于深度强化学习的多智能体联邦协作方法
技术领域
本发明属于人工智能领域,具体针对在复杂任务下多智能体协作过程中面临的协作开销大以及协作效率低等问题,设计了一种基于深度强化学习的多智能体联邦协作方法,通过结合联邦学习技术,降低基于深度强化学习的多智能体协作过程中的开销,提高多智能体协作的效率。
背景技术
近年来,人工智能技术快速发展并得到了广泛的应用。其中,基于深度强化学习的智能体(Agent)是当前研究的重点方向之一,其通过感知周围的环境信息,进行智能决策,从而实现与环境的交互,完成相应的任务。
在现实问题中,单智能体的决策能力远远不够。使用一个中心化的智能体解决问题时,会遇到各种资源和条件的限制,导致单个智能体无法应对错综复杂的现实环境,而使用多个智能体相互协作可以有效提高决策中的信息完整度与决策效率。
但是,目前多智能体协作还面临着以下挑战:
首先,多智能体的环境通常是部分可观测的。在多智能体环境中,每个智能体所处的局部环境通常都不一样,这就使得它们收到的观测信息也不一样,而每个观测信息中都保留了一些局部的环境信息。在智能体之间建立沟通机制可以将每个智能体了解到的局部环境信息聚合起来,形成一个对整体环境的一个大致描述,从而提高算法的性能。但是,这就对沟通信息处理模块的性能提出了更高的要求,即要求该模块能够从繁杂的观测信息中过滤抽取出有效的信息,并形成对整体环境的一个高效的表达,这往往会带来不小的开销。
其次,多智能体的环境为非静态。在单智能体环境中,智能体只需要考虑自己的动作产生的结果即可。然而在多智能体环境中,智能体获得的环境反馈不仅和自身的策略有关,和其他智能体的策略也有关系。如果智能体之间各自交流,那么总体上完成任务需要的耗时将不断增加。
最后,多智能体易产生维数灾难。当智能体数量较多时,整体模型的规模也将变得十分庞大,而强化学习算法恰恰又需要从大量的采样数据中进行学习,这就使得模型的训练过程十分缓慢。如何利用多个智能体的模型来优化单个智能体的模型训练就显得尤为重要。
因此,针对当前多智能体协作面临的问题,设计一种在复杂条件下的多智能体协作技术,来提高多智能体协作效率以及增强协作的泛化能力,具有重要意义。
发明内容
本发明的目的在于克服现有技术的不足,提供一种智能体在通过深度强化学习进行环境探索与决策的同时,利用联邦学习技术获取其他智能体学习经验,从而有效地提高智能体学习效率,且降低智能体之间的协作开销的基于深度强化学习的多智能体联邦协作方法。
本发明的目的是通过以下技术方案来实现的:一种基于深度强化学习的多智能体联邦协作方法,包括以下步骤:
S1、对任务和智能体进行划分,对每个智能体建立深度强化学习模型,设置智能体在环境中的状态空间、智能体可决策的行为空间以及环境对智能体的行为奖励;
S2、根据深度强化学习算法,为每个智能体建立对应的神经网络,同一个任务区域内的智能体建立相同的神经网络模型,不同任务区域的智能体可以建立不同的神经网络模型;
S3、智能体根据分配的目标以及当前自身状态决策下一步采取的行为,并与环境进行交互,得到下一个自身状态,将该决策经验存储到经验池中,并且根据随机梯度下降法及时更新本地的神经网络模型;
S4、在循环达到设定的次数后,将本地的神经网络模型参数传给协作平台,进行后续的联邦学习;
S5、对所有智能体上传的参数进行聚合处理,并将结果返回给各个智能体进行参数更新;协作平台根据任务的类型以及增强型智能体模型对智能体进行划分,对具有相似任务以及相同模型的增强型智能体进行参数聚合,并返回对应的聚合结果;
S6、各个智能体将收到的返回结果与本地的神经网络参数进行软更新,得到最新的本地模型参数;
S7、重复S3-S6,直到完成目标任务。
进一步地,所述步骤S1对任务和智能体进行划分的具体实现方法为:将多个智能体分为多个任务区域,每个任务区域内有一个增强型智能体以及多个普通智能体;将每个任务区域内能力最强的智能体作为增强型智能体,其余智能体为普通智能体。
进一步地,所述步骤S1中建立深度强化学习模型为:设空间中共有N个智能体,智能体的编号分别从1到n,第i个智能体的编号为i;设状态空间为S,行为空间为A,奖励值为R,三元组<S,A,R>决定了具体的多智能体模型;
(1)状态空间:在相同的状态空间情况下,若第i个智能体的状态空间为Si,第j个智能体的状态空间为Sj,则Si=Sj,1≤i≤N,1≤j≤N,i≠j;在不同的状态空间情况下,则根据具体场景建立智能体状态空间Si和Sj
(2)行为空间:对每个智能体建立行为空间,相同的状态空间智能体的行为空间一致;在不同的状态空间情况下,根据具体场景建立智能体行为空间;
(3)奖励值,多智能体系统的奖励值R包括以下三个奖励:
a)个体即时奖励r1:环境即时反馈给当前智能体奖励,设当前状态为si,下一个状态为si+1,期望的状态为se,若|si+1-se|<|si-se|,则判定为靠近目标,奖励p,否则为远离目标,奖励-p;
b)全局即时奖励r2:当前环境给所有智能体的奖励,设当前全局智能体的状态为st
Figure BDA0002840666290000031
Figure BDA0002840666290000032
为t时刻第j个智能体的状态,全局智能体下一个状态为st+1,完成任务时全局智能体的状态为se,若|st+1-se|<|st-se|,则判定为靠近目标,对每个智能体奖励q,否则为远离目标,对每个智能体奖励-q;
其中,p、q为用户设定的正数,满足q≤p;
c)全局最终奖励r3:当多智能体系统完成目标后给全局所有智能体的奖励,其他情况不奖励;全局最终奖励与总时间相关,即总时间越长,最终奖励越小,总时间越短,最终奖励越大;所以,全局最终奖励表示为
Figure BDA0002840666290000033
其中T为总时间,α、β为系数,α<0,β>0,由用户设定,并且满足β≥10(p+q),保障r3为(p+q)的数十倍及以上,促使智能体学习目前已知的近似最优策略;
所以,智能体的奖励值为:
Figure BDA0002840666290000034
另外,多智能体在选择动作获得即时奖励的同时,也需要考虑到未来的收益,因此智能体在t时刻的奖励值Gt表示为
Figure BDA0002840666290000035
其中,Rt+k+1表示智能体在t+k+1时刻的奖励值,
Figure BDA0002840666290000036
γ代表折扣系数,γ越大表示越看重未来的奖励,γ越小表示越看重当前奖励;
(4)模型组成:智能体的模型由交互网络Q(θ)、评价网络Q′(θ′)、经验池以及梯度更新函数组成,其中θ和θ′分别指的是交互网络以及评价网络的神经网络系数,由每层网络的权重和偏差组成;它们的作用和关系如下:
交互网络负责实时与环境进行交互,在t时刻,第i个智能体的输入状态为si,输出动作为ai;当智能体执行完动作后,环境将给出下一个状态si+1和奖励Ri,智能体将四元组<si,ai,Ri,si+1>存入经验池;
梯度更新函数使用梯度下降法,通过从经验池中获取四元组以及评价网络的输出对交互网络进行梯度更新,梯度下降法的公式为min(Ri+γmaxa′Q′(si+1,a′;θ′)-Q(si,ai;θ))2,其中a′为执行完动作ai到达状态si+1后可选的动作;
经过一定次数后,评价网络从交互网络中获取神经网络参数,并更新一部分自己的神经网络参数,以便保障评价网络梯度更新的准确性和算法的收敛性;
如此循环迭代,当智能体完成目标任务或者达到预定的迭代次数时结束,最终完成对智能体的深度强化学习模型的训练。
进一步地,所述步骤S5中参数聚合算法包括以下子步骤:
S51、任务区域内的普通智能体将本地参数样本上传至增强型智能体;
S52、增强型智能体对参数样本计算中心点,并计算各个参数样本至中心点的马氏距离;
S53、去除至中心点的马氏距离大于预设阈值的节点;
S54、对剩下的节点进行加权平均,并将结果返回给普通智能体;
S55、普通智能体以软更新方式更新本地的模型参数。
进一步地,所述步骤S52中计算中心点的具体实现方法为:记第i个普通智能体上传的模型参数样本为θi,每次增强型智能体或参数聚合协作平台收到的模型参数样本集合为Θ={θi};通过计算平均值来得到样本的中心点θavg,即
Figure BDA0002840666290000041
n为模型参数样本的数量;
参数样本至中心点的马氏距离计算方法为:首先计算协方差矩阵∑X,公式如下:
Figure BDA0002840666290000042
其中,X大小为n×m,即n个模型参数样本,每个样本有m维;
则第i个模型参数样本θi与中心点θavg的马氏距离Dmai,θavg)为:
Figure BDA0002840666290000043
进一步地,所述步骤S54具体实现方法为:根据每个普通智能体的能力大小以及可信度对普通智能体打分,赋予不同权值;设第i个普通智能体的模型参数样本权值为wi,设经过参数过滤后的模型参数样本集合为Φ,则加权平均的结果θagg为:
Figure BDA0002840666290000044
最后将结果θagg返回给每个普通智能体。
进一步地,所述步骤S55具体实现方法为:普通智能体收到增强型智能体或参数聚合协作平台返回的更新参数θagg后,以软更新的方式进行本地的神经网络模型更新,即以比重τ将θagg加入本地当前神经模型参数θt中,则更新完后的神经网络参数θt+1为:θt+1=(1-τ)θt+τθagg,完成一次联邦学习过程,其中τ∈[0,1];当τ为0时,表示不将更新参数θagg融入本地模型;当τ为1时,表示本地模型直接复制更新参数θagg。根据经验,比重τ在初始时设置一个相对较大的值,以便加快训练步伐,然后在训练迭代的过程中,逐步的降低比重,保证收敛稳定性。
本发明的有益效果是:本发明通过联邦学习加强基于深度强化学习的智能体之间的协作,多个智能体在通过深度强化学习进行环境探索与决策的同时,利用联邦学习技术获取其他智能体学习经验,从而有效地提高智能体学习效率,且降低智能体之间的协作开销。由于本发明方法具有一定的泛化能力,可以适用于不同场景下的多智能协作。
附图说明
图1为多智能体协作场景图;
图2为本发明的基于深度强化学习的多智能体联邦协作方法的流程图;
图3为本发明的参数聚合算法流程图。
具体实施方式
下面结合附图进一步说明本发明的技术方案。
本发明中所描述的智能体具有实体特征,可以指网络安全检测中的高性能智能检测设备和普通智能检测设备,也可以指多个无人智能设备或系统,例如无人机、自动驾驶汽车、传感节点等。在网络安全检测中,智能检测设备或节点可被视为智能体,单个智能检测设备受限于自身计算能力以及部署在局部环境中,发挥的安全保护作用有限,因此它们之间需要通过多智能体协作来提高整体的安全保护能力,达到全局防御的效果。而在多个无人智能设备或系统中,为了完成一些任务,需要彼此间进行协作,也存在着主协调者以及从属者之间的协作。例如,在多无人机协同控制领域中,无人机可分为领机(Leader)以及从机(Follower),而且需要它们进行有效的协作,完成目标跟踪、路径规划等任务,这也属于多智能体协作,并且在军事领域和民用领域具有重要的应用价值。多智能体协作场景如图1所示。在该场景中,有多个智能体需要协作完成任务,并且有一个参数聚合协作平台。智能体可以分为增强型智能体(E-Agent)和普通智能体(Agent)。可以根据智能体的能力大小,如通信、计算等资源,将部分拥有较强能力的智能体作为增强型智能体。根据实际情况,可以将复杂任务化分为多个子任务,即任务区域。在每个任务区域内部署多个普通智能体以及一个增强型智能体。同一任务区域内的智能体具有相同的模型,而不同任务区域内智能体模型不一定相同。
本发明在所有的智能体上部署深度强化学习算法,并且在增强型智能体以及参数聚合协作平台上部署联邦学习。其中,智能体将各自建立神经网络模型,并与环境进行交互,协作完成指定任务。而增强型智能体可以获得本区域内其他智能体的信息,通过聚合它们的参数信息并返回结果来加快其他智能体的本地神经模型参数更新,指导多智能体之间进行有效的协作,快速达成目标。同时,参数聚合协作平台也会获取每个任务区域内的增强型智能体的模型参数,并且对相似任务类型的增强型智能体实施联邦学习。利用联邦学习,增强型智能体和协作平台对智能体上传的参数进行聚合处理,剔除异常、离群的参数,并将剩余参数进行加权平均,并将结果返回给各个智能体进行参数更新。智能体将收到的结果与本地的神经网络参数进行软更新,即以一定的比重将结果加入到本地的参数中。这样每个智能体就可以学习其他智能体的经验,优化智能体的本地模型,形成较好的协作效果,共同完成任务。
如图2所示,本发明的一种基于深度强化学习的多智能体联邦协作方法,包括以下步骤:
S1、对任务和智能体进行划分,对每个智能体建立深度强化学习模型,设置智能体在环境中的状态空间、智能体可决策的行为空间以及环境对智能体的行为奖励;
对任务和智能体进行划分的具体实现方法为:将多个智能体分为多个任务区域,每个任务区域内有一个增强型智能体以及多个普通智能体;将每个任务区域内能力最强的智能体作为增强型智能体,其余智能体为普通智能体。
建立深度强化学习模型为:设空间中共有N个智能体,智能体的编号分别从1到n,第i个智能体的编号为i;设状态空间为S,行为空间为A,奖励值为R,三元组<S,A,R>决定了具体的多智能体模型;
(1)状态空间:对于每个智能体需要建立其状态空间,但是由于大多数情况下,多智能体是在一个大环境中进行空间探索以及完成任务,所以同一个任务区域的智能体一般具有相同的状态空间,不同任务区域的智能体可能具有不同的状态空间。因此,在相同的状态空间情况下,若第i个智能体的状态空间为Si,第j个智能体的状态空间为Sj,则Si=Sj,1≤i≤N,1≤j≤N,i≠j,N为智能体数量;在不同的状态空间情况下,则根据具体场景建立智能体状态空间Si和Sj
(2)行为空间:对每个智能体建立行为空间,相同的状态空间智能体的行为空间一致;在不同的状态空间情况下,根据具体场景建立智能体行为空间;
(3)奖励值,多智能体系统的奖励值R包括以下三个奖励:
a)个体即时奖励r1:环境即时反馈给当前智能体奖励,设当前状态为si,下一个状态为si+1,期望的状态为se,若|si+1-se|<|si-se|,则判定为靠近目标,奖励p,否则为远离目标,奖励-p;
b)全局即时奖励r2:当前环境给所有智能体的奖励,设当前全局智能体的状态为st
Figure BDA0002840666290000071
Figure BDA0002840666290000072
为t时刻第j个智能体的状态,全局智能体下一个状态为st+1,完成任务时全局智能体的状态为se,若|st+1-se|<|st-se|,则判定为靠近目标,对每个智能体奖励q,否则为远离目标,对每个智能体奖励-q;
其中,p、q为用户设定的正数,满足q≤p;
c)全局最终奖励r3:当多智能体系统完成目标后给全局所有智能体的奖励,其他情况不奖励;全局最终奖励与总时间(步数)相关,即总时间越长,最终奖励越小,总时间越短,最终奖励越大;所以,全局最终奖励表示为
Figure BDA0002840666290000073
其中T为总时间,α、β为系数,α<0,β>0,由用户设定,,可根据具体需求进行调整,满足β≥10(p+q),保障r3为(p+q)的数十倍及以上,促使智能体学习目前已知的近似最优策略;
所以,智能体的奖励值为:
Figure BDA0002840666290000074
另外,多智能体在选择动作获得即时奖励的同时,也需要考虑到未来的收益,因此智能体在t时刻的奖励值Gt表示为
Figure BDA0002840666290000075
其中,Rt+k+1表示智能体在t+k+1时刻的奖励值,
Figure BDA0002840666290000076
(这里为无限折扣模型,因此
Figure BDA0002840666290000077
i值无上限);γ代表折扣系数,γ越大表示越看重未来的奖励,γ越小表示越看重当前奖励;
(4)模型组成:智能体的模型由交互网络Q(θ)、评价网络Q′(θ′)、经验池以及梯度更新函数组成,其中θ和θ′分别指的是交互网络以及评价网络的神经网络系数,由每层网络的权重和偏差组成;它们的作用和关系如下:
交互网络负责实时与环境进行交互,在t时刻,第i个智能体的输入状态为si,输出动作为ai;当智能体执行完动作后,环境将给出下一个状态si+1和奖励Ri,智能体将四元组<si,ai,Ri,si+1>存入经验池;
梯度更新函数使用梯度下降法,通过从经验池中获取四元组以及评价网络的输出对交互网络进行梯度更新,梯度下降法的公式为min(Ri+γmaxa′Q′(si+1,a′;θ′)-Q(si,ai;θ))2,其中a′为执行完动作ai到达状态si+1后可选的动作;
经过一定次数后,评价网络从交互网络中获取神经网络参数,并更新一部分自己的神经网络参数,以便保障评价网络梯度更新的准确性和算法的收敛性;
如此循环迭代,当智能体完成目标任务或者达到预定的迭代次数时结束,最终完成对智能体的深度强化学习模型的训练。
S2、根据深度强化学习算法,为每个智能体建立对应的神经网络,同一个任务区域内的智能体建立相同的神经网络模型,不同任务区域的智能体可以建立不同的神经网络模型;
S3、智能体根据分配的目标以及当前自身状态决策下一步采取的行为,并与环境进行交互,得到下一个自身状态,将该决策经验存储到经验池中,并且根据随机梯度下降法及时更新本地的神经网络模型;
S4、在循环达到设定的次数后,将本地的神经网络模型参数传给协作平台,进行后续的联邦学习;
S5、对所有智能体上传的参数进行聚合处理,并将结果返回给各个智能体进行参数更新;协作平台根据任务的类型以及增强型智能体模型对智能体进行划分,对具有相似任务以及相同模型的增强型智能体进行参数聚合,并返回对应的聚合结果;
本部分基于联邦学习,协作平台以及增强型智能体会对智能体上传的参数进行处理并将结果返回给智能体,加快智能体学习进程。联邦学习主要的作用是对参数进行聚合,提高整体上模型参数的准确性。参数聚合算法流程如图3所示,包括以下子步骤:
S51、任务区域内的普通智能体将本地参数样本上传至增强型智能体;
S52、增强型智能体对参数样本计算中心点,并计算各个参数样本至中心点的马氏距离;
计算中心点的具体实现方法为:记第i个普通智能体上传的模型参数样本为θi,每次增强型智能体或参数聚合协作平台收到的模型参数样本集合为Θ={θi};通过计算平均值来得到样本的中心点θavg,即
Figure BDA0002840666290000081
n为模型参数样本的数量;
参数样本至中心点的马氏距离计算方法为:首先计算协方差矩阵∑X,公式如下:
Figure BDA0002840666290000082
其中,X大小为n×m,即n个模型参数样本,每个样本有m维;
则第i个模型参数样本θi与中心点θavg的马氏距离Dmai,θavg)为:
Figure BDA0002840666290000083
S53、去除至中心点的马氏距离大于预设阈值的节点;设定剔除阈值∈,若Dma>∈,则将该模型参数样本剔除;若Dma≤∈,则保留该模型参数样本。阈值∈的值可以根据实际的需求灵活调整,∈越小有效参与聚合的样本越少,∈越大有效参与聚合的样本越多。
步骤S52和S53主要是对智能体所上传的模型参数样本进行预处理,过滤异常值,剔除离群点,保证最终结果的收敛性。
S54、对剩下的节点进行加权平均,并将结果返回给普通智能体;具体实现方法为:根据每个普通智能体的能力大小以及可信度对普通智能体打分,赋予不同权值;设第i个普通智能体的模型参数样本权值为wi,设经过参数过滤后的模型参数样本集合为Φ,则加权平均的结果θagg为:
Figure BDA0002840666290000091
最后将结果θagg返回给每个普通智能体。
S55、普通智能体以软更新方式更新本地的模型参数;具体实现方法为:普通智能体收到增强型智能体或参数聚合协作平台返回的更新参数θagg后,以软更新的方式进行本地的神经网络模型更新,即以比重τ将θagg加入本地当前神经模型参数θt中,则更新完后的神经网络参数θt+1为:θt+1=(1-τ)θt+τθagg,完成一次联邦学习过程,其中τ∈[0,1];当τ为0时,表示不将更新参数θagg融入本地模型;当τ为1时,表示本地模型直接复制更新参数θagg。根据经验,比重τ在初始时设置一个相对较大的值,以便加快训练步伐,然后在训练迭代的过程中,逐步的降低比重,保证收敛稳定性。
S6、各个智能体将收到的返回结果与本地的神经网络参数进行软更新,得到最新的本地模型参数;
S7、重复S3-S6,直到完成目标任务。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。

Claims (7)

1.一种基于深度强化学习的多智能体联邦协作方法,其特征在于,包括以下步骤:
S1、对任务和智能体进行划分,对每个智能体建立深度强化学习模型,设置智能体在环境中的状态空间、智能体可决策的行为空间以及环境对智能体的行为奖励;
S2、根据深度强化学习算法,为每个智能体建立神经网络;
S3、智能体根据分配的目标以及当前自身状态决策下一步采取的行为,并与环境进行交互,得到下一个自身状态,将该决策经验存储到经验池中,并且根据随机梯度下降法及时更新本地的神经网络模型;
S4、在循环达到设定的次数后,将本地的神经网络模型参数传给协作平台,进行后续的联邦学习;
S5、对所有智能体上传的参数进行聚合处理,并将结果返回给各个智能体进行参数更新;协作平台根据任务的类型以及增强型智能体模型对智能体进行划分,对具有相似任务以及相同模型的增强型智能体进行参数聚合,并返回对应的聚合结果;
S6、各个智能体将收到的返回结果与本地的神经网络参数进行软更新,得到最新的本地模型参数;
S7、重复S3-S6,直到完成目标任务。
2.根据权利要求1所述的一种基于深度强化学习的多智能体联邦协作方法,其特征在于,所述步骤S1对任务和智能体进行划分的具体实现方法为:将多个智能体分为多个任务区域,每个任务区域内有一个增强型智能体以及多个普通智能体;将每个任务区域内能力最强的智能体作为增强型智能体,其余智能体为普通智能体。
3.根据权利要求1所述的一种基于深度强化学习的多智能体联邦协作方法,其特征在于,所述步骤S1中建立深度强化学习模型为:设空间中共有N个智能体,智能体的编号分别从1到n,第i个智能体的编号为i;设状态空间为S,行为空间为A,奖励值为R,三元组<S,A,R>决定了具体的多智能体模型;
(1)状态空间:在相同的状态空间情况下,若第i个智能体的状态空间为Si,第j个智能体的状态空间为Sj,则Si=Sj,1≤i≤N,1≤j≤N,i≠j;在不同的状态空间情况下,则根据具体场景建立智能体状态空间Si和Sj
(2)行为空间:对每个智能体建立行为空间,相同的状态空间智能体的行为空间一致;在不同的状态空间情况下,根据具体场景建立智能体行为空间;
(3)奖励值,多智能体系统的奖励值R包括以下三个奖励:
a)个体即时奖励r1:环境即时反馈给当前智能体奖励,设当前状态为si,下一个状态为si+1,期望的状态为se,若|si+1-se|<|si-se|,则判定为靠近目标,奖励p,否则为远离目标,奖励-p;
b)全局即时奖励r2:当前环境给所有智能体的奖励,设当前全局智能体的状态为st
Figure FDA0002840666280000021
Figure FDA0002840666280000022
为t时刻第j个智能体的状态,全局智能体下一个状态为st+1,完成任务时全局智能体的状态为se,若|st+1-se|<|st-se|,则判定为靠近目标,对每个智能体奖励q,否则为远离目标,对每个智能体奖励-q;
其中,p、q为用户设定的正数,满足q≤p;
c)全局最终奖励r3:当多智能体系统完成目标后给全局所有智能体的奖励,其他情况不奖励;全局最终奖励与总时间相关,即总时间越长,最终奖励越小,总时间越短,最终奖励越大;所以,全局最终奖励表示为
Figure FDA0002840666280000023
其中T为总时间,α、β为系数,α<0,β>0,由用户设定,并且满足β≥10(p+q),保障r3为(p+q)的数十倍及以上,促使智能体学习目前已知的近似最优策略;
所以,智能体的奖励值为:
Figure FDA0002840666280000024
另外,多智能体在选择动作获得即时奖励的同时,也需要考虑到未来的收益,因此智能体在t时刻的奖励值Gt表示为
Figure FDA0002840666280000025
其中,Rt+k+1表示智能体在t+k+1时刻的奖励值,
Figure FDA0002840666280000026
γ代表折扣系数,γ越大表示越看重未来的奖励,γ越小表示越看重当前奖励;
(4)模型组成:智能体的模型由交互网络Q(θ)、评价网络Q′(θ′)、经验池以及梯度更新函数组成,其中θ和θ′分别指的是交互网络以及评价网络的神经网络系数,由每层网络的权重和偏差组成;它们的作用和关系如下:
交互网络负责实时与环境进行交互,在t时刻,第i个智能体的输入状态为si,输出动作为ai;当智能体执行完动作后,环境将给出下一个状态si+1和奖励Ri,智能体将四元组<si,ai,Ri,si+1>存入经验池;
梯度更新函数使用梯度下降法,通过从经验池中获取四元组以及评价网络的输出对交互网络进行梯度更新,梯度下降法的公式为min(Ri+γmaxa′Q′(si+1,a′;θ′)-Q(si,ai;θ))2,其中a′为执行完动作ai到达状态si+1后可选的动作;
经过一定次数后,评价网络从交互网络中获取神经网络参数,并更新一部分自己的神经网络参数,以便保障评价网络梯度更新的准确性和算法的收敛性;
如此循环迭代,当智能体完成目标任务或者达到预定的迭代次数时结束,最终完成对智能体的深度强化学习模型的训练。
4.根据权利要求1所述的一种基于深度强化学习的多智能体联邦协作方法,其特征在于,所述步骤S5中参数聚合算法包括以下子步骤:
S51、任务区域内的普通智能体将本地参数样本上传至增强型智能体;
S52、增强型智能体对参数样本计算中心点,并计算各个参数样本至中心点的马氏距离;
S53、去除至中心点的马氏距离大于预设阈值的节点;
S54、对剩下的节点进行加权平均,并将结果返回给普通智能体;
S55、普通智能体以软更新方式更新本地的模型参数。
5.根据权利要求4所述的一种基于深度强化学习的多智能体联邦协作方法,其特征在于,所述步骤S52中计算中心点的具体实现方法为:记第i个普通智能体上传的模型参数样本为θi,每次增强型智能体或参数聚合协作平台收到的模型参数样本集合为Θ={θi};通过计算平均值来得到样本的中心点θavg,即
Figure FDA0002840666280000031
n为模型参数样本的数量;
参数样本至中心点的马氏距离计算方法为:首先计算协方差矩阵∑X,公式如下:
Figure FDA0002840666280000032
其中,X大小为n×m,即n个模型参数样本,每个样本有m维;
则第i个模型参数样本θi与中心点θavg的马氏距离Dmai,θavg)为:
Figure FDA0002840666280000033
6.根据权利要求4所述的一种基于深度强化学习的多智能体联邦协作方法,其特征在于,所述步骤S54具体实现方法为:根据每个普通智能体的能力大小以及可信度对普通智能体打分,赋予不同权值;设第i个普通智能体的模型参数样本权值为wi,设经过参数过滤后的模型参数样本集合为Φ,则加权平均的结果θagg为:
Figure FDA0002840666280000034
最后将结果θagg返回给每个普通智能体。
7.根据权利要求4所述的一种基于深度强化学习的多智能体联邦协作方法,其特征在于,所述步骤S55具体实现方法为:普通智能体收到增强型智能体或参数聚合协作平台返回的更新参数θagg后,以软更新的方式进行本地的神经网络模型更新,即以比重τ将θagg加入本地当前神经模型参数θt中,则更新完后的神经网络参数θt+1为:θt+1=(1-τ)θt+τθagg,完成一次联邦学习过程,其中τ∈[0,1];当τ为0时,表示不将更新参数θagg融入本地模型;当τ为1时,表示本地模型直接复制更新参数θagg
CN202011490926.5A 2020-12-17 2020-12-17 一种基于深度强化学习的多智能体联邦协作方法 Pending CN112465151A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011490926.5A CN112465151A (zh) 2020-12-17 2020-12-17 一种基于深度强化学习的多智能体联邦协作方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011490926.5A CN112465151A (zh) 2020-12-17 2020-12-17 一种基于深度强化学习的多智能体联邦协作方法

Publications (1)

Publication Number Publication Date
CN112465151A true CN112465151A (zh) 2021-03-09

Family

ID=74802983

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011490926.5A Pending CN112465151A (zh) 2020-12-17 2020-12-17 一种基于深度强化学习的多智能体联邦协作方法

Country Status (1)

Country Link
CN (1) CN112465151A (zh)

Cited By (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113076553A (zh) * 2021-03-11 2021-07-06 佳讯飞鸿(北京)智能科技研究院有限公司 一种智能体节点插件管理方法
CN113156954A (zh) * 2021-04-25 2021-07-23 电子科技大学 一种基于增强学习的多智能体集群避障方法
CN113191503A (zh) * 2021-05-20 2021-07-30 清华大学深圳国际研究生院 一种非共享数据的去中心化的分布式学习方法及系统
CN113191484A (zh) * 2021-04-25 2021-07-30 清华大学 基于深度强化学习的联邦学习客户端智能选取方法及系统
CN113316169A (zh) * 2021-05-08 2021-08-27 北京科技大学 一种面向智慧港口的uav辅助通信能效优化方法及装置
CN113313236A (zh) * 2021-06-10 2021-08-27 浙江工业大学 基于时序神经通路的深度强化学习模型中毒检测方法及其装置
CN113335291A (zh) * 2021-07-27 2021-09-03 燕山大学 一种基于人车风险状态的人机共驾控制权决策方法
CN113344071A (zh) * 2021-06-02 2021-09-03 沈阳航空航天大学 一种基于深度策略梯度的入侵检测算法
CN113449867A (zh) * 2021-07-02 2021-09-28 电子科技大学 一种基于知识蒸馏的深度强化学习多智能体协作方法
CN113473480A (zh) * 2021-05-31 2021-10-01 南京邮电大学 面向蜂窝网络的改进式强化学习网络覆盖优化方法
CN113518112A (zh) * 2021-05-08 2021-10-19 杭州电子科技大学 基于多智能体强化学习的无线充电设备协作任务卸载策略
CN113570039A (zh) * 2021-07-22 2021-10-29 同济大学 一种基于强化学习的优化共识的区块链系统
CN113660304A (zh) * 2021-07-07 2021-11-16 北京邮电大学 一种基于双向拍卖博弈的无人机群分布式学习资源管控方法
CN113673696A (zh) * 2021-08-20 2021-11-19 山东鲁软数字科技有限公司 一种基于强化联邦学习的电力行业起重作业违章检测方法
CN113783782A (zh) * 2021-09-09 2021-12-10 哈尔滨工程大学 一种深度强化学习的机会路由候选集节点排序方法
CN113779302A (zh) * 2021-09-09 2021-12-10 福州大学 基于值分解网络和多智能体强化学习的半分布式协作存储方法
CN113885491A (zh) * 2021-08-29 2022-01-04 北京工业大学 基于联邦深度强化学习的无人驾驶决策与控制方法
CN113920780A (zh) * 2021-09-01 2022-01-11 同济大学 基于联邦学习的云雾协同个性化前向碰撞风险预警方法
CN114037521A (zh) * 2021-11-25 2022-02-11 工银科技有限公司 融资预授信方法、装置、设备及介质
CN114169711A (zh) * 2021-11-24 2022-03-11 华中科技大学 一种蒸馏装置的事故应急处置方案生成方法、装置和系统
CN114186712A (zh) * 2021-11-01 2022-03-15 山东大学 一种基于强化学习的集装箱装卸智能化方法及系统
CN114598667A (zh) * 2022-03-04 2022-06-07 重庆邮电大学 一种基于联邦学习的高效设备选择与资源分配方法
CN114900420A (zh) * 2022-03-28 2022-08-12 北京工业大学 基于群体智能的分布式软件服务保障方法
CN115494831A (zh) * 2021-06-17 2022-12-20 中国科学院沈阳自动化研究所 一种人机自主智能协同的跟踪方法
WO2023044676A1 (zh) * 2021-09-23 2023-03-30 西门子(中国)有限公司 一种多个机器人协同工作的控制方法、系统及机器人
WO2023226183A1 (zh) * 2022-05-24 2023-11-30 南京邮电大学 一种基于多智能体协作的多基站排队式前导码分配方法
US11862016B1 (en) 2022-07-19 2024-01-02 Jiangsu University Multi-intelligence federal reinforcement learning-based vehicle-road cooperative control system and method at complex intersection
WO2024007499A1 (zh) * 2022-07-05 2024-01-11 之江实验室 强化学习智能体训练方法、模态带宽资源调度方法及装置
WO2024016386A1 (zh) * 2022-07-19 2024-01-25 江苏大学 复杂路口下基于多智能体联邦强化学习的车路协同控制系统及方法
US11979295B2 (en) 2022-07-05 2024-05-07 Zhejiang Lab Reinforcement learning agent training method, modal bandwidth resource scheduling method and apparatus
CN114169711B (zh) * 2021-11-24 2024-07-02 华中科技大学 一种蒸馏装置的事故应急处置方案生成方法、装置和系统

Cited By (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113076553B (zh) * 2021-03-11 2023-10-17 佳讯飞鸿(北京)智能科技研究院有限公司 一种智能体节点插件管理方法
CN113076553A (zh) * 2021-03-11 2021-07-06 佳讯飞鸿(北京)智能科技研究院有限公司 一种智能体节点插件管理方法
CN113191484B (zh) * 2021-04-25 2022-10-14 清华大学 基于深度强化学习的联邦学习客户端智能选取方法及系统
CN113156954A (zh) * 2021-04-25 2021-07-23 电子科技大学 一种基于增强学习的多智能体集群避障方法
CN113156954B (zh) * 2021-04-25 2023-03-24 电子科技大学 一种基于增强学习的多智能体集群避障方法
CN113191484A (zh) * 2021-04-25 2021-07-30 清华大学 基于深度强化学习的联邦学习客户端智能选取方法及系统
CN113518112A (zh) * 2021-05-08 2021-10-19 杭州电子科技大学 基于多智能体强化学习的无线充电设备协作任务卸载策略
CN113518112B (zh) * 2021-05-08 2022-12-09 杭州电子科技大学 基于多智能体强化学习的无线充电设备协作任务卸载策略
CN113316169B (zh) * 2021-05-08 2023-01-31 北京科技大学 一种面向智慧港口的uav辅助通信能效优化方法及装置
CN113316169A (zh) * 2021-05-08 2021-08-27 北京科技大学 一种面向智慧港口的uav辅助通信能效优化方法及装置
CN113191503B (zh) * 2021-05-20 2023-06-09 清华大学深圳国际研究生院 一种非共享数据的去中心化的分布式学习方法及系统
CN113191503A (zh) * 2021-05-20 2021-07-30 清华大学深圳国际研究生院 一种非共享数据的去中心化的分布式学习方法及系统
CN113473480B (zh) * 2021-05-31 2022-11-04 南京邮电大学 面向蜂窝网络的改进式强化学习网络覆盖优化方法
CN113473480A (zh) * 2021-05-31 2021-10-01 南京邮电大学 面向蜂窝网络的改进式强化学习网络覆盖优化方法
CN113344071A (zh) * 2021-06-02 2021-09-03 沈阳航空航天大学 一种基于深度策略梯度的入侵检测算法
CN113344071B (zh) * 2021-06-02 2024-01-26 新疆能源翱翔星云科技有限公司 一种基于深度策略梯度的入侵检测算法
CN113313236B (zh) * 2021-06-10 2024-03-15 浙江工业大学 基于时序神经通路的深度强化学习模型中毒检测方法及其装置
CN113313236A (zh) * 2021-06-10 2021-08-27 浙江工业大学 基于时序神经通路的深度强化学习模型中毒检测方法及其装置
CN115494831A (zh) * 2021-06-17 2022-12-20 中国科学院沈阳自动化研究所 一种人机自主智能协同的跟踪方法
CN115494831B (zh) * 2021-06-17 2024-04-16 中国科学院沈阳自动化研究所 一种人机自主智能协同的跟踪方法
CN113449867A (zh) * 2021-07-02 2021-09-28 电子科技大学 一种基于知识蒸馏的深度强化学习多智能体协作方法
CN113660304A (zh) * 2021-07-07 2021-11-16 北京邮电大学 一种基于双向拍卖博弈的无人机群分布式学习资源管控方法
CN113570039A (zh) * 2021-07-22 2021-10-29 同济大学 一种基于强化学习的优化共识的区块链系统
CN113570039B (zh) * 2021-07-22 2024-02-06 同济大学 一种基于强化学习的优化共识的区块链系统
CN113335291B (zh) * 2021-07-27 2022-07-08 燕山大学 一种基于人车风险状态的人机共驾控制权决策方法
CN113335291A (zh) * 2021-07-27 2021-09-03 燕山大学 一种基于人车风险状态的人机共驾控制权决策方法
CN113673696B (zh) * 2021-08-20 2024-03-22 山东鲁软数字科技有限公司 一种基于强化联邦学习的电力行业起重作业违章检测方法
CN113673696A (zh) * 2021-08-20 2021-11-19 山东鲁软数字科技有限公司 一种基于强化联邦学习的电力行业起重作业违章检测方法
CN113885491A (zh) * 2021-08-29 2022-01-04 北京工业大学 基于联邦深度强化学习的无人驾驶决策与控制方法
CN113920780A (zh) * 2021-09-01 2022-01-11 同济大学 基于联邦学习的云雾协同个性化前向碰撞风险预警方法
CN113783782A (zh) * 2021-09-09 2021-12-10 哈尔滨工程大学 一种深度强化学习的机会路由候选集节点排序方法
CN113779302B (zh) * 2021-09-09 2023-09-22 福州大学 基于值分解网络和多智能体的半分布式协作存储方法
CN113779302A (zh) * 2021-09-09 2021-12-10 福州大学 基于值分解网络和多智能体强化学习的半分布式协作存储方法
WO2023044676A1 (zh) * 2021-09-23 2023-03-30 西门子(中国)有限公司 一种多个机器人协同工作的控制方法、系统及机器人
CN114186712A (zh) * 2021-11-01 2022-03-15 山东大学 一种基于强化学习的集装箱装卸智能化方法及系统
CN114169711A (zh) * 2021-11-24 2022-03-11 华中科技大学 一种蒸馏装置的事故应急处置方案生成方法、装置和系统
CN114169711B (zh) * 2021-11-24 2024-07-02 华中科技大学 一种蒸馏装置的事故应急处置方案生成方法、装置和系统
CN114037521A (zh) * 2021-11-25 2022-02-11 工银科技有限公司 融资预授信方法、装置、设备及介质
CN114598667A (zh) * 2022-03-04 2022-06-07 重庆邮电大学 一种基于联邦学习的高效设备选择与资源分配方法
CN114900420A (zh) * 2022-03-28 2022-08-12 北京工业大学 基于群体智能的分布式软件服务保障方法
WO2023226183A1 (zh) * 2022-05-24 2023-11-30 南京邮电大学 一种基于多智能体协作的多基站排队式前导码分配方法
WO2024007499A1 (zh) * 2022-07-05 2024-01-11 之江实验室 强化学习智能体训练方法、模态带宽资源调度方法及装置
US11979295B2 (en) 2022-07-05 2024-05-07 Zhejiang Lab Reinforcement learning agent training method, modal bandwidth resource scheduling method and apparatus
WO2024016386A1 (zh) * 2022-07-19 2024-01-25 江苏大学 复杂路口下基于多智能体联邦强化学习的车路协同控制系统及方法
US11862016B1 (en) 2022-07-19 2024-01-02 Jiangsu University Multi-intelligence federal reinforcement learning-based vehicle-road cooperative control system and method at complex intersection

Similar Documents

Publication Publication Date Title
CN112465151A (zh) 一种基于深度强化学习的多智能体联邦协作方法
CN111667513B (zh) 一种基于ddpg迁移学习的无人机机动目标跟踪方法
CN108803349B (zh) 非线性多智能体系统的最优一致性控制方法及系统
CN113110509B (zh) 一种基于深度强化学习的仓储系统多机器人路径规划方法
CN113095481B (zh) 一种基于并行自我博弈的空战机动方法
CN110442129B (zh) 一种多智能体编队的控制方法和系统
CN109690576A (zh) 在多个机器学习任务上训练机器学习模型
CN112799386B (zh) 基于人工势场与强化学习的机器人路径规划方法
CN111241952A (zh) 一种离散制造场景中的强化学习奖励自学习方法
CN111240356B (zh) 一种基于深度强化学习的无人机集群会合方法
CN114415735B (zh) 面向动态环境的多无人机分布式智能任务分配方法
CN114510012A (zh) 一种基于元动作序列强化学习的无人集群演进系统及方法
Geng et al. Learning to cooperate in decentralized multi-robot exploration of dynamic environments
CN116560409A (zh) 基于maddpg-r的无人机集群路径规划仿真方法
CN112272074A (zh) 一种基于神经网络的信息传输速率控制方法及系统
CN117273057A (zh) 基于强化学习的多智能体协同对抗决策方法及装置
Jaafra et al. Context-aware autonomous driving using meta-reinforcement learning
CN116432539A (zh) 一种时间一致性协同制导方法、系统、设备及介质
Wang et al. Cooperatively pursuing a target unmanned aerial vehicle by multiple unmanned aerial vehicles based on multiagent reinforcement learning
Hong et al. Deterministic policy gradient based formation control for multi-agent systems
CN112926729B (zh) 人机对抗智能体策略制定方法
CN114489035B (zh) 一种基于累积迹强化学习的多机器人协同搜索方法
Faber The sensor management prisoners dilemma: a deep reinforcement learning approach
CN117332814A (zh) 一种基于模块化网络的合作智能体模型、学习方法和装置
CN117806158A (zh) 一种室内物品飞行搬运机器人的稳定性控制方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination