CN114757092A - 基于队友感知的多智能体协作通信策略的训练系统和方法 - Google Patents

基于队友感知的多智能体协作通信策略的训练系统和方法 Download PDF

Info

Publication number
CN114757092A
CN114757092A CN202210297894.XA CN202210297894A CN114757092A CN 114757092 A CN114757092 A CN 114757092A CN 202210297894 A CN202210297894 A CN 202210297894A CN 114757092 A CN114757092 A CN 114757092A
Authority
CN
China
Prior art keywords
agent
information
network
teammate
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210297894.XA
Other languages
English (en)
Inventor
章宗长
俞扬
周志华
张福翔
袁雷
王铖鹤
秦熔均
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN202210297894.XA priority Critical patent/CN114757092A/zh
Publication of CN114757092A publication Critical patent/CN114757092A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了提出一种基于队友感知的多智能体协作通信策略的训练系统和方法,借助于队友建模方法,在与队友交互的过程中,为队友生成定制化、稀疏化的消息。通过多智能体强化学习通信方法,使得智能体能够在带宽受限的条件下学得能够抗干扰的高效协作通信策略,训练得到的智能体协作通信策略可以使智能体既能根据自身得到的观测信息选择合理的协作动作,又能够在合适时刻向队友发送信息以促进协作,或根据收到的队友信息进行配合。本发明在带宽受限的实际场景中仅通过少量节点间的通信实现紧密有效的协作,能够保证多智能体协作通信过程中的抗干扰能力。

Description

基于队友感知的多智能体协作通信策略的训练系统和方法
技术领域
本发明涉及一种基于队友感知的多智能体通信系统和方法,尤其涉及的是合作型多智能体控制任务中的高效通信策略训练系统和方法。
背景技术
多智能体技术近年来在各个方面取得重大发展,在智能路径规划、智能送货、游戏博弈、军事对抗等领域都取得了重要成果。传统的多智能体协作策略主要采用自动化控制方法,通过人工建模的过程制定策略,并依赖相关领域专家指定操作规则,设计符合实际使用场景的通信协议。该类协作通信方法成本高昂,缺乏在复杂动态环境下的适应能力,在面对不同使用场景时往往依赖领域专家重新设计操作策略与通信规则,成本开销高昂。
近年来,随着机器学习尤其是深度学习的蓬勃发展,强化学习技术为智能体间协作提供了新的解决方案。强化学习使得智能体能够在与环境的交互中进行学习,智能体通过与环境交互获得奖赏或惩罚,从而更加适应环境,学得能够从环境中获得最大奖赏的策略。在合作型多智能体强化学习中,多个智能体的行动将产生环境的共同奖赏,有效而紧密的多智能体协作策略能够高效控制智能体的自主行动。基于强化学习的多智能体算法在多智能体路径规划等领域都取得了比传统方法更鲁棒、样本效率更高的效果,为通用人工智能的发展提供了希望。
尽管多智能体强化学习算法已经取得了一些成果,在许多真实应用场景如智能协作对抗场景中,基于强化学习得到的策略,其协作能力会受到自身信息部分可观测的影响,在此类场景,智能体往往只能得到环境的局部信息,无法准确做出最优行动,从而影响智能体的协同配合能力。通信能够在一定程度上加强智能体间的协作能力,但在现实环境中,智能体间的通信往往会受到各种因素的干扰,如通信带宽有限性,通信可达性没有保证,从而大幅影响强化学习得到的协作策略性能。
发明内容
发明目的:基于目前多智能体通信存在的问题,如何在这种带宽受限的环境下训练得到抗干扰的鲁棒的协作通信策略,即为本发明旨在解决的问题。本发明提出一种基于队友感知的多智能体协作通信策略的训练系统和方法,在带宽受限的实际场景中仅通过少量节点间的通信实现紧密有效的协作,能够保证多智能体协作通信过程中的抗干扰能力。该方法借助于队友建模方法,在与队友交互的过程中,为队友生成定制化、稀疏化的消息。
技术方案:一种基于队友感知的多智能体协作通信策略的训练系统,通过多智能体强化学习通信方法,使得智能体能够在带宽受限的条件下学得能够抗干扰的高效协作通信策略,训练得到的智能体协作通信策略可以使智能体既能根据自身得到的观测信息选择合理的协作动作,又能够在合适时刻向队友发送信息以促进协作,或根据收到的队友信息进行配合。
本系统构建智能体仿真操控环境进行多智能体协作通信策略的训练,降低策略学习成本并提高学习效率。包括三个模块:
个体值网络模块,用于从自身观测中判断动作价值;
分布式队友建模模块,用于从自身历史信息中进行队友建模;
信息生成模块,用于生成稀疏且具有针对性的队友信息。
所提出的三个模块能够以端到端的方式通过强化学习方法进行同时训练。
所述智能体仿真操控环境E能够建模为分布式部分可观测马尔科夫决策过程<S,A,P,R,Ω,O,γ>,场景中任一智能体i在每个决策步骤接收观测信息oi∈Ω,并从动作空间A中选取可执行的动作ai进行决策。
所述个体值网络模块使用全连接神经网络表示,能够根据给定的观测信息得到单步智能体控制过程下的最优动作及其最大回报。在训练阶段中,该模块利用结合场景中所有队友个体值网络的混合网络,使用深度Q网络的经验回放方法进行学习,利用训练过程中与智能体仿真操控环境交互过程中的历史数据(τ,a,r,τ′),根据贝尔曼方程进行网络参数更新,得到较优的网络模型,该模块的强化学习过程目标函数如下:
Figure BDA0003562367360000021
式中τ为所有智能体在对应时间步中接收到的历史观测信息,a为所有智能体采取的对应动作,θ为智能体个体值网络以及训练过程中使用的混合网络的参数,Q(τ,a;θ)为混合网络输出的最大回报预测,y=r+γmaxa′Q(τ,a′;θ-)是预期的目标最大回报,θ-为提高训练效率所使用的与待训练网络完全相同的目标网络参数,其参数将被周期性更新为待训练网络参数。
所述分布式队友建模模块根据历史观测信息τi和队友编码信息dj,将对应队友j建模为一个多维高斯分布,并利用该高斯分布采样得到的向量zij作为队友表征,用于信息生成。该模块除上述端到端的强化学习目标函数外,额外引入一个基于互信息的目标I(zij;aji,dj),以保证队友建模的准确性。
所述信息生成模块能够根据分布式队友建模模块得到的队友信息,综合自身观测,对不同的智能体队友生成针对性强的信息,达到高效协同的目的。该模块使用自注意力网络综合自身观测信息和队友建模信息,得到对于不同队友的不同权重,并根据权重大小选择性地与部分队友进行通信,为使通信目标更为稀疏,所述信息生成模块额外引入基于信息熵的优化目标,使得智能体信息生成模块能够在通信时主要考虑少数重要目标。信息生成模块能够生成与对应动作相同维度的信息,智能体在每个时间步获取可用的通信信息后将其与自身个体值网络的输出直接加和,避免了个体值网络需要对信息的额外处理。
一种基于队友感知的多智能体协作通信策略的训练方法,包括如下步骤:
步骤1:智能体与智能体仿真操控环境的交互过程。
步骤2:使用合作型多智能体强化学习方法,根据与模拟环境交互过程中的全局奖赏利用时间差分方法对智能体协作通信策略进行更新,智能体协作通信策略涵盖个体值网络、分布式队友建模网络和信息生成网络,策略网络最终给出个体的状态动作值函数,经过混合网络得到全局值函数,根据贝尔曼方程进行更新个体值网络。
步骤3:使用基于循环神经网络和多层感知机的浅层神经网络来构建智能体的个体值网络。
步骤4:使用分布式队友建模模块预测队友信息,得到队友建模表征,队友建模模块利用多层感知机从轨迹信息中得到当前时间步的队友信息,并将其表征为多维高斯分布。
步骤5:使用基于注意力机制的信息生成模块,从个体值网络中得到的轨迹信息和分布式队友建模模块中得到的队友建模信息,生成对不同智能体队友具有针对性的稀疏信息,进行智能体协作通信。
步骤6:策略训练达到收敛后,完成训练过程。
一种计算机设备,该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行上述计算机程序时实现如上所述的基于队友感知的多智能体协作通信策略的训练方法。
一种计算机可读存储介质,该计算机可读存储介质存储有执行如上所述的基于队友感知的多智能体协作通信策略的训练方法的计算机程序。
有益效果:与现有技术相比,本发明提供的基于队友感知的多智能体协作通信策略的训练系统和方法,通过对合作的队友进行感知,无需领域专家的人工建模与规则制定,可以大大降低试错成本与训练效率。所述多智能体协作通信策略能够利用高效的分布式队友建模学得合理的协同策略与通讯方法,实现了稀疏鲁棒的智能体通信模式,能够适用于带宽受限等不稳定的复杂网络场景,具有广泛的应用前景。本发明在一个典型的多智能体协同打击环境上验证了发明的有效性与合理性,实验结果表明本发明技术可以有效提升多智能体协作性能。
附图说明
图1为本发明实施例中所述的多智能体协作通信策略与智能体仿真模拟环境交互的示意图;
图2为本发明实施例中所述的多智能体协作通信策略通过混合网络在仿真环境中训练的示意图;
图3为本发明实施例中所述的智能体个体值网络示意图;
图4为本发明实施例中所述的智能体分布式队友建模模块示意图;
图5为本发明实施例中所述的智能体信息生成模块示意图;
图6为本发明实施例中所述的多智能体协作通信策略训练流程图;
图7为本发明实施例中用于验证的多智能体协同打击模拟环境实例图;
图8为本发明实施例中所述的多智能体协作通信策略训练后在上述多智能体协同打击模拟环境的验证结果。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
基于队友感知的多智能体协作通信策略的训练系统,包括三个模块:
个体值网络模块,用于从自身观测中判断动作价值;
分布式队友建模模块,用于从自身历史信息中进行队友建模;
信息生成模块,用于生成稀疏且具有针对性的队友信息。
所提出的三个模块能够以端到端的方式通过强化学习方法进行同时训练。
智能体仿真操控环境E能够建模为分布式部分可观测马尔科夫决策过程<S,A,P,R,Ω,O,γ>,场景中任一智能体i在每个决策步骤接收观测信息oi∈Ω,并从动作空间A中选取可执行的动作ai进行决策。
个体值网络模块使用全连接神经网络表示,能够根据给定的观测信息得到单步智能体控制过程下的最优动作及其最大回报。在训练阶段中,该模块利用结合场景中所有队友个体值网络的混合网络,使用深度Q网络的经验回放方法进行学习,利用训练过程中与模拟器(智能体仿真操控环境)交互过程中的历史数据(τ,a,r,τ′),根据贝尔曼方程进行网络参数更新,得到较优的网络模型,该模块的强化学习过程目标函数如下:
Figure BDA0003562367360000041
式中τ为所有智能体在对应时间步中接收到的历史观测信息,a为所有智能体采取的对应动作,θ为智能体个体值网络以及训练过程中使用的混合网络的参数,Q(τ,a;θ)为混合网络输出的最大回报预测,y=r+γmaxa′Q(τ,a′;θ-)是预期的目标最大回报,θ-为提高训练效率所使用的与待训练网络完全相同的目标网络参数,其参数将被周期性更新为待训练网络参数。
分布式队友建模模块根据历史观测信息τi和队友编码信息dj,将对应队友j建模为一个多维高斯分布,并利用该高斯分布采样得到的向量zij作为队友表征,用于信息生成。该模块除上述端到端的强化学习目标函数外,同时引入一个基于互信息的目标I(zij;aji,dj),以保证队友建模的准确性,该目标使用基于变分推断的损失函数进行训练。
信息生成模块能够根据分布式队友建模模块得到的队友信息,综合自身观测,对不同的智能体队友生成针对性强的信息,达到高效协同的目的。该模块使用自注意力网络综合自身观测信息和队友建模信息,得到对于不同队友的不同权重,并根据权重大小选择性地与部分队友进行通信,为使通信目标更为稀疏,所述信息生成模块额外引入基于信息熵的优化目标,使得智能体信息生成模块能够在通信时主要考虑少数重要目标。信息生成模块能够生成与对应动作相同维度的信息,智能体在每个时间步获取可用的通信信息后将其与自身个体值网络的输出直接加和,避免了个体值网络需要对信息的额外处理。
多智能体协作通信方法在协同打击模拟环境上进行了验证(见图7)。在该环境中,我方需要控制2个追踪者和1个打击者,其中追踪者视野为阴影区域,打击者打击范围为其中心所在圆,通过移动追击1个敌机,敌机在受到追踪者追踪超过2步后,连续2步落在打击者的打击范围内,敌机被打击完成。追踪者和打击者间可以通过适当的通信来共享关于敌机位置和决策方案的信息。环境中包含横向与纵向的随机障碍物,追踪者的追踪范围将会受到障碍物影响,而打击范围和通信不受障碍的干扰。图8展示了本发明多智能体协作通信方法与其他近期相关的多智能体强化学习算法VDN、QMIX和QPLEX在该模拟环境下的验证结果,实验结果表明本方法能够在该模拟环境下取得相较于现有多智能体强化学习算法更优的打击率。基于队友感知的多智能体协作通信策略的训练方法,包括如下步骤:
步骤1:图1中展示了智能体与智能体仿真操控环境的交互过程。使用基于真实系统构建的智能体仿真操控环境E进行交互,智能体仿真操控环境定义了一个分布式部分可观测马尔科夫决策过程<S,A,P,R,Ω,O,γ>,使智能体在该仿真环境中进行强化学习。状态空间S定义为环境信息与所有智能体信息,动作空间A为智能体可采取动作集合,P为模拟器(智能体仿真操控环境)的状态转移函数,R为模拟器的奖赏函数,Ω为每个智能体可能接收到的观测集合,O为该环境的状态观测函数,γ为折扣因子。以所验证的协同打击环境为例,本方法所采用的模拟器一般需要包括如下步骤实现:
步骤11:初始化模拟器,初始化模拟器的初始状态,添加各个智能体的信息。在协同打击模拟器环境中,初始化环境地图,为所有智能体和敌机在设定范围内选择随机的初始位置,并在对应位置初始化各个智能体。
步骤12:根据状态观测函数为每个智能体计算观测信息。在协同打击模拟器环境中,根据全局状态信息,给出每个智能体在设定视野范围内的局部观测。
步骤13:智能体进行动作选择后,将自身决策提交给模拟器。在协同打击模拟器环境中,智能体可采取的动作包括前进、后退、左右转向,打击者可额外采取打击动作。
步骤14:模拟器获取所有智能体选择的动作,计算该时间步奖赏。在协同打击模拟器环境中,模拟器根据当前状态与所有智能体提交的联合动作,基于智能体的行为,给出当前步的奖赏,包括智能体观测到敌机的奖赏、追踪者发现敌机的奖赏、敌机进入打击者攻击范围的奖赏。
步骤15:模拟器判断打击成功条件是否满足,若满足则结束当前情景。在协同打击模拟器环境中,敌机受到追踪者追踪超过2步后,连续2步落在打击者的打击范围内,则敌机被成功打击。
步骤2:使用合作型多智能体强化学习方法,根据与模拟环境交互过程中的全局奖赏利用时间差分方法对智能体协作通信策略进行更新,智能体协作通信策略涵盖个体值网络、分布式队友建模网络和信息生成网络,策略网络最终给出个体的状态动作值函数,经过混合网络得到全局值函数,根据贝尔曼方程进行更新个体值网络,图2中展示了智能体协作通信策略的训练流程。
步骤21:初始化基于队友感知的多智能体协作通信策略的训练系统,包括个体值网络模块、分布式队友建模模块和信息生成模块三个模块,以及多智能体强化学习训练用混合网络。智能体策略网络可根据实际情况共享网络参数,网络结构可参考下述步骤。
步骤22:在环境交互过程中收集历史轨迹信息构成强化学习异策略更新数据集,利用每个智能体的历史轨迹信息计算个体值函数Qii,ai),并将所有个体值函数输入混合网络,计算全局值函数Q(τ,a),此处多智能体强化学习训练用混合网络可使用广泛运用的VDN、QMIX、QPLEX等网络结构。
步骤23:使用历史轨迹信息中每步的当前奖赏以及目标网络计算的下一时刻最大回报来计算当前状态下值函数的估计作为更新目标,该更新目标公式为y=r+γmaxa′Q(τ,a′;θ-)。使用双Q网络,利用真实Q网络选取下一时刻的最优动作,缓解值函数估计的高估问题。使用时间差分误差作为目标函数来更新智能体协作通信策略网络与混合网络,目标函数为:
Figure BDA0003562367360000061
步骤3:使用基于循环神经网络和多层感知机的浅层神经网络来构建智能体的个体值网络,图3展示了智能体个体值网络的框架。
步骤31:使用循环神经网络将个体值网络输入的智能体观测信息编码为历史轨迹信息,此处使用的循环神经网络实现为GRU或LSTM等,循环神经网络包含64个隐层单元。
步骤32:使用多层感知机对循环神经网络输出的历史轨迹信息进行处理,得到智能体对每个可执行动作的局部值函数值,该多层感知机采用激活函数为ReLU的单隐层神经网络。
步骤33:使用多层感知机输出的局部值函数与接收到的其他智能体通信信息通过向量加法相结合,作为智能体的个体值函数输出。
步骤4:使用分布式队友建模模块预测队友信息,得到队友建模表征,队友建模模块利用多层感知机从轨迹信息中得到当前时间步的队友信息,并将其表征为多维高斯分布。图4展示了队友建模模块的计算流程。
步骤41:使用多层感知机将智能体i在个体值网络中计算得到的轨迹信息τi作为输入,网络输出为所要建模的多维高斯分布参数μij,
Figure BDA0003562367360000071
所使用的多层感知机可以是激活函数为ReLU的单隐层神经网络。
步骤42:使用计算得到的多维高斯分布参数μij,
Figure BDA0003562367360000072
得到对应的分布,并从分布中进行采样,得到对对应智能体队友j的建模信息zij
步骤43:使用基于互信息的损失函数计算优化目标I(zij;aji,dj),并在训练过程中最大化该目标,由于该互信息难以计算,可以在训练过程中优化其下界,即在引入变分分布qξ(ziji,aj,dj)的情况下,最小化KL散度项Jm(θ)=DKL(p(ziji,dj)||qξ(zij||τi,aj,dj))。
步骤5:使用基于注意力机制的信息生成模块,从个体值网络中得到的轨迹信息和分布式队友建模模块中得到的队友建模信息,生成对不同智能体队友具有针对性的稀疏信息。图5展示了信息生成模块的计算流程。
步骤51:使用轨迹信息τi经过全连接网络,计算智能体i的查询信息qi,该处全连接网络为单层线性模型。
步骤52:使用对队友智能体j的建模信息zij,经过全连接网络,计算得到智能体j的键值kjj,该处全连接网络为单层线性模型。
步骤53:使用轨迹信息τi和对队友智能体j的建模信息zij,经过多层感知机模型,计算得到智能体i对智能体j的初步信息值vij,可使用激活函数为ReLU的单隐层神经网络作为多层感知机。
步骤54:将智能体i的查询信息qi与智能体j的键值kij计算内积,将智能体i对所有其他智能体键值的计算结果通过Softmax函数,得到智能体i对所有其他智能体的权重。
步骤55:对智能体i对智能体j的权重αij进行裁剪,若该权重小于设定阈值,则将其裁剪为0,该阈值可取为
Figure BDA0003562367360000081
其中n为智能体的数目。
步骤55:将智能体i对智能体j的权重αij与智能体i对智能体j的初步信息值vij,得到智能体i对智能体j的最终信息值mij,并对智能体j发送该信息。
步骤56:对智能体i产生的所有权重,使用信息熵作为目标函数,通过最小化该目标使权重稀疏化,该目标函数为Jc(θ)=-∑ijαijlogαij
步骤6:策略训练达到收敛后,完成训练过程。
显然,本领域的技术人员应该明白,上述的本发明实施例的基于队友感知的多智能体协作通信策略的训练方法各步骤或基于队友感知的多智能体协作通信策略的训练系统各模块可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明实施例不限制于任何特定的硬件和软件结合。

Claims (10)

1.一种基于队友感知的多智能体协作通信策略的训练系统,其特征在于,系统构建智能体仿真操控环境进行多智能体协作通信策略的训练,包括三个模块:
个体值网络模块,用于从自身观测中判断动作价值;
分布式队友建模模块,用于从自身历史信息中进行队友建模;
信息生成模块,用于生成稀疏且具有针对性的队友信息;
所提出的三个模块能够以端到端的方式通过强化学习方法进行同时训练。
2.根据权利要求1所述的基于队友感知的多智能体协作通信策略的训练系统,其特征在于,所述智能体仿真操控环境E,能够建模为分布式部分可观测马尔科夫决策过程<S,A,P,R,Ω,O,γ>,场景中任一智能体i在每个决策步骤接收观测信息oi∈Ω,并从动作空间A中选取可执行的动作ai进行决策。
3.根据权利要求1所述的基于队友感知的多智能体协作通信策略的训练系统,其特征在于,所述个体值网络模块使用全连接神经网络表示,能够根据给定的观测信息得到单步智能体控制过程下的最优动作及其最大回报;在训练阶段中,该模块利用结合场景中所有队友个体值网络的混合网络,使用深度Q网络的经验回放方法进行学习,利用训练过程中与智能体仿真操控环境交互过程中的历史数据(τ,a,r,τ′),根据贝尔曼方程进行网络参数更新,得到较优的网络模型,该模块的强化学习过程目标函数如下:
Figure FDA0003562367350000011
式中τ为所有智能体在对应时间步中接收到的历史观测信息,a为所有智能体采取的对应动作,θ为智能体个体值网络以及训练过程中使用的混合网络的参数,Q(τ,a;θ)为混合网络输出的最大回报预测,y=r+γmaxa′Q(τ,a′;θ-)是预期的目标最大回报,θ-为提高训练效率所使用的与待训练网络完全相同的目标网络参数,其参数将被周期性更新为待训练网络参数。
4.根据权利要求1所述的基于队友感知的多智能体协作通信策略的训练系统,其特征在于,所述分布式队友建模模块根据历史观测信息τi和队友编码信息dj,将对应队友j建模为一个多维高斯分布,并利用该高斯分布采样得到的向量zij作为队友表征,用于信息生成;该模块除上述端到端的强化学习目标函数外,额外引入一个基于互信息的目标I(zij;aji,dj),以保证队友建模的准确性。
5.根据权利要求1所述的基于队友感知的多智能体协作通信策略的训练系统,其特征在于,所述信息生成模块能够根据分布式队友建模模块得到的队友信息,综合自身观测,对不同的智能体队友生成针对性信息;该信息生成模块使用自注意力网络综合自身观测信息和队友建模信息,得到对于不同队友的不同权重,并根据权重大小选择性地与部分队友进行通信,为使通信目标更为稀疏,所述信息生成模块额外引入基于信息熵的优化目标,使得智能体信息生成模块能够在通信时主要考虑少数重要目标;信息生成模块能够生成与对应动作相同维度的信息,智能体在每个时间步获取可用的通信信息后将其与自身个体值网络的输出直接加和,避免了个体值网络需要对信息的额外处理。
6.一种基于队友感知的多智能体协作通信策略的训练方法,其特征在于,包括如下步骤:
步骤1:智能体与智能体仿真操控环境的交互过程;
步骤2:使用合作型多智能体强化学习方法,根据与模拟环境交互过程中的全局奖赏利用时间差分方法对智能体协作通信策略进行更新,智能体协作通信策略涵盖个体值网络、分布式队友建模网络和信息生成网络,策略网络最终给出个体的状态动作值函数,经过混合网络得到全局值函数,根据贝尔曼方程进行更新个体值网络;
步骤3:使用基于循环神经网络和多层感知机的浅层神经网络来构建智能体的个体值网络;
步骤4:使用分布式队友建模模块预测队友信息,得到队友建模表征,队友建模模块利用多层感知机从轨迹信息中得到当前时间步的队友信息,并将其表征为多维高斯分布;
步骤5:使用基于注意力机制的信息生成模块,从个体值网络中得到的轨迹信息和分布式队友建模模块中得到的队友建模信息,生成对不同智能体队友具有针对性的稀疏信息,进行智能体协作通信;
步骤6:策略训练达到收敛后,完成训练过程。
7.根据权利要求6所述的基于队友感知的多智能体协作通信策略的训练方法,其特征在于,使用基于真实系统构建的智能体仿真操控环境E进行交互,智能体仿真操控环境定义了一个分布式部分可观测马尔科夫决策过程<S,A,P,R,Ω,O,γ>,使智能体在该仿真环境中进行强化学习;状态空间S定义为环境信息与所有智能体信息,动作空间A为智能体可采取动作集合,P为模拟器的状态转移函数,R为模拟器的奖赏函数,Ω为每个智能体可能接收到的观测集合,O为该环境的状态观测函数,γ为折扣因子;模拟器包括如下步骤实现:
步骤11:初始化模拟器,初始化模拟器的初始状态,添加各个智能体的信息;
步骤12:根据状态观测函数为每个智能体计算观测信息;
步骤13:智能体根据自身观测与队友信息进行决策,选择动作并提交给模拟器;
步骤14:模拟器获取所有智能体选择的动作,计算该时间步奖赏。
8.根据权利要求6所述的基于队友感知的多智能体协作通信策略的训练方法,其特征在于,所述步骤2包括如下步骤:
步骤21:初始化智能体策略网络与训练用混合网络,智能体策略网络可根据实际情况共享网络参数,网络结构可参考下述步骤。
步骤22:在环境交互过程中收集历史轨迹信息构成强化学习异策略更新数据集,利用每个智能体的历史轨迹信息计算个体值函数Qii,ai),并将所有个体值函数输入混合网络,计算全局值函数Q(τ,a);
步骤23:使用历史轨迹信息中每步的当前奖赏以及目标网络计算的下一时刻最大回报来计算当前状态下值函数的估计作为更新目标,该更新目标公式为y=r+γmaxa′Q(τ,a′;θ-);使用双Q网络,利用真实Q网络选取下一时刻的最优动作,缓解值函数估计的高估问题;使用时间差分误差作为目标函数来更新智能体协作通信策略网络与混合网络,目标函数为:
Figure FDA0003562367350000031
9.根据权利要求6所述的基于队友感知的多智能体协作通信策略的训练方法,其特征在于,分布式队友建模模块的实现流程如下:
步骤41:使用多层感知机将智能体i在个体值网络中计算得到的轨迹信息τi作为输入,网络输出为所要建模的多维高斯分布参数μij
Figure FDA0003562367350000032
步骤42:使用计算得到的多维高斯分布参数μij
Figure FDA0003562367350000033
得到对应的分布,并从分布中进行采样,得到对对应智能体队友j的建模信息zij
步骤43:使用基于互信息的损失函数计算优化目标I(zij;aji,dj),并在训练过程中最大化该目标,由于该互信息难以计算,可以在训练过程中优化其下界,即在引入变分分布qξ(ziji,aj,dj)的情况下,最小化KL散度项Jm(θ)=DKL(p(ziji,dj)||qξ(ziji,aj,dj));
信息生成模块的实现流程如下:
步骤51:使用轨迹信息τi经过全连接网络,计算智能体i的查询信息qi,该处全连接网络为单层线性模型;
步骤52:使用对队友智能体j的建模信息zij,经过全连接网络,计算得到智能体j的键值kij,该处全连接网络为单层线性模型;
步骤53:使用轨迹信息τi和对队友智能体j的建模信息zij,经过多层感知机模型,计算得到智能体i对智能体j的初步信息值vij
步骤54:将智能体i的查询信息qi与智能体j的键值kij计算内积,将智能体i对所有其他智能体键值的计算结果通过Softmax函数,得到智能体i对所有其他智能体的权重;
步骤55:对智能体i对智能体j的权重αij进行裁剪,若该权重小于设定阈值,则将其裁剪为0;
步骤55:将智能体i对智能体j的权重αij与智能体i对智能体j的初步信息值vij,得到智能体i对智能体j的最终信息值mij,并对智能体j发送该信息;
步骤56:对智能体i产生的所有权重,使用信息熵作为目标函数,通过最小化该目标使权重稀疏化,该目标函数为Jc(θ)=-∑ijαijlogαij
10.一种计算机设备,其特征在于:该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行上述计算机程序时实现如权利要求1-7中任一项所述的基于队友感知的多智能体协作通信策略的训练方法。
CN202210297894.XA 2022-03-24 2022-03-24 基于队友感知的多智能体协作通信策略的训练系统和方法 Pending CN114757092A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210297894.XA CN114757092A (zh) 2022-03-24 2022-03-24 基于队友感知的多智能体协作通信策略的训练系统和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210297894.XA CN114757092A (zh) 2022-03-24 2022-03-24 基于队友感知的多智能体协作通信策略的训练系统和方法

Publications (1)

Publication Number Publication Date
CN114757092A true CN114757092A (zh) 2022-07-15

Family

ID=82327976

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210297894.XA Pending CN114757092A (zh) 2022-03-24 2022-03-24 基于队友感知的多智能体协作通信策略的训练系统和方法

Country Status (1)

Country Link
CN (1) CN114757092A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117332814A (zh) * 2023-12-01 2024-01-02 中国科学院自动化研究所 一种基于模块化网络的合作智能体模型、学习方法和装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117332814A (zh) * 2023-12-01 2024-01-02 中国科学院自动化研究所 一种基于模块化网络的合作智能体模型、学习方法和装置

Similar Documents

Publication Publication Date Title
Foerster et al. Stabilising experience replay for deep multi-agent reinforcement learning
Shantia et al. Connectionist reinforcement learning for intelligent unit micro management in starcraft
CN114358141A (zh) 一种面向多作战单元协同决策的多智能体增强学习方法
Duan et al. A multi-agent reinforcement learning approach to robot soccer
CN116360503B (zh) 一种无人机博弈对抗策略生成方法、系统及电子设备
Toghiani-Rizi et al. Evaluating deep reinforcement learning for computer generated forces in ground combat simulation
Yang et al. Adaptive inner-reward shaping in sparse reward games
CN114281103B (zh) 一种零交互通信的飞行器集群协同搜索方法
CN114757092A (zh) 基于队友感知的多智能体协作通信策略的训练系统和方法
CN116776929A (zh) 一种基于pf-maddpg的多智能体任务决策方法
Subramanian et al. Multi-agent advisor q-learning
Kuutti et al. Arc: Adversarially robust control policies for autonomous vehicles
CN116736883B (zh) 一种无人飞行集群智能协同运动规划的方法
Sun et al. Event-triggered reconfigurable reinforcement learning motion-planning approach for mobile robot in unknown dynamic environments
Wang et al. Experience sharing based memetic transfer learning for multiagent reinforcement learning
CN114662655A (zh) 一种基于注意力机制的兵棋推演ai分层决策方法及装置
CN114298244A (zh) 一种智能体群体交互的决策控制方法、装置及系统
Liu A novel approach based on evolutionary game theoretic model for multi-player pursuit evasion
Chen et al. Modified PPO-RND method for solving sparse reward problem in ViZDoom
Uchibe Cooperative behavior acquisition by learning and evolution in a multi-agent environment for mobile robots
Saravanan et al. Exploring spiking neural networks in single and multi-agent rl methods
Menon et al. An Efficient Application of Neuroevolution for Competitive Multiagent Learning
Yu et al. Cooperative offensive decision-making for soccer robots based on bi-channel Q-value evaluation MADDPG
Cheng et al. A novel decision-making method based on reinforcement learning for underwater robots
Verma et al. Learning to Cooperate with Human Evaluative Feedback and Demonstrations

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination