CN113625561A - 一种基于强化学习的域协调多智能体系统协作控制方法 - Google Patents

一种基于强化学习的域协调多智能体系统协作控制方法 Download PDF

Info

Publication number
CN113625561A
CN113625561A CN202110863195.2A CN202110863195A CN113625561A CN 113625561 A CN113625561 A CN 113625561A CN 202110863195 A CN202110863195 A CN 202110863195A CN 113625561 A CN113625561 A CN 113625561A
Authority
CN
China
Prior art keywords
domain
agent
network
agents
action
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110863195.2A
Other languages
English (en)
Other versions
CN113625561B (zh
Inventor
张寅�
王淑晗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202110863195.2A priority Critical patent/CN113625561B/zh
Publication of CN113625561A publication Critical patent/CN113625561A/zh
Application granted granted Critical
Publication of CN113625561B publication Critical patent/CN113625561B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Automation & Control Theory (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开了一种基于强化学习的域协调多智能体系统协作控制方法。该方法将每个机器人视为多域协作场景中的一个智能体,对其进行域的划分;然后使用先验域信息作为监督信号,在图卷积层中约束同域智能体之间形成更加相似的域共识向量,进行域内强协调。域共识向量可被理解为同域智能体之间应产生的对于环境的共同认知,有助于智能体加深对环境的理解,形成更紧密的合作关系;再通过图网络进行链路传播,在集中式价值网络中沟通各个智能体,完成域内强协调和域外弱协调的统一;模型训练完成后策略网络分散执行,根据智能体的观察决定采取的动作。和现有技术相比,本发明在多域协作场景下有出色表现,大大提高了多智能体系统的协作效率。

Description

一种基于强化学习的域协调多智能体系统协作控制方法
技术领域
本发明属于多智能体系统协作控制的技术领域,具体涉及一种基于强化学习的域协调多智能体系统协作控制方法,针对多域协作场景下的控制任务,可提高多智能体系统协作控制效率。
背景技术
强化学习(Reinforcement Learning)作为机器学习的一种方法,常用于解决序列决策问题。它将序列决策问题建模为外部环境,根据对外部环境的观察来采取动作并获得外部环境的反馈信号。智能体根据这个反馈信号来衡量动作的好坏,并从中总结经验,逐步学习,得到最优的决策序列。由于传统强化学习在高维空间存在诸如“维度灾难”(curse ofdimensionality)问题,相关研究利用深度学习来自动学习大规模输入数据的抽象表征,诞生了深度强化学习(Deep Reinforcement Learning)。深度强化学习是人工智能领域的前沿研究方向,具有非常广阔的应用前景,近年来在游戏、机器人控制任务上都取得出色表现。
常见的领域内先进的强化学习算法,大多是单智能体设置,而在现实世界的问题中,存在着更多并不是单智能体系统能够解决的决策问题。在人类社会中,个人不是独立存在并创造价值的,人们通过合理的分工,合作完成许多复杂任务,比如足球比赛、多人竞技游戏等等。
相比于单智能体问题,多智能体协作控制任务往往更加困难,面临着诸多挑战:1)可伸缩性。随着智能体数量的增加,多智能体系统的状态和动作空间呈现指数增长,使得计算控制成本高昂;2)不稳定性。若将多智能体系统建模为多个独立的单智能体,就忽略了其他智能体的策略随着时间变化的事实,环境的不稳定性会影响算法收敛;3)部分可观察性。智能体与环境交互的过程中,并不能获得环境的全部信息,而是只能获得自己可见范围内的一小部分信息,也给策略学习带来了困难。
对于具有多个机器人人协同工作的场景,如何在多智能体系统中更好地建模代表机器人的智能体之间的关系,并将其用于协调各机器人之间的行为以达成合作,是目前多智能体协作控制算法关注的重点。
发明内容
为了解决多域场景下多智能体的协作问题,提升多智能体协作效率,本发明提供了一种基于强化学习的域协调多智能体系统协作控制算法,并将其用于机器人群体协同控制中,以各个智能体的观察向量作为输入,输出当前采取的动作向量。本发明基于多智能体强化学习Actor-Critic框架,引入了先验域信息作为监督信号,在图卷积层中约束同域智能体形成相似的域共识向量,隐含着对环境的共同认知,在域共识向量的基础上通过图网络进行链路传播,达到同步完成域内强协调和域外弱协调的目的。在多域协作控制场景下,本发明相比其他方法有显著提升。
为了达到上述目的,本发明采用的具体技术方案如下:
一种基于强化学习的域协调多智能体系统协作控制方法,其包括如下步骤:
S1、针对待协作控制的多个机器人,将每个机器人视为多域协作场景中的一个智能体,对其进行域的划分;
S2、针对域划分后的多域协作场景,基于图网络进行多智能体建模,使全域智能体协作,形成包含集中式价值网络及分散式动作网络的多智能体协作模型;所述分散式动作网络中,动作网络接收智能体的观察作为输入,输出当前所采取的动作;所述集中式价值网络接收每个智能体的观察和动作作为输入,进行域协调操作,并经过图卷积网络提取邻域节点信息,为每个智能体预测当前状态-动作对的价值,用于更新集中价值网络及分散动作网络;且在模型中定义域协调损失函数,用于指导域共识向量的表示学习,使同一域中的智能体之间形成强协调;
S3、使用集中训练、分散执行的训练方式,对采用Actor-Critic框架的多智能体协作模型进行训练;
S4、训练完成后,将模型中的各个动作网络作为策略网络独立执行,输入对应智能体的观察向量,输出为对应智能体的动作向量并将其传递给对应机器人,各机器人根据接收到的动作向量进行移动控制,实现多机器人的协作控制。
作为优选,步骤S1中,所述多域协作场景包含多个合作型关系的子组;每一个子组作为一个域,由目标是完成同一任务的多个智能体组成;不同子组在同一场景中的任务目标不同,且整个场景中所有智能体之间需要进行协调以避免冲突;多域协作场景中使用域信息矩阵DN×N标记智能体之间的域关系,矩阵元素dij表示智能体i和智能体j之间的域关系,同域则置1,异域则置为0。
作为优选,所述域协调损失函数的计算方法为:
首先,定义智能体i的域共识向量DCi为:
Figure BDA0003186544950000031
其中,
Figure BDA0003186544950000032
是对智能体i第t步的观察ot和动作at拼接后进行编码得到的初始特征向量;
然后,将每对智能体i和j的域共识向量进行拼接后使用权重矩阵aT计算连接分数eij,并使用sigmoid函数σ推断智能体i和j之间连接存在的概率P(dij=1):
eij=aT[DCi||DCj]
φij=P(dij=1)=σ(eij)
式中:||表示向量拼接,φij为智能体i和j属于同域的概率;
最后,以域信息矩阵DN×N为监督目标,得到的域协调损失函数:
Figure BDA0003186544950000033
其中,1是指示函数,其下标中的等式成立则函数值为1,否则为0。
作为优选,所述基于图网络进行多智能体建模的具体做法如下:
将每个智能体定义为图上的一个节点,智能体之间的交互就是图节点之间连接的边,从而通过图卷积网络实现图上节点之间的消息传递,聚合邻居节点的特征并用于更新自身节点特征,从而提取到相应的状态特征,实现节点特征的融合。
作为优选,所述图卷积网络中,对于任一智能体i的节点,以所有邻居节点作为输入,其状态特征
Figure BDA0003186544950000034
的计算方法为:
Figure BDA0003186544950000035
式中:Ni为智能体i的所有邻居节点,代表与智能体i同域的所有其他智能体,n为智能体i的邻居节点个数,diag(1)n为大小为n的对角矩阵。
作为优选,在价值网络中,每个智能体当前状态-动作对的价值预测过程如下:基于域划分后的多域协作场景,根据所述域协调损失函数对每个智能体的域协调损失项进行计算,再通过图卷积网络进行域外智能体之间的弱协调,得到每个智能体对应的状态特征,最后将状态特征通过全连接层,得到每个智能体当前状态-动作对的价值。
作为优选,所述多智能体协作模型进行协作控制的智能体个数为N个;所述分散式动作网络中共存在2N个动作网络,分为N个正常更新的动作网络μ和N个延迟更新的动作网络μ′,两类动作网络分别以θμ和θμ′为参数;所述集中式价值网络中共存在2个价值网络,分为1个正常更新的价值网络Q和1个延迟更新的价值网络Q′,两个价值网络分别以θQ和θQ′为参数;
在模型训练过程中,每次更新模型时,从经验重播缓存D中采样固定大小批次的训练数据(ot,at,ot+1,rt),通过最小化损失项对正常更新的价值网络进行参数更新:
Figure BDA0003186544950000041
其中,
Figure BDA0003186544950000042
表示期望,Qi中下标i表示正常更新的价值网络Q的第i个输出,
Figure BDA0003186544950000043
表示所有N个智能体的观察,
Figure BDA0003186544950000044
表示所有N个智能体的动作,超参数λ为域协调损失项系数;
Figure BDA0003186544950000045
表示目标价值,计算公式为:
Figure BDA0003186544950000046
式中:
Figure BDA0003186544950000047
表示第i个智能体执行动作
Figure BDA0003186544950000048
后获得的奖励,Qi′中下标i表示延迟更新的价值网络Q′的第i个输出;μi′表示第i个智能体对应的延迟更新的动作网络μ′;
再采用深度确定性策略学习,对正常更新的动作网络进行参数更新:
Figure BDA0003186544950000049
式中:μi示第i个智能体对应的延迟更新的动作网络μ;
每隔固定间隔对延迟更新的动作网络和延迟更新的价值网络进行参数更新:
θQ′←τθQ+(1-τ)θQ′
θμ′←τθμ+(1-τ)θμ′
其中τ为软更新因子。
本发明相对于现有技术而言,具有以下有益效果:
1)本发明首次定义了多智能体系统协作场景中域的概念,并将单域协作场景扩展到多域协作场景;2)本发明通过将先验域信息作为监督信号,辅助同域智能体之间形成域共识向量;3)本发明通过图网络进行链路传播,扩大了智能体的信息接收域,达到了域内强协调和域外弱协调有效结合的目的,提升了智能体团队的协作效率。
附图说明
图1是本发明中模型的整体框架示意图;
图2是本发明的价值网络结构示意图;
图3是实施例在多域编队控制任务下的学习表现;
图4是实施例在多域直线控制任务下的学习表现;
图5是实施例在多域合作导航任务下的学习表现;
图6是实施例在多域编队控制任务下的测试表现;
图7是实施例在多域直线控制任务下的测试表现;
图8是实施例在多域合作导航任务下的测试表现;
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例和附图对技术方案进行描述。值得注意的是,所描述的实施例仅仅是本申请中的一部分实施例,而不是全部的实施例。
在本发明的一个较佳实施例中,提供了一种基于强化学习的域协调多智能体系统协作控制方法,使其能够适用于机器人集群中多个机器人的协同控制,因此本发明实际上是一种基于强化学习的域协调机器人集群协作控制方法,方法的核心是通过将机器人建模为智能体,进而通过算法为智能体输出相应的动作向量,每个智能体的动作向量代表了机器人下一步执行移动需要的移动方向及移动速度。本发明所说的机器人可以是实际的机器人也可以是虚拟的机器人。该方法包括如下步骤:
S1、针对待协作控制的多个机器人,将每个机器人视为多域协作场景中的一个智能体,对其进行域的划分。
本发明中,多域协作场景包含多个合作型关系的子组;每一个子组作为一个域,由目标是完成同一任务的多个智能体组成;不同子组在同一场景中的任务目标不同,且整个场景中所有智能体之间需要进行协调以避免冲突;多域协作场景中使用域信息矩阵DN×N标记智能体之间的域关系,矩阵元素dij表示智能体i和智能体j之间的域关系,同域则置1,异域则置为0。
S2、针对域划分后的多域协作场景,基于图网络进行多智能体建模,使全域智能体协作,形成包含集中式价值网络及分散式动作网络的多智能体协作模型;所述分散式动作网络中,动作网络接收智能体的观察作为输入,输出当前所采取的动作;所述集中式价值网络接收每个智能体的观察和动作作为输入,进行域协调操作,并经过图卷积网络提取邻域节点信息,为每个智能体预测当前状态-动作对的价值,用于更新集中价值网络及分散动作网络;且在模型中定义域协调损失函数,用于指导域共识向量的表示学习,使同一域中的智能体之间形成强协调。
本发明中,域协调损失函数的计算方法为:
首先,定义智能体i的域共识向量DCi为:
Figure BDA0003186544950000061
其中,
Figure BDA0003186544950000062
是对智能体i第t步的观察ot和动作at拼接后进行编码得到的初始特征向量;
然后,将每对智能体i和j的域共识向量进行拼接后使用权重矩阵aT计算连接分数eij,并使用sigmoid函数σ推断智能体i和j之间连接存在的概率P(dij=1):
eij=aT[DCi||DCj]
φij=P(dij=1)=σ(eij)
式中:||表示向量拼接,φij为智能体i和j属于同域的概率;
最后,以域信息矩阵DN×N为监督目标,得到的域协调损失函数:
Figure BDA0003186544950000063
其中,1是指示函数,其下标中的等式成立则函数值为1,否则为0。
域协调损失函数中通过将域信息作为监督信号,用智能体i和j之间连接的存在与否来指导域共识向量的表示学习,能够在同一域的智能体间形成强协调。域共识向量隐含着现实中的经验:当人们有共同的三观、共同的认知时,才有可能产生紧密的合作关系,这种认知的一致性在为人类社会良好运转提供保障。
本发明中,基于图网络进行多智能体建模的具体做法如下:
将每个智能体定义为图上的一个节点,智能体之间的交互就是图节点之间连接的边,从而通过图卷积网络实现图上节点之间的消息传递,聚合邻居节点的特征并用于更新自身节点特征,从而提取到相应的状态特征,实现节点特征的融合。
本发明中,对于图卷积网络而言,对于任一智能体i的节点,需要以所有邻居节点作为输入,其状态特征
Figure BDA0003186544950000071
的计算方法为:
Figure BDA0003186544950000072
式中:Ni为智能体i的所有邻居节点,代表与智能体i同域的所有其他智能体,n为智能体i的邻居节点个数,diag(1)n为大小为n的对角矩阵。
将图网络引入多智能体建模过程中,可以有效利用智能体之间的关系,扩大智能体的信息接收域,提取相应的状态特征,促进智能体之间的合作行为。
本发明中,对于价值网络而言,每个智能体当前状态-动作对的价值预测过程如下:基于域划分后的多域协作场景,根据所述域协调损失函数对每个智能体的域协调损失项进行计算,再通过图卷积网络进行域外智能体之间的弱协调,得到每个智能体对应的状态特征,最后将状态特征通过全连接层,得到每个智能体当前状态-动作对的价值。
S3、使用集中训练、分散执行的训练方式,对采用Actor-Critic框架的上述多智能体协作模型进行训练。
本发明中,假设多智能体协作模型进行协作控制的智能体个数为N个;所述分散式动作网络中共存在2N个动作网络,分为N个正常更新的动作网络μ和N个延迟更新的动作网络μ′,两类动作网络分别以θμ和θμ′为参数;所述集中式价值网络中共存在2个价值网络,分为1个正常更新的价值网络Q和1个延迟更新的价值网络Q′,两个价值网络分别以θQ和θQ′为参数;
在模型训练过程中,每次更新模型时,从经验重播缓存D中采样固定大小批次的训练数据(ot,at,ot+1,rt),表示为ot,at,ot+1,rt~D,通过最小化损失项对正常更新的价值网络进行参数更新:
Figure BDA0003186544950000073
其中,
Figure BDA0003186544950000081
表示期望,Qi中下标i表示正常更新的价值网络Q的第i个输出即代表价值网络Q确定的第i个智能体的价值,
Figure BDA0003186544950000082
表示所有N个智能体的观察,
Figure BDA0003186544950000083
表示所有N个智能体的动作,超参数λ为域协调损失项系数;
Figure BDA0003186544950000084
表示目标价值,计算公式为:
Figure BDA0003186544950000085
式中:
Figure BDA0003186544950000086
表示第i个智能体执行动作
Figure BDA0003186544950000087
后获得的奖励,Qi′中下标i表示延迟更新的价值网络Q′的第i个输出即代表价值网络Q′确定的第i个智能体的价值;μi′表示第i个智能体对应的延迟更新的动作网络μ′;
再采用深度确定性策略学习,对正常更新的动作网络进行参数更新:
Figure BDA0003186544950000088
式中:μi示第i个智能体对应的延迟更新的动作网络μ;
每隔固定间隔对延迟更新的动作网络和延迟更新的价值网络进行参数更新:
θQ′←τθQ+(1-τ)θQ′
θμ′←τθμ+(1-τ)θμ′
其中τ为软更新因子。
S4、训练完成后,将模型中的各个动作网络作为策略网络独立执行,输入对应智能体的观察向量,输出为对应智能体的动作向量并将其传递给对应机器人,各机器人根据接收到的动作向量进行移动控制,实现多机器人的协作控制。
下面将上述方法应用至具体实施例中,具体的实施步骤如前所述,实施例主要展示其效果。为叙述方便,下面将本实施例中上述S1~S4的方法记为DCMA。
实施例
部分可观察马尔可夫游戏(Partially Observable Markov Game,POMG)是对多智能体系统的一种常见建模体系。POMG是多智能体情形下对马尔可夫决策过程的扩展,N个智能体的POMG被定义为转移方程P,奖励函数的集合{R1,…,RN},状态空间S,观察空间的集合{O1,…,ON},和动作空间的集合{A1,…,AN},分别对应智能体i∈{1,…,N}。转移方程P将当前状态和智能体所采取的动作映射到下一状态,P:S×A1×…×AN→S,每个智能体接受奖励
Figure BDA0003186544950000089
且观察是状态的一部分Oi:S→Oi,因此称为部分可观察。智能体i的目标是最大化期望回报
Figure BDA0003186544950000091
γt为第t步的折扣因子。在合作场景设置下,所有智能体接收到的奖励是相同的,N个合作智能体的共同目标是最大化期望回报
Figure BDA0003186544950000092
如图1所示,为一种基于强化学习的域协调多智能体系统协作控制方法的整体模型框架。该模型采用集中训练、分散执行训练方式。对于N个机器人组成的机器人集群,将其视为N个智能体,因此在N个智能体的设置下,模型中共存在由2N个动作网络组成的分散式动作网络和2个价值网络组成的集中式价值网络,分散式动作网络分为N个正常更新(即非延迟更新)的动作网络μ和N个延迟更新的动作网络μ′,两类动作网络分别以θμ和θμ′为参数;集中式价值网络中共存在2个价值网络,分为1个正常更新(即非延迟更新)的价值网络Q和1个延迟更新的价值网络Q′,两个价值网络分别以θQ和θQ′为参数。动作网络接收智能体的观察ot作为输入,输出当前所采取的动作at;价值网络接收所有智能体的观察和动作作为输入,进行域协调操作,并经过图卷积层有效提取节点信息,为全部智能体预测当前状态-动作对的Q值,用于更新集中价值网络及分散动作网络。价值网络的结构如图2所示。
上述S1~S4的方法在本实施例中的具体执行过程的主要流程如下:
1)在对智能体之间进行域协调之前,首先需要对场景中的智能体进行域的划分,本发明中直接使用了先验域信息作为划分的依据。矩阵DN×N为域信息矩阵,类似于邻接矩阵,矩阵元素dij表示智能体i和j之间的域关系,同域则置1,异域置为0。
2)从环境中得到所有智能体的当前观察
Figure BDA0003186544950000093
包含智能体当前位置坐标、速度向量、相近智能体的位置坐标等。根据动作网络为所有智能体选择动作
Figure BDA0003186544950000094
指示智能体的移动方向及速度大小。
3)在环境中执行动作
Figure BDA0003186544950000095
得到即时奖励rt和下一步观察
Figure BDA0003186544950000096
4)将元组
Figure BDA0003186544950000097
存入经验重放。
5)从经验重放中抽取固定大小批次的训练数据,使用先验域信息矩阵,计算域协调损失项。
定义智能体i的域共识向量DCi为:
Figure BDA0003186544950000101
其中,
Figure BDA0003186544950000102
与GC-AC中相同,是对智能体i的观察ot和动作at拼接后进行编码的特征向量。使用相同矩阵权重W0将节点的特征映射到域共识向量,减少模型过拟合的风险并提高鲁棒性。接下来,使用权重矩阵aT将每对智能体i和j的域共识向量进行拼接后计算连接分数eij并使用sigmoid函数σ推断i和j之间连接存在的概率P(dij=1):
eij=aT[DCi||DCj]
φij=P(dij=1)=σ(eij)
以域信息矩阵DN×N为监督目标,φij为智能体i和j属于同域的概率,则域协调损失计算为:
Figure BDA0003186544950000103
其中,1是指示函数。
6)通过图卷积层进行域外智能体之间的弱协调。以节点特征和邻接矩阵作为输入,输出卷积后的特征作为当前节点的新特征,计算公式如下。将n个智能体作为输入,首先将智能体i的观察oi和动作ai拼接后通过线性层编码成初始向量
Figure BDA00031865449500001011
之后转化为域共识向量,再通过卷积层计算下一层向量编码
Figure BDA00031865449500001012
最后再次通过线性层,输出最终结果,也即Qi
Figure BDA0003186544950000104
Figure BDA0003186544950000105
Figure BDA0003186544950000106
Figure BDA0003186544950000107
7)令
Figure BDA0003186544950000108
更新正常更新的价值网络Q的参数:
Figure BDA0003186544950000109
8)动作网络以最大化正常更新的价值网络为目标进行更新:
Figure BDA00031865449500001010
推导出梯度更新公式:
Figure BDA0003186544950000111
9)由于动作网络μ′和价值网络Q′是延迟更新的,因此每隔一定预设的间隔可以对动作网络μ′和价值网络Q′的网络参数进行延迟更新:
θQ′←τθQ+(1-τ)θQ′
θμ′←τθμ+(1-τ)θμ′
τ为软更新因子,为一个较小的超参数,可取0.1。
10)不断重复5)~9),直到满足终止条件。终止条件设置为算法与环境交互episode达到设定上限。
11)训练完成后,将模型中的各个动作网络作为策略网络独立执行,输入对应智能体的观察向量,输出为对应智能体的动作向量并将其传递给对应机器人,各机器人根据接收到的动作向量进行移动控制,实现多机器人的协作控制。
为了测试上述基于强化学习的域协调多智能体系统协作控制方法的实际效果,使用MPE平台作为算法的测试环境验证算法的具体控制效果,在MPE平台上建模机器人集群来实现相应任务。当然,在现实中上述机器人可以是实体的机器人也可以是虚拟游戏中的人物或对象实体。
MPE是由OpenAI提出的多智能体强化学习环境,本实施例在MPE中构建了三个场景作为测试环境,分别是多域编队控制、多域直线控制和多域合作导航环境。三个场景均为部分可观察的完全合作场景设置,需要智能体之间相互配合以达到团队目标。算法学习控制智能体的动作:上移、下移、左移、右移、静止不动。
多域编队控制任务中,环境中有两个不会移动的地标点和2N个由算法控制的智能体机器人(均匀分为两个域),分别学习组成以地标点为中心的两个正N边形编队,同时避免发生碰撞。类似的,多域直线控制中智能体机器人分别学习移动到地标点所标定的两条直线段上并均匀分布;多域合作导航中有2N个不移动的地标点和相应数量的智能体机器人,智能体机器人分别学习覆盖两组地标点,并避免碰撞。当智能体完成任务时,会获得一定的奖励作为反馈。统计这个奖励大小作为评价指标。
使用多智能体强化学习方法MADDPG、MAAC与本实施例作为对比,三种方法所使用的参数配置分别见表1、表2及表3。
表1 MADDPG算法参数
经验重播缓冲区大小 1e6
episode_length 25
batch_size 1024
动作网络隐藏单元 64
策略网络隐藏单元 64
学习率lr 0.01
折扣因子γ 0.95
软更新因子τ 0.01
最大episode数 50000
表2 MAAC算法参数
经验重播缓冲区大小 1e6
episode_length 25
batch_size 1024
动作网络隐藏单元 128
策略网络隐藏单元 128
动作网络学习率 0.001
价值网络学习率 0.001
折扣因子γ 0.99
软更新因子τ 0.001
最大episode数 50000
注意力头数 4
奖励缩放系数 100
表3 DCMA算法参数
经验重播缓冲区大小 1e6
episode_length 25
batch_size 1024
动作网络隐藏单元 128
策略网络隐藏单元 256
学习率lr 0.01
折扣因子γ 0.95
软更新因子τ 0.01
最大episode数 50000
域协调损失系数λ 1e2
实验结果分为两部分,学习表现及测试表现。学习表现部分结果见图3~5,测试表现部分结果见图6~8。实验结果表明,在三个多域协作场景下,所提出的基于强化学习的域协调多智能体系统协作控制算法能够取得显著好于MADDPG及MAAC的结果。具体的,从学习表现上看,DCMA基本在1/5的时间步内就可以达到其余基线模型的最优表现。从测试结果上看,与学习表现仅次于DCMA的MAAC相比,前者也显然有着更高的成功率和更少的碰撞次数。在多域编队控制和多域直线控制任务上,DCMA的成功率几乎是MAAC的两倍,同时碰撞次数只有MAAC的二分之一;在多域导航任务上,成功率是MAAC的三倍。可以发现,不管是学习表现还是测试表现,基于强化学习的域协调多智能体系统协作控制算法都显著优于两种基线方法。
以上所述的实施例只是本发明的一种较佳的方案,然其并非用以限制本发明。有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型。因此凡采取等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围内。

Claims (8)

1.一种基于强化学习的域协调多智能体系统协作控制方法,其特征在于,包括如下步骤:
S1、针对待协作控制的多个机器人,将每个机器人视为多域协作场景中的一个智能体,对其进行域的划分;
S2、针对域划分后的多域协作场景,基于图网络进行多智能体建模,使全域智能体协作,形成包含集中式价值网络及分散式动作网络的多智能体协作模型;所述分散式动作网络中,动作网络接收智能体的观察作为输入,输出当前所采取的动作;所述集中式价值网络接收每个智能体的观察和动作作为输入,进行域协调操作,并经过图卷积网络提取邻域节点信息,为每个智能体预测当前状态-动作对的价值,用于更新集中价值网络及分散动作网络;且在模型中定义域协调损失函数,用于指导域共识向量的表示学习,使同一域中的智能体之间形成强协调;
S3、使用集中训练、分散执行的训练方式,对采用Actor-Critic框架的多智能体协作模型进行训练;
S4、训练完成后,将模型中的各个动作网络作为策略网络独立执行,输入对应智能体的观察向量,输出为对应智能体的动作向量并将其传递给对应机器人,各机器人根据接收到的动作向量进行移动控制,实现多机器人的协作控制。
2.如权利要求1所述的基于强化学习的域协调多智能体系统协作控制方法,其特征在于,步骤S1中,所述多域协作场景包含多个合作型关系的子组;每一个子组作为一个域,由目标是完成同一任务的多个智能体组成;不同子组在同一场景中的任务目标不同,且整个场景中所有智能体之间需要进行协调以避免冲突;多域协作场景中使用域信息矩阵DN×N标记智能体之间的域关系,矩阵元素dij表示智能体i和智能体j之间的域关系,同域则置1,异域则置为0。
3.如权利要求1所述的基于强化学习的域协调多智能体系统协作控制方法,其特征在于,所述域协调损失函数的计算方法为:
首先,定义智能体i的域共识向量DCi为:
Figure FDA0003186544940000011
其中,
Figure FDA0003186544940000012
是对智能体i第t步的观察ot和动作at拼接后进行编码得到的初始特征向量;
然后,将每对智能体i和j的域共识向量进行拼接后使用权重矩阵aT计算连接分数eij,并使用sigmoid函数σ推断智能体i和j之间连接存在的概率P(dij=1):
eij=aT[DCi||DCj]
φij=P(dij=1)=σ(eij)
式中:||表示向量拼接,φij为智能体i和j属于同域的概率;
最后,以域信息矩阵DN×N为监督目标,得到的域协调损失函数:
Figure FDA0003186544940000021
其中,1是指示函数,其下标中的等式成立则函数值为1,否则为0。
4.如权利要求3所述的基于强化学习的域协调多智能体系统协作控制方法,其特征在于,所述基于图网络进行多智能体建模的具体做法如下:
将每个智能体定义为图上的一个节点,智能体之间的交互就是图节点之间连接的边,从而通过图卷积网络实现图上节点之间的消息传递,聚合邻居节点的特征并用于更新自身节点特征,从而提取到相应的状态特征,实现节点特征的融合。
5.如权利要求4所述的基于强化学习的域协调多智能体系统协作控制方法,其特征在于,所述图卷积网络中,对于任一智能体i的节点,以所有邻居节点作为输入,其状态特征
Figure FDA0003186544940000022
的计算方法为:
Figure FDA0003186544940000023
式中:Ni为智能体i的所有邻居节点,代表与智能体i同域的所有其他智能体,n为智能体i的邻居节点个数,diag(1)n为大小为n的对角矩阵。
6.如权利要求5所述的基于强化学习的域协调多智能体系统协作控制方法,其特征在于,在价值网络中,每个智能体当前状态-动作对的价值预测过程如下:基于域划分后的多域协作场景,根据所述域协调损失函数对每个智能体的域协调损失项进行计算,再通过图卷积网络进行域外智能体之间的弱协调,得到每个智能体对应的状态特征,最后将状态特征通过全连接层,得到每个智能体当前状态-动作对的价值。
7.如权利要求6所述的基于强化学习的域协调多智能体系统协作控制方法,其特征在于,所述多智能体协作模型进行协作控制的智能体个数为N个;所述分散式动作网络中共存在2N个动作网络,分为N个正常更新的动作网络μ和N个延迟更新的动作网络μ′,两类动作网络分别以θμ和θμ′为参数;所述集中式价值网络中共存在2个价值网络,分为1个正常更新的价值网络Q和1个延迟更新的价值网络Q′,两个价值网络分别以θQ和θQ′为参数;
在模型训练过程中,每次更新模型时,从经验重播缓存D中采样固定大小批次的训练数据(ot,at,ot+1,rt),通过最小化损失项对正常更新的价值网络进行参数更新:
Figure FDA0003186544940000031
其中,
Figure FDA0003186544940000032
表示期望,Qi中下标i表示正常更新的价值网络Q的第i个输出,
Figure FDA0003186544940000033
表示所有N个智能体的观察,
Figure FDA0003186544940000034
表示所有N个智能体的动作,超参数λ为域协调损失项系数;
Figure FDA0003186544940000035
表示目标价值,计算公式为:
Figure FDA0003186544940000036
式中:
Figure FDA0003186544940000037
表示第i个智能体执行动作
Figure FDA0003186544940000038
后获得的奖励,Qi′中下标i表示延迟更新的价值网络Q′的第i个输出;μi′表示第i个智能体对应的延迟更新的动作网络μ′;
再采用深度确定性策略学习,对正常更新的动作网络进行参数更新:
Figure FDA0003186544940000039
式中:μi示第i个智能体对应的延迟更新的动作网络μ;
每隔固定间隔对延迟更新的动作网络和延迟更新的价值网络进行参数更新:
θQ′←τθQ+(1-τ)θQ′
θμ′←τθμ+(1-τ)θμ′
其中τ为软更新因子。
8.如权利要求6所述的基于强化学习的域协调多智能体系统协作控制方法,其特征在于,所述动作向量对应于机器人的移动方向及移动速度。
CN202110863195.2A 2021-07-29 2021-07-29 一种基于强化学习的域协调多智能体系统协作控制方法 Active CN113625561B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110863195.2A CN113625561B (zh) 2021-07-29 2021-07-29 一种基于强化学习的域协调多智能体系统协作控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110863195.2A CN113625561B (zh) 2021-07-29 2021-07-29 一种基于强化学习的域协调多智能体系统协作控制方法

Publications (2)

Publication Number Publication Date
CN113625561A true CN113625561A (zh) 2021-11-09
CN113625561B CN113625561B (zh) 2023-09-26

Family

ID=78381549

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110863195.2A Active CN113625561B (zh) 2021-07-29 2021-07-29 一种基于强化学习的域协调多智能体系统协作控制方法

Country Status (1)

Country Link
CN (1) CN113625561B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103715771A (zh) * 2013-12-27 2014-04-09 广东电网公司韶关供电局 一种自动发电协调控制平台
CN109472984A (zh) * 2018-12-27 2019-03-15 苏州科技大学 基于深度强化学习的信号灯控制方法、系统和存储介质
CN110969872A (zh) * 2019-12-18 2020-04-07 上海天壤智能科技有限公司 基于强化学习和图注意力网络的交通信号控制方法及系统
US20200125957A1 (en) * 2018-10-17 2020-04-23 Peking University Multi-agent cooperation decision-making and training method
CN111249106A (zh) * 2020-01-16 2020-06-09 江苏经贸职业技术学院 老年康复机器人的训练控制方法、康复机器人及系统
CN112861442A (zh) * 2021-03-10 2021-05-28 中国人民解放军国防科技大学 基于深度强化学习的多机协同空战规划方法及系统
US20210190364A1 (en) * 2019-12-23 2021-06-24 Johnson Controls Technology Company Methods and systems for training hvac control using simulated and real experience data

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103715771A (zh) * 2013-12-27 2014-04-09 广东电网公司韶关供电局 一种自动发电协调控制平台
US20200125957A1 (en) * 2018-10-17 2020-04-23 Peking University Multi-agent cooperation decision-making and training method
CN109472984A (zh) * 2018-12-27 2019-03-15 苏州科技大学 基于深度强化学习的信号灯控制方法、系统和存储介质
CN110969872A (zh) * 2019-12-18 2020-04-07 上海天壤智能科技有限公司 基于强化学习和图注意力网络的交通信号控制方法及系统
US20210190364A1 (en) * 2019-12-23 2021-06-24 Johnson Controls Technology Company Methods and systems for training hvac control using simulated and real experience data
CN111249106A (zh) * 2020-01-16 2020-06-09 江苏经贸职业技术学院 老年康复机器人的训练控制方法、康复机器人及系统
CN112861442A (zh) * 2021-03-10 2021-05-28 中国人民解放军国防科技大学 基于深度强化学习的多机协同空战规划方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
姚宗信;李明;陈宗基;: "多机协同作战任务决策方法多智能体结构框架", 电光与控制, vol. 15, no. 03, pages 1 - 4 *

Also Published As

Publication number Publication date
CN113625561B (zh) 2023-09-26

Similar Documents

Publication Publication Date Title
CN109635917B (zh) 一种多智能体合作决策及训练方法
Zhang et al. Learning automata-based multiagent reinforcement learning for optimization of cooperative tasks
Sharma et al. Deep Q-learning with Q-matrix transfer learning for novel fire evacuation environment
Ackermann et al. Reducing overestimation bias in multi-agent domains using double centralized critics
CN112132263B (zh) 一种基于强化学习的多智能体自主导航方法
CN110852448A (zh) 一种基于多智能体强化学习的合作型智能体的学习方法
Yu et al. Multiagent learning of coordination in loosely coupled multiagent systems
Abed-Alguni et al. A comparison study of cooperative Q-learning algorithms for independent learners
CN113919485A (zh) 基于动态层级通信网络的多智能体强化学习方法及系统
CN112990485A (zh) 基于强化学习的知识策略选择方法与装置
Shi et al. A multitier reinforcement learning model for a cooperative multiagent system
CN112613608A (zh) 一种强化学习方法及相关装置
Xia et al. Cooperative multi-target hunting by unmanned surface vehicles based on multi-agent reinforcement learning
CN116841317A (zh) 一种基于图注意力强化学习的无人机集群协同对抗方法
Yun et al. Multi-agent deep reinforcement learning using attentive graph neural architectures for real-time strategy games
Liu et al. Efficient exploration for multi-agent reinforcement learning via transferable successor features
Hu et al. Graph Soft Actor–Critic Reinforcement Learning for Large-Scale Distributed Multirobot Coordination
Zhu et al. A Q-values sharing framework for multi-agent reinforcement learning under budget constraint
Fortier et al. Learning Bayesian classifiers using overlapping swarm intelligence
Chen et al. When shall i be empathetic? the utility of empathetic parameter estimation in multi-agent interactions
CN113625561B (zh) 一种基于强化学习的域协调多智能体系统协作控制方法
Li et al. Two-level Q-learning: learning from conflict demonstrations
Chai et al. NVIF: Neighboring Variational Information Flow for Cooperative Large-Scale Multiagent Reinforcement Learning
CN116167415A (zh) 一种多智能体协同及对抗中的策略决策方法
Latif et al. Communication-efficient reinforcement learning in swarm robotic networks for maze exploration

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant