CN113625561A - 一种基于强化学习的域协调多智能体系统协作控制方法 - Google Patents
一种基于强化学习的域协调多智能体系统协作控制方法 Download PDFInfo
- Publication number
- CN113625561A CN113625561A CN202110863195.2A CN202110863195A CN113625561A CN 113625561 A CN113625561 A CN 113625561A CN 202110863195 A CN202110863195 A CN 202110863195A CN 113625561 A CN113625561 A CN 113625561A
- Authority
- CN
- China
- Prior art keywords
- domain
- agent
- network
- agents
- action
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 230000002787 reinforcement Effects 0.000 title claims abstract description 30
- 239000003795 chemical substances by application Substances 0.000 claims abstract description 222
- 230000009471 action Effects 0.000 claims abstract description 89
- 239000013598 vector Substances 0.000 claims abstract description 47
- 238000012549 training Methods 0.000 claims abstract description 23
- 230000005540 biological transmission Effects 0.000 claims abstract description 4
- 230000006870 function Effects 0.000 claims description 25
- 239000011159 matrix material Substances 0.000 claims description 24
- 230000003111 delayed effect Effects 0.000 claims description 18
- 238000004364 calculation method Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 7
- 230000033001 locomotion Effects 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 4
- 230000003993 interaction Effects 0.000 claims description 4
- 230000004927 fusion Effects 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims description 3
- 230000019771 cognition Effects 0.000 abstract description 4
- 238000012360 testing method Methods 0.000 description 10
- 230000007786 learning performance Effects 0.000 description 7
- 230000015572 biosynthetic process Effects 0.000 description 6
- 201000002569 3-methylglutaconic aciduria type 5 Diseases 0.000 description 5
- VCBRBUKGTWLJOB-UHFFFAOYSA-N Chloranocryl Chemical compound CC(=C)C(=O)NC1=CC=C(Cl)C(Cl)=C1 VCBRBUKGTWLJOB-UHFFFAOYSA-N 0.000 description 5
- 230000000694 effects Effects 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/04—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
- G05B13/042—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Automation & Control Theory (AREA)
- Computer Hardware Design (AREA)
- Geometry (AREA)
- Feedback Control In General (AREA)
Abstract
本发明公开了一种基于强化学习的域协调多智能体系统协作控制方法。该方法将每个机器人视为多域协作场景中的一个智能体,对其进行域的划分;然后使用先验域信息作为监督信号,在图卷积层中约束同域智能体之间形成更加相似的域共识向量,进行域内强协调。域共识向量可被理解为同域智能体之间应产生的对于环境的共同认知,有助于智能体加深对环境的理解,形成更紧密的合作关系;再通过图网络进行链路传播,在集中式价值网络中沟通各个智能体,完成域内强协调和域外弱协调的统一;模型训练完成后策略网络分散执行,根据智能体的观察决定采取的动作。和现有技术相比,本发明在多域协作场景下有出色表现,大大提高了多智能体系统的协作效率。
Description
技术领域
本发明属于多智能体系统协作控制的技术领域,具体涉及一种基于强化学习的域协调多智能体系统协作控制方法,针对多域协作场景下的控制任务,可提高多智能体系统协作控制效率。
背景技术
强化学习(Reinforcement Learning)作为机器学习的一种方法,常用于解决序列决策问题。它将序列决策问题建模为外部环境,根据对外部环境的观察来采取动作并获得外部环境的反馈信号。智能体根据这个反馈信号来衡量动作的好坏,并从中总结经验,逐步学习,得到最优的决策序列。由于传统强化学习在高维空间存在诸如“维度灾难”(curse ofdimensionality)问题,相关研究利用深度学习来自动学习大规模输入数据的抽象表征,诞生了深度强化学习(Deep Reinforcement Learning)。深度强化学习是人工智能领域的前沿研究方向,具有非常广阔的应用前景,近年来在游戏、机器人控制任务上都取得出色表现。
常见的领域内先进的强化学习算法,大多是单智能体设置,而在现实世界的问题中,存在着更多并不是单智能体系统能够解决的决策问题。在人类社会中,个人不是独立存在并创造价值的,人们通过合理的分工,合作完成许多复杂任务,比如足球比赛、多人竞技游戏等等。
相比于单智能体问题,多智能体协作控制任务往往更加困难,面临着诸多挑战:1)可伸缩性。随着智能体数量的增加,多智能体系统的状态和动作空间呈现指数增长,使得计算控制成本高昂;2)不稳定性。若将多智能体系统建模为多个独立的单智能体,就忽略了其他智能体的策略随着时间变化的事实,环境的不稳定性会影响算法收敛;3)部分可观察性。智能体与环境交互的过程中,并不能获得环境的全部信息,而是只能获得自己可见范围内的一小部分信息,也给策略学习带来了困难。
对于具有多个机器人人协同工作的场景,如何在多智能体系统中更好地建模代表机器人的智能体之间的关系,并将其用于协调各机器人之间的行为以达成合作,是目前多智能体协作控制算法关注的重点。
发明内容
为了解决多域场景下多智能体的协作问题,提升多智能体协作效率,本发明提供了一种基于强化学习的域协调多智能体系统协作控制算法,并将其用于机器人群体协同控制中,以各个智能体的观察向量作为输入,输出当前采取的动作向量。本发明基于多智能体强化学习Actor-Critic框架,引入了先验域信息作为监督信号,在图卷积层中约束同域智能体形成相似的域共识向量,隐含着对环境的共同认知,在域共识向量的基础上通过图网络进行链路传播,达到同步完成域内强协调和域外弱协调的目的。在多域协作控制场景下,本发明相比其他方法有显著提升。
为了达到上述目的,本发明采用的具体技术方案如下:
一种基于强化学习的域协调多智能体系统协作控制方法,其包括如下步骤:
S1、针对待协作控制的多个机器人,将每个机器人视为多域协作场景中的一个智能体,对其进行域的划分;
S2、针对域划分后的多域协作场景,基于图网络进行多智能体建模,使全域智能体协作,形成包含集中式价值网络及分散式动作网络的多智能体协作模型;所述分散式动作网络中,动作网络接收智能体的观察作为输入,输出当前所采取的动作;所述集中式价值网络接收每个智能体的观察和动作作为输入,进行域协调操作,并经过图卷积网络提取邻域节点信息,为每个智能体预测当前状态-动作对的价值,用于更新集中价值网络及分散动作网络;且在模型中定义域协调损失函数,用于指导域共识向量的表示学习,使同一域中的智能体之间形成强协调;
S3、使用集中训练、分散执行的训练方式,对采用Actor-Critic框架的多智能体协作模型进行训练;
S4、训练完成后,将模型中的各个动作网络作为策略网络独立执行,输入对应智能体的观察向量,输出为对应智能体的动作向量并将其传递给对应机器人,各机器人根据接收到的动作向量进行移动控制,实现多机器人的协作控制。
作为优选,步骤S1中,所述多域协作场景包含多个合作型关系的子组;每一个子组作为一个域,由目标是完成同一任务的多个智能体组成;不同子组在同一场景中的任务目标不同,且整个场景中所有智能体之间需要进行协调以避免冲突;多域协作场景中使用域信息矩阵DN×N标记智能体之间的域关系,矩阵元素dij表示智能体i和智能体j之间的域关系,同域则置1,异域则置为0。
作为优选,所述域协调损失函数的计算方法为:
首先,定义智能体i的域共识向量DCi为:
然后,将每对智能体i和j的域共识向量进行拼接后使用权重矩阵aT计算连接分数eij,并使用sigmoid函数σ推断智能体i和j之间连接存在的概率P(dij=1):
eij=aT[DCi||DCj]
φij=P(dij=1)=σ(eij)
式中:||表示向量拼接,φij为智能体i和j属于同域的概率;
最后,以域信息矩阵DN×N为监督目标,得到的域协调损失函数:
其中,1是指示函数,其下标中的等式成立则函数值为1,否则为0。
作为优选,所述基于图网络进行多智能体建模的具体做法如下:
将每个智能体定义为图上的一个节点,智能体之间的交互就是图节点之间连接的边,从而通过图卷积网络实现图上节点之间的消息传递,聚合邻居节点的特征并用于更新自身节点特征,从而提取到相应的状态特征,实现节点特征的融合。
式中:Ni为智能体i的所有邻居节点,代表与智能体i同域的所有其他智能体,n为智能体i的邻居节点个数,diag(1)n为大小为n的对角矩阵。
作为优选,在价值网络中,每个智能体当前状态-动作对的价值预测过程如下:基于域划分后的多域协作场景,根据所述域协调损失函数对每个智能体的域协调损失项进行计算,再通过图卷积网络进行域外智能体之间的弱协调,得到每个智能体对应的状态特征,最后将状态特征通过全连接层,得到每个智能体当前状态-动作对的价值。
作为优选,所述多智能体协作模型进行协作控制的智能体个数为N个;所述分散式动作网络中共存在2N个动作网络,分为N个正常更新的动作网络μ和N个延迟更新的动作网络μ′,两类动作网络分别以θμ和θμ′为参数;所述集中式价值网络中共存在2个价值网络,分为1个正常更新的价值网络Q和1个延迟更新的价值网络Q′,两个价值网络分别以θQ和θQ′为参数;
在模型训练过程中,每次更新模型时,从经验重播缓存D中采样固定大小批次的训练数据(ot,at,ot+1,rt),通过最小化损失项对正常更新的价值网络进行参数更新:
再采用深度确定性策略学习,对正常更新的动作网络进行参数更新:
式中:μi示第i个智能体对应的延迟更新的动作网络μ;
每隔固定间隔对延迟更新的动作网络和延迟更新的价值网络进行参数更新:
θQ′←τθQ+(1-τ)θQ′
θμ′←τθμ+(1-τ)θμ′
其中τ为软更新因子。
本发明相对于现有技术而言,具有以下有益效果:
1)本发明首次定义了多智能体系统协作场景中域的概念,并将单域协作场景扩展到多域协作场景;2)本发明通过将先验域信息作为监督信号,辅助同域智能体之间形成域共识向量;3)本发明通过图网络进行链路传播,扩大了智能体的信息接收域,达到了域内强协调和域外弱协调有效结合的目的,提升了智能体团队的协作效率。
附图说明
图1是本发明中模型的整体框架示意图;
图2是本发明的价值网络结构示意图;
图3是实施例在多域编队控制任务下的学习表现;
图4是实施例在多域直线控制任务下的学习表现;
图5是实施例在多域合作导航任务下的学习表现;
图6是实施例在多域编队控制任务下的测试表现;
图7是实施例在多域直线控制任务下的测试表现;
图8是实施例在多域合作导航任务下的测试表现;
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例和附图对技术方案进行描述。值得注意的是,所描述的实施例仅仅是本申请中的一部分实施例,而不是全部的实施例。
在本发明的一个较佳实施例中,提供了一种基于强化学习的域协调多智能体系统协作控制方法,使其能够适用于机器人集群中多个机器人的协同控制,因此本发明实际上是一种基于强化学习的域协调机器人集群协作控制方法,方法的核心是通过将机器人建模为智能体,进而通过算法为智能体输出相应的动作向量,每个智能体的动作向量代表了机器人下一步执行移动需要的移动方向及移动速度。本发明所说的机器人可以是实际的机器人也可以是虚拟的机器人。该方法包括如下步骤:
S1、针对待协作控制的多个机器人,将每个机器人视为多域协作场景中的一个智能体,对其进行域的划分。
本发明中,多域协作场景包含多个合作型关系的子组;每一个子组作为一个域,由目标是完成同一任务的多个智能体组成;不同子组在同一场景中的任务目标不同,且整个场景中所有智能体之间需要进行协调以避免冲突;多域协作场景中使用域信息矩阵DN×N标记智能体之间的域关系,矩阵元素dij表示智能体i和智能体j之间的域关系,同域则置1,异域则置为0。
S2、针对域划分后的多域协作场景,基于图网络进行多智能体建模,使全域智能体协作,形成包含集中式价值网络及分散式动作网络的多智能体协作模型;所述分散式动作网络中,动作网络接收智能体的观察作为输入,输出当前所采取的动作;所述集中式价值网络接收每个智能体的观察和动作作为输入,进行域协调操作,并经过图卷积网络提取邻域节点信息,为每个智能体预测当前状态-动作对的价值,用于更新集中价值网络及分散动作网络;且在模型中定义域协调损失函数,用于指导域共识向量的表示学习,使同一域中的智能体之间形成强协调。
本发明中,域协调损失函数的计算方法为:
首先,定义智能体i的域共识向量DCi为:
然后,将每对智能体i和j的域共识向量进行拼接后使用权重矩阵aT计算连接分数eij,并使用sigmoid函数σ推断智能体i和j之间连接存在的概率P(dij=1):
eij=aT[DCi||DCj]
φij=P(dij=1)=σ(eij)
式中:||表示向量拼接,φij为智能体i和j属于同域的概率;
最后,以域信息矩阵DN×N为监督目标,得到的域协调损失函数:
其中,1是指示函数,其下标中的等式成立则函数值为1,否则为0。
域协调损失函数中通过将域信息作为监督信号,用智能体i和j之间连接的存在与否来指导域共识向量的表示学习,能够在同一域的智能体间形成强协调。域共识向量隐含着现实中的经验:当人们有共同的三观、共同的认知时,才有可能产生紧密的合作关系,这种认知的一致性在为人类社会良好运转提供保障。
本发明中,基于图网络进行多智能体建模的具体做法如下:
将每个智能体定义为图上的一个节点,智能体之间的交互就是图节点之间连接的边,从而通过图卷积网络实现图上节点之间的消息传递,聚合邻居节点的特征并用于更新自身节点特征,从而提取到相应的状态特征,实现节点特征的融合。
式中:Ni为智能体i的所有邻居节点,代表与智能体i同域的所有其他智能体,n为智能体i的邻居节点个数,diag(1)n为大小为n的对角矩阵。
将图网络引入多智能体建模过程中,可以有效利用智能体之间的关系,扩大智能体的信息接收域,提取相应的状态特征,促进智能体之间的合作行为。
本发明中,对于价值网络而言,每个智能体当前状态-动作对的价值预测过程如下:基于域划分后的多域协作场景,根据所述域协调损失函数对每个智能体的域协调损失项进行计算,再通过图卷积网络进行域外智能体之间的弱协调,得到每个智能体对应的状态特征,最后将状态特征通过全连接层,得到每个智能体当前状态-动作对的价值。
S3、使用集中训练、分散执行的训练方式,对采用Actor-Critic框架的上述多智能体协作模型进行训练。
本发明中,假设多智能体协作模型进行协作控制的智能体个数为N个;所述分散式动作网络中共存在2N个动作网络,分为N个正常更新的动作网络μ和N个延迟更新的动作网络μ′,两类动作网络分别以θμ和θμ′为参数;所述集中式价值网络中共存在2个价值网络,分为1个正常更新的价值网络Q和1个延迟更新的价值网络Q′,两个价值网络分别以θQ和θQ′为参数;
在模型训练过程中,每次更新模型时,从经验重播缓存D中采样固定大小批次的训练数据(ot,at,ot+1,rt),表示为ot,at,ot+1,rt~D,通过最小化损失项对正常更新的价值网络进行参数更新:
其中,表示期望,Qi中下标i表示正常更新的价值网络Q的第i个输出即代表价值网络Q确定的第i个智能体的价值,表示所有N个智能体的观察,表示所有N个智能体的动作,超参数λ为域协调损失项系数;表示目标价值,计算公式为:
再采用深度确定性策略学习,对正常更新的动作网络进行参数更新:
式中:μi示第i个智能体对应的延迟更新的动作网络μ;
每隔固定间隔对延迟更新的动作网络和延迟更新的价值网络进行参数更新:
θQ′←τθQ+(1-τ)θQ′
θμ′←τθμ+(1-τ)θμ′
其中τ为软更新因子。
S4、训练完成后,将模型中的各个动作网络作为策略网络独立执行,输入对应智能体的观察向量,输出为对应智能体的动作向量并将其传递给对应机器人,各机器人根据接收到的动作向量进行移动控制,实现多机器人的协作控制。
下面将上述方法应用至具体实施例中,具体的实施步骤如前所述,实施例主要展示其效果。为叙述方便,下面将本实施例中上述S1~S4的方法记为DCMA。
实施例
部分可观察马尔可夫游戏(Partially Observable Markov Game,POMG)是对多智能体系统的一种常见建模体系。POMG是多智能体情形下对马尔可夫决策过程的扩展,N个智能体的POMG被定义为转移方程P,奖励函数的集合{R1,…,RN},状态空间S,观察空间的集合{O1,…,ON},和动作空间的集合{A1,…,AN},分别对应智能体i∈{1,…,N}。转移方程P将当前状态和智能体所采取的动作映射到下一状态,P:S×A1×…×AN→S,每个智能体接受奖励且观察是状态的一部分Oi:S→Oi,因此称为部分可观察。智能体i的目标是最大化期望回报γt为第t步的折扣因子。在合作场景设置下,所有智能体接收到的奖励是相同的,N个合作智能体的共同目标是最大化期望回报
如图1所示,为一种基于强化学习的域协调多智能体系统协作控制方法的整体模型框架。该模型采用集中训练、分散执行训练方式。对于N个机器人组成的机器人集群,将其视为N个智能体,因此在N个智能体的设置下,模型中共存在由2N个动作网络组成的分散式动作网络和2个价值网络组成的集中式价值网络,分散式动作网络分为N个正常更新(即非延迟更新)的动作网络μ和N个延迟更新的动作网络μ′,两类动作网络分别以θμ和θμ′为参数;集中式价值网络中共存在2个价值网络,分为1个正常更新(即非延迟更新)的价值网络Q和1个延迟更新的价值网络Q′,两个价值网络分别以θQ和θQ′为参数。动作网络接收智能体的观察ot作为输入,输出当前所采取的动作at;价值网络接收所有智能体的观察和动作作为输入,进行域协调操作,并经过图卷积层有效提取节点信息,为全部智能体预测当前状态-动作对的Q值,用于更新集中价值网络及分散动作网络。价值网络的结构如图2所示。
上述S1~S4的方法在本实施例中的具体执行过程的主要流程如下:
1)在对智能体之间进行域协调之前,首先需要对场景中的智能体进行域的划分,本发明中直接使用了先验域信息作为划分的依据。矩阵DN×N为域信息矩阵,类似于邻接矩阵,矩阵元素dij表示智能体i和j之间的域关系,同域则置1,异域置为0。
5)从经验重放中抽取固定大小批次的训练数据,使用先验域信息矩阵,计算域协调损失项。
定义智能体i的域共识向量DCi为:
其中,与GC-AC中相同,是对智能体i的观察ot和动作at拼接后进行编码的特征向量。使用相同矩阵权重W0将节点的特征映射到域共识向量,减少模型过拟合的风险并提高鲁棒性。接下来,使用权重矩阵aT将每对智能体i和j的域共识向量进行拼接后计算连接分数eij并使用sigmoid函数σ推断i和j之间连接存在的概率P(dij=1):
eij=aT[DCi||DCj]
φij=P(dij=1)=σ(eij)
以域信息矩阵DN×N为监督目标,φij为智能体i和j属于同域的概率,则域协调损失计算为:
其中,1是指示函数。
6)通过图卷积层进行域外智能体之间的弱协调。以节点特征和邻接矩阵作为输入,输出卷积后的特征作为当前节点的新特征,计算公式如下。将n个智能体作为输入,首先将智能体i的观察oi和动作ai拼接后通过线性层编码成初始向量之后转化为域共识向量,再通过卷积层计算下一层向量编码最后再次通过线性层,输出最终结果,也即Qi。
8)动作网络以最大化正常更新的价值网络为目标进行更新:
推导出梯度更新公式:
9)由于动作网络μ′和价值网络Q′是延迟更新的,因此每隔一定预设的间隔可以对动作网络μ′和价值网络Q′的网络参数进行延迟更新:
θQ′←τθQ+(1-τ)θQ′
θμ′←τθμ+(1-τ)θμ′
τ为软更新因子,为一个较小的超参数,可取0.1。
10)不断重复5)~9),直到满足终止条件。终止条件设置为算法与环境交互episode达到设定上限。
11)训练完成后,将模型中的各个动作网络作为策略网络独立执行,输入对应智能体的观察向量,输出为对应智能体的动作向量并将其传递给对应机器人,各机器人根据接收到的动作向量进行移动控制,实现多机器人的协作控制。
为了测试上述基于强化学习的域协调多智能体系统协作控制方法的实际效果,使用MPE平台作为算法的测试环境验证算法的具体控制效果,在MPE平台上建模机器人集群来实现相应任务。当然,在现实中上述机器人可以是实体的机器人也可以是虚拟游戏中的人物或对象实体。
MPE是由OpenAI提出的多智能体强化学习环境,本实施例在MPE中构建了三个场景作为测试环境,分别是多域编队控制、多域直线控制和多域合作导航环境。三个场景均为部分可观察的完全合作场景设置,需要智能体之间相互配合以达到团队目标。算法学习控制智能体的动作:上移、下移、左移、右移、静止不动。
多域编队控制任务中,环境中有两个不会移动的地标点和2N个由算法控制的智能体机器人(均匀分为两个域),分别学习组成以地标点为中心的两个正N边形编队,同时避免发生碰撞。类似的,多域直线控制中智能体机器人分别学习移动到地标点所标定的两条直线段上并均匀分布;多域合作导航中有2N个不移动的地标点和相应数量的智能体机器人,智能体机器人分别学习覆盖两组地标点,并避免碰撞。当智能体完成任务时,会获得一定的奖励作为反馈。统计这个奖励大小作为评价指标。
使用多智能体强化学习方法MADDPG、MAAC与本实施例作为对比,三种方法所使用的参数配置分别见表1、表2及表3。
表1 MADDPG算法参数
经验重播缓冲区大小 | 1e6 |
episode_length | 25 |
batch_size | 1024 |
动作网络隐藏单元 | 64 |
策略网络隐藏单元 | 64 |
学习率lr | 0.01 |
折扣因子γ | 0.95 |
软更新因子τ | 0.01 |
最大episode数 | 50000 |
表2 MAAC算法参数
经验重播缓冲区大小 | 1e6 |
episode_length | 25 |
batch_size | 1024 |
动作网络隐藏单元 | 128 |
策略网络隐藏单元 | 128 |
动作网络学习率 | 0.001 |
价值网络学习率 | 0.001 |
折扣因子γ | 0.99 |
软更新因子τ | 0.001 |
最大episode数 | 50000 |
注意力头数 | 4 |
奖励缩放系数 | 100 |
表3 DCMA算法参数
经验重播缓冲区大小 | 1e6 |
episode_length | 25 |
batch_size | 1024 |
动作网络隐藏单元 | 128 |
策略网络隐藏单元 | 256 |
学习率lr | 0.01 |
折扣因子γ | 0.95 |
软更新因子τ | 0.01 |
最大episode数 | 50000 |
域协调损失系数λ | 1e2 |
实验结果分为两部分,学习表现及测试表现。学习表现部分结果见图3~5,测试表现部分结果见图6~8。实验结果表明,在三个多域协作场景下,所提出的基于强化学习的域协调多智能体系统协作控制算法能够取得显著好于MADDPG及MAAC的结果。具体的,从学习表现上看,DCMA基本在1/5的时间步内就可以达到其余基线模型的最优表现。从测试结果上看,与学习表现仅次于DCMA的MAAC相比,前者也显然有着更高的成功率和更少的碰撞次数。在多域编队控制和多域直线控制任务上,DCMA的成功率几乎是MAAC的两倍,同时碰撞次数只有MAAC的二分之一;在多域导航任务上,成功率是MAAC的三倍。可以发现,不管是学习表现还是测试表现,基于强化学习的域协调多智能体系统协作控制算法都显著优于两种基线方法。
以上所述的实施例只是本发明的一种较佳的方案,然其并非用以限制本发明。有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型。因此凡采取等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围内。
Claims (8)
1.一种基于强化学习的域协调多智能体系统协作控制方法,其特征在于,包括如下步骤:
S1、针对待协作控制的多个机器人,将每个机器人视为多域协作场景中的一个智能体,对其进行域的划分;
S2、针对域划分后的多域协作场景,基于图网络进行多智能体建模,使全域智能体协作,形成包含集中式价值网络及分散式动作网络的多智能体协作模型;所述分散式动作网络中,动作网络接收智能体的观察作为输入,输出当前所采取的动作;所述集中式价值网络接收每个智能体的观察和动作作为输入,进行域协调操作,并经过图卷积网络提取邻域节点信息,为每个智能体预测当前状态-动作对的价值,用于更新集中价值网络及分散动作网络;且在模型中定义域协调损失函数,用于指导域共识向量的表示学习,使同一域中的智能体之间形成强协调;
S3、使用集中训练、分散执行的训练方式,对采用Actor-Critic框架的多智能体协作模型进行训练;
S4、训练完成后,将模型中的各个动作网络作为策略网络独立执行,输入对应智能体的观察向量,输出为对应智能体的动作向量并将其传递给对应机器人,各机器人根据接收到的动作向量进行移动控制,实现多机器人的协作控制。
2.如权利要求1所述的基于强化学习的域协调多智能体系统协作控制方法,其特征在于,步骤S1中,所述多域协作场景包含多个合作型关系的子组;每一个子组作为一个域,由目标是完成同一任务的多个智能体组成;不同子组在同一场景中的任务目标不同,且整个场景中所有智能体之间需要进行协调以避免冲突;多域协作场景中使用域信息矩阵DN×N标记智能体之间的域关系,矩阵元素dij表示智能体i和智能体j之间的域关系,同域则置1,异域则置为0。
3.如权利要求1所述的基于强化学习的域协调多智能体系统协作控制方法,其特征在于,所述域协调损失函数的计算方法为:
首先,定义智能体i的域共识向量DCi为:
然后,将每对智能体i和j的域共识向量进行拼接后使用权重矩阵aT计算连接分数eij,并使用sigmoid函数σ推断智能体i和j之间连接存在的概率P(dij=1):
eij=aT[DCi||DCj]
φij=P(dij=1)=σ(eij)
式中:||表示向量拼接,φij为智能体i和j属于同域的概率;
最后,以域信息矩阵DN×N为监督目标,得到的域协调损失函数:
其中,1是指示函数,其下标中的等式成立则函数值为1,否则为0。
4.如权利要求3所述的基于强化学习的域协调多智能体系统协作控制方法,其特征在于,所述基于图网络进行多智能体建模的具体做法如下:
将每个智能体定义为图上的一个节点,智能体之间的交互就是图节点之间连接的边,从而通过图卷积网络实现图上节点之间的消息传递,聚合邻居节点的特征并用于更新自身节点特征,从而提取到相应的状态特征,实现节点特征的融合。
6.如权利要求5所述的基于强化学习的域协调多智能体系统协作控制方法,其特征在于,在价值网络中,每个智能体当前状态-动作对的价值预测过程如下:基于域划分后的多域协作场景,根据所述域协调损失函数对每个智能体的域协调损失项进行计算,再通过图卷积网络进行域外智能体之间的弱协调,得到每个智能体对应的状态特征,最后将状态特征通过全连接层,得到每个智能体当前状态-动作对的价值。
7.如权利要求6所述的基于强化学习的域协调多智能体系统协作控制方法,其特征在于,所述多智能体协作模型进行协作控制的智能体个数为N个;所述分散式动作网络中共存在2N个动作网络,分为N个正常更新的动作网络μ和N个延迟更新的动作网络μ′,两类动作网络分别以θμ和θμ′为参数;所述集中式价值网络中共存在2个价值网络,分为1个正常更新的价值网络Q和1个延迟更新的价值网络Q′,两个价值网络分别以θQ和θQ′为参数;
在模型训练过程中,每次更新模型时,从经验重播缓存D中采样固定大小批次的训练数据(ot,at,ot+1,rt),通过最小化损失项对正常更新的价值网络进行参数更新:
再采用深度确定性策略学习,对正常更新的动作网络进行参数更新:
式中:μi示第i个智能体对应的延迟更新的动作网络μ;
每隔固定间隔对延迟更新的动作网络和延迟更新的价值网络进行参数更新:
θQ′←τθQ+(1-τ)θQ′
θμ′←τθμ+(1-τ)θμ′
其中τ为软更新因子。
8.如权利要求6所述的基于强化学习的域协调多智能体系统协作控制方法,其特征在于,所述动作向量对应于机器人的移动方向及移动速度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110863195.2A CN113625561B (zh) | 2021-07-29 | 2021-07-29 | 一种基于强化学习的域协调多智能体系统协作控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110863195.2A CN113625561B (zh) | 2021-07-29 | 2021-07-29 | 一种基于强化学习的域协调多智能体系统协作控制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113625561A true CN113625561A (zh) | 2021-11-09 |
CN113625561B CN113625561B (zh) | 2023-09-26 |
Family
ID=78381549
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110863195.2A Active CN113625561B (zh) | 2021-07-29 | 2021-07-29 | 一种基于强化学习的域协调多智能体系统协作控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113625561B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103715771A (zh) * | 2013-12-27 | 2014-04-09 | 广东电网公司韶关供电局 | 一种自动发电协调控制平台 |
CN109472984A (zh) * | 2018-12-27 | 2019-03-15 | 苏州科技大学 | 基于深度强化学习的信号灯控制方法、系统和存储介质 |
CN110969872A (zh) * | 2019-12-18 | 2020-04-07 | 上海天壤智能科技有限公司 | 基于强化学习和图注意力网络的交通信号控制方法及系统 |
US20200125957A1 (en) * | 2018-10-17 | 2020-04-23 | Peking University | Multi-agent cooperation decision-making and training method |
CN111249106A (zh) * | 2020-01-16 | 2020-06-09 | 江苏经贸职业技术学院 | 老年康复机器人的训练控制方法、康复机器人及系统 |
CN112861442A (zh) * | 2021-03-10 | 2021-05-28 | 中国人民解放军国防科技大学 | 基于深度强化学习的多机协同空战规划方法及系统 |
US20210190364A1 (en) * | 2019-12-23 | 2021-06-24 | Johnson Controls Technology Company | Methods and systems for training hvac control using simulated and real experience data |
-
2021
- 2021-07-29 CN CN202110863195.2A patent/CN113625561B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103715771A (zh) * | 2013-12-27 | 2014-04-09 | 广东电网公司韶关供电局 | 一种自动发电协调控制平台 |
US20200125957A1 (en) * | 2018-10-17 | 2020-04-23 | Peking University | Multi-agent cooperation decision-making and training method |
CN109472984A (zh) * | 2018-12-27 | 2019-03-15 | 苏州科技大学 | 基于深度强化学习的信号灯控制方法、系统和存储介质 |
CN110969872A (zh) * | 2019-12-18 | 2020-04-07 | 上海天壤智能科技有限公司 | 基于强化学习和图注意力网络的交通信号控制方法及系统 |
US20210190364A1 (en) * | 2019-12-23 | 2021-06-24 | Johnson Controls Technology Company | Methods and systems for training hvac control using simulated and real experience data |
CN111249106A (zh) * | 2020-01-16 | 2020-06-09 | 江苏经贸职业技术学院 | 老年康复机器人的训练控制方法、康复机器人及系统 |
CN112861442A (zh) * | 2021-03-10 | 2021-05-28 | 中国人民解放军国防科技大学 | 基于深度强化学习的多机协同空战规划方法及系统 |
Non-Patent Citations (1)
Title |
---|
姚宗信;李明;陈宗基;: "多机协同作战任务决策方法多智能体结构框架", 电光与控制, vol. 15, no. 03, pages 1 - 4 * |
Also Published As
Publication number | Publication date |
---|---|
CN113625561B (zh) | 2023-09-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109635917B (zh) | 一种多智能体合作决策及训练方法 | |
Zhang et al. | Learning automata-based multiagent reinforcement learning for optimization of cooperative tasks | |
Sharma et al. | Deep Q-learning with Q-matrix transfer learning for novel fire evacuation environment | |
Ackermann et al. | Reducing overestimation bias in multi-agent domains using double centralized critics | |
CN112132263B (zh) | 一种基于强化学习的多智能体自主导航方法 | |
CN110852448A (zh) | 一种基于多智能体强化学习的合作型智能体的学习方法 | |
Yu et al. | Multiagent learning of coordination in loosely coupled multiagent systems | |
Abed-Alguni et al. | A comparison study of cooperative Q-learning algorithms for independent learners | |
CN113919485A (zh) | 基于动态层级通信网络的多智能体强化学习方法及系统 | |
CN112990485A (zh) | 基于强化学习的知识策略选择方法与装置 | |
Shi et al. | A multitier reinforcement learning model for a cooperative multiagent system | |
CN112613608A (zh) | 一种强化学习方法及相关装置 | |
Xia et al. | Cooperative multi-target hunting by unmanned surface vehicles based on multi-agent reinforcement learning | |
CN116841317A (zh) | 一种基于图注意力强化学习的无人机集群协同对抗方法 | |
Yun et al. | Multi-agent deep reinforcement learning using attentive graph neural architectures for real-time strategy games | |
Liu et al. | Efficient exploration for multi-agent reinforcement learning via transferable successor features | |
Hu et al. | Graph Soft Actor–Critic Reinforcement Learning for Large-Scale Distributed Multirobot Coordination | |
Zhu et al. | A Q-values sharing framework for multi-agent reinforcement learning under budget constraint | |
Fortier et al. | Learning Bayesian classifiers using overlapping swarm intelligence | |
Chen et al. | When shall i be empathetic? the utility of empathetic parameter estimation in multi-agent interactions | |
CN113625561B (zh) | 一种基于强化学习的域协调多智能体系统协作控制方法 | |
Li et al. | Two-level Q-learning: learning from conflict demonstrations | |
Chai et al. | NVIF: Neighboring Variational Information Flow for Cooperative Large-Scale Multiagent Reinforcement Learning | |
CN116167415A (zh) | 一种多智能体协同及对抗中的策略决策方法 | |
Latif et al. | Communication-efficient reinforcement learning in swarm robotic networks for maze exploration |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |