CN114143882A - 基于强化组织控制的多智体系统自组织方法及系统 - Google Patents

基于强化组织控制的多智体系统自组织方法及系统 Download PDF

Info

Publication number
CN114143882A
CN114143882A CN202111427464.7A CN202111427464A CN114143882A CN 114143882 A CN114143882 A CN 114143882A CN 202111427464 A CN202111427464 A CN 202111427464A CN 114143882 A CN114143882 A CN 114143882A
Authority
CN
China
Prior art keywords
decision
agent
network
unit
organization control
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111427464.7A
Other languages
English (en)
Inventor
王祥丰
李文浩
金博
朱骏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Normal University
Original Assignee
East China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Normal University filed Critical East China Normal University
Priority to CN202111427464.7A priority Critical patent/CN114143882A/zh
Publication of CN114143882A publication Critical patent/CN114143882A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/04Wireless resource allocation
    • H04W72/044Wireless resource allocation based on the type of the allocated resource
    • H04W72/0446Resources in time domain, e.g. slots or frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Feedback Control In General (AREA)

Abstract

一种基于强化组织控制的多智体系统自组织方法及系统,通过二元决策将大规模自动分拣任务中分拣机器人集群的自组织问题建模为一个多智体强化学习问题,每个智能体能够通过二元决策单元自发地决定是否与邻近智能体组成系统,将传统图论算法用于智能体的自组织问题中,而最终能够提升自动分拣任务完成的时间效率以及任务完成度。本发明能够保证系统内紧密协作、实现对复杂协作任务的分治,从而有效提升学习算法在应用到大规模多智体系统的可扩展性。

Description

基于强化组织控制的多智体系统自组织方法及系统
技术领域
本发明涉及的是一种仓储自动化领域的技术,具体是一种基于强化组织控制的多智体系 统自组织方法及系统,该系统被应用于求解仓储自动化领域中分拣机器人集群的大规模自动分 拣任务中。
背景技术
现有的多智体强化学习算法大多遵循中心化训练-去中心化执行框架。在中心化训练阶 段,智能体需要通过共享局部观测、参数或梯度等来学习去中心化的策略。然而,由于中心化 控制器的存在,使得现有算法无法扩展到大规模的多智体系统中,而需要协同完成大规模分拣 任务的分拣机器人集群则组成了一个典型的大规模多智体系统。在人类社会中,群体在完成复 杂的协作任务时,人类会自发地根据外部环境的变化以及任务进度形成众多系统,通过系统内 部紧密协作将复杂任务分而治之。因此,为了使得算法能够具有良好的可扩展性,一个亟待解 决的问题是,智能体如何并发地组成系统,且系统的构成能够适应外部环境变化。现有方法主 要通过启发式规则或端到端黑盒优化来进行智能体分组,因而很难学到具有良好适应性的动态 组队策略。
发明内容
本发明针对现有技术在求解大规模分拣任务上存在的上述不足,提出一种基于强化组织 控制的多智体系统自组织方法及系统,通过基于多智体强化学习的自适应组织控制来实现智能 体,也即分拣机器人自发地分组,来保证系统内紧密协作、实现对复杂协作任务的分治,从而 有效提升学习算法在应用到大规模多智体系统的可扩展性。
本发明是通过以下技术方案实现的:
本发明涉及一种基于强化组织控制的多智体系统自组织方法,通过构建并随机初始化组 织控制网络及多智体决策网络,通过组织控制网络对每个作为智能体的分拣机器人的局部观测 生成对应的二元决策,并据其将多智体组成的系统建模为有向图后,从中提取所有的弱连通分 量以对智能体分组;然后通过多智体决策网络根据每个智能体系统的联合观测,为所有智能体 生成决策动作,并与环境进行交互得到每个智能体各自的奖励反馈;再通过组织控制网络以及 多智体决策网络根据奖励计算出组织控制损失及决策损失,从而对组织控制网络及多智体决策 网络进行优化;最终分拣机器人集群将在完成大规模分拣任务中自发地、动态地、合理地进行 分组,将大规模分拣任务分解为独立的小规模子任务,智能体系统内将通过多智体强化学习方 法产生高效的协作策略,从而有效地完成各个子任务,最终实现在大规模自动分拣任务中快速 达到较高的任务完成度。
所述的组织控制网络为残差神经网络(ResNet,其采用但不限于Glorot,Xavierand Yoshua Bengio.“Understandingthe difficulty oftraining deep feedforwardneural networks.”AISTATS(2010).中记载的方式实现),该网络接收每个智能体,即分拣机器人的局部 观测作为输入,输出每个智能体的动态组队策略,即是否与邻近智能体组成系统的二元决策。
所述的多智体决策网络为残差神经网络(ResNet,其采用但不限于Kaiming He etal.
“Deep Residual Learningfor Image Recognition”CVPR(2016).中的技术实现),该网络根据每个 系统中所有智能体的联合观测,为系统中所有智能体生成决策动作。
本发明涉及一种实现上述方法的多智体系统自组织机构,包括:初始化单元、二元决策 单元、图模型构建单元、组织控制单元、多智体决策单元和模型优化单元,其中:初始化单元 构建并随机初始化组织控制网络以及多智体决策网络;二元决策单元将每个智能体的局部观测 输入到组织控制网络接中,并输出每个智能体的动态组队策略,即是否与邻近智能体组成系统 的二元决策;图模型构建单元根据组织控制网络输出的二元决策将整个多智体系统建模为一个 图模型;组织控制单元利用传统图论算法找出图模型中所有弱连通分量,并根据弱连通分量将 所有智能体分组,属于同一弱连通分量的智能体将被分到同一个系统中;多智体决策单元利用 多智体决策网络根据每个系统的联合观测为所有智能体生成决策动作,并与环境进行交互得到 每个智能体各自的奖励反馈,同时利用组织控制网络以及多智体决策网络根据每个智能体得到 的奖励计算出组织控制损失及决策损失;模型优化单元根据组织控制损失及决策损失对组织控 制网络以及多智体决策网络进行优化。
技术效果
本发明通过二元决策将大规模自动分拣任务中分拣机器人集群的自组织问题建模为一 个多智体强化学习问题,每个智能体能够通过二元决策单元自发地决定是否与邻近智能体组成 系统。相比已有多智体强化学习技术主要采用预定义的方式对智能体进行分组,例如选择最邻 近的k个智能体,或选取距离半径为r的圆形区域内的所有智能体组成系统,组织控制单元则 利用传统图论算法找出由图模型构建单元输出的有向图中所有的弱连通分量,并根据弱连通分 量将所有智能体进行分组,属于同一弱连通分量的智能体将被分到同一个系统中。本发明将传 统图论算法用于智能体的自组织问题中,而最终能够提升自动分拣任务完成的时间效率以及任 务完成度,而现有技术由于其启发式的分组策略,使得其时间效率以及任务完成度都无法达到 最优。
附图说明
图1为本发明流程图;
图2为协作任务示意图;
图3为协作任务示意图;
图4为本发明系统示意图。
具体实施方式
实施例1
本实施例涉及上述基于强化组织控制的多智体系统自组织方法在仓储自动化领域中分 拣机器人集群的大规模自动分拣场景下的具体实现,如图2所示。
本实施例分拣任务中,12个分拣机器人位于方形地图的中心区域,32个货架均匀分布 在方形地图的四个角落区域中。分拣机器人通过导航到货架来获得奖励。每个分拣机器人的局 部观测包括以自身为中心以7个单位长度为半径的正方形区域中的所有信息,即其余分拣机器 人的二维坐标以及货架的二维坐标分拣机器人的决策动作包括向上移动,向下移动,向左移动, 向右移动,原地不动以及举起货架,且移动的距离仅包括周围一个单位长度的区域。分拣机器 人只有在达到货架所在位置后才能执行举起货架的动作。分拣机器人相互碰撞,或在没有货架 的位置执行举起货架操作,均会受到惩罚。同时,为了鼓励分拣机器人能够更快地完成分拣任 务,其每采取一次移动动作,也将受到较小的惩罚。智能体需要学会自动分组并对大规模分拣 任务进行合理分解,从而使得每个系统能够移动到不同货架区域对货架进行分拣。
如图1所示,上述分拣任务具体通过以下步骤实现:
S110,构建并随机初始化组织控制网络、多智体决策网络以及联合决策评估函数,并使 用Xavier方法(Glorot,Xavier and Yoshua Bengio.“Understandingthedifficulty oftraining deep feedforward neural networks.”AISTATS(2010).)对网络/函数的所有参数进行初始化。
所述的组织控制网络包括:一个上采样层、五个卷积层和一个平均池化层,其中:上采 样层将每个分拣机器人14×14的二维局部观测矩阵上采样到224×224大小,再经过64个7×7 大小、步长为2的卷积核卷积后,得到112×112×64的特征图;经过3×3、步长为2的最大汇 聚后,再经过两次64个3×3的卷积核卷积,得到56×56×64的特征图;再分别经过两次128 个3×3的卷积核卷积、两次256个3×3的卷积核卷积以及两次256个3×3的卷积核卷积后, 得到7×7×512的特征图,最后经过7×7的平均汇聚后,得到512维的特征向量;最后经过一 层全连接神经网络后,得到2维的二元决策输出。
所述的多智体决策网络包括:一个上采样层、五个卷积层和一个平均池化层,其中:上 采样层将多智体系统中每个分拣机器人14×14的二维局部观测矩阵拼接到一起,形成14×14×3 的联合观测,若系统成员数目小于3,则用0补全;然后将联合观测上采样到224×224×3大小, 再经过64个7×7大小、步长为2的卷积核卷积后,得到112×112×64的特征图;经过3×3、 步长为2的最大汇聚后,再经过两次64个3×3的卷积核卷积,得到56×56×64的特征图;再 分别经过两次128个3×3的卷积核卷积、两次256个3×3的卷积核卷积以及两次256个3×3 的卷积核卷积后,得到7×7×512的特征图,最后经过7×7的平均汇聚后,得到512维的特征 向量;最后经过一层全连接神经网络后,得到6维的每个智能体的决策动作输出。
如表1所示,为组织控制网络以及多智体决策网络部分网络架构示意图。
Figure BDA0003379081820000041
S120,通过组织控制网络接收多智体系统中每个智能体的局部观测并依据上述处理流程 输出每个智能体的动态组队策略,即是否与邻近智能体组成系统的二元决策。
所述的二元决策是指:每个智能体i的二元决策空间
Figure BDA0003379081820000042
属于一个m维的二元决策 向量,该二元向量表示智能体i根据其局部观测
Figure BDA0003379081820000043
输出的与周围m个最近邻智能体
Figure BDA0003379081820000044
Figure BDA0003379081820000045
的连接动作,即智能体i与智能体j之间是否应该存在边连接。
S130,根据二元决策将整个多智体系统建模为一个有向图,将其转化为无向图后,使用 Tarjan算法在无向图中寻找所有的弱连通分量。
所述的有向图中,节点代表智能体,边反映二元决策结果。
所述的无向图
Figure BDA0003379081820000046
其中:
Figure BDA0003379081820000047
i檠j表示任意两个不同 的智能体,
Figure BDA0003379081820000048
表示两个智能体分别对应的邻近m个智能体;V表示“或”操作,即 对于两个智能体,只要其中一方决定与对方进行连接,则两个智能体之间就会存在边连接。
所述的Tarjan算法的最差时间复杂度为
Figure BDA0003379081820000049
即无向图中边的数目与节点数 目之和。
S140,根据所有弱连通分量将所有智能体分组,即属于同一弱连通分量的智能体将被分 到同一个系统中。
S150,通过多智体决策网络对每个系统的联合观测,依据上述处理流程为所有智能体生 成决策动作,并与环境进行交互得到每个智能体各自的奖励反馈;通过组织控制网络以及多智 体决策网络根据每个智能体得到的奖励计算出组织控制损失及决策损失;
所述的奖励,包括:外部奖励(下标e)与内部奖励(下标u)之和,即
Figure BDA0003379081820000051
所述的外部奖励是指:智能体,也即分拣机器人,每移动一次将得到-0.01的奖励,成 功举起货架将获得5的奖励,在没有货架的地方执行举起货架动作将获得-0.1的奖励。
所述的内部奖励
Figure BDA0003379081820000052
其中:GED(·,·)表示图编辑距离,
Figure BDA0003379081820000053
Figure BDA0003379081820000054
表示在执行二元决策前后,仅包含智能体i和其最邻近m个智能体的子图。
所述的组织控制损失
Figure BDA0003379081820000055
即组织控制网络的优化目标为最大 化智能体的期望累积折扣奖励,其中:τu表示智能体i在环境中采样得到的完整轨迹序列,由 连续的局部观测、动作以及奖励组成。其中局部观测是14x14的二维矩阵、动作是6维的独热 编码、奖励是一维实数标量;
Figure BDA0003379081820000056
表示轨迹序列中所有奖励之和。
所述的优化目标,通过以下方式实现:使用DQN算法通过最小化如下时间差分来得到 组织控制损失
Figure BDA0003379081820000057
Figure BDA0003379081820000058
其中:
Figure BDA0003379081820000059
代表组织控制网络,根据智能体局部观测输出二元决策,该网络输出实数
Figure BDA00033790818200000510
多智体决策网络进行决策后的奖励通过以下方式计算:除了环境本身的外部奖励
Figure BDA00033790818200000511
外,为了稳定训练过程,方法额外设计了意图一致性内部奖励(下标l表示)
Figure BDA00033790818200000512
Figure BDA00033790818200000513
所述的决策损失,通过QMIX算法(Tabish Rashid et al.“QMIX:MonotonicValueFunction Factorisation for Deep Multi-Agent Reinforcement Learning.”ICML(2018).)计算得到, 具体为:
Figure BDA00033790818200000514
其中:
Figure BDA00033790818200000515
Figure BDA00033790818200000516
局部决策损失
Figure BDA00033790818200000517
Figure BDA00033790818200000518
所有智能体的联合决策损失
Figure BDA00033790818200000519
Figure BDA00033790818200000520
局部和全局之间满足
Figure BDA00033790818200000521
Figure BDA00033790818200000522
其中:
Figure BDA00033790818200000523
表示为每个智能体输出动作决策的多智体决策网络;
Figure BDA00033790818200000524
表示评估系统内联合动作决策的奖励函数,用以辅 助多智体决策网络的训练;λQ檠hX=0.01表示正实数超参,用以平衡两部分损失;γ=0.99表 示属于0到1之间的折扣因子,用以平衡短期收益以及长期收益。
所述评估系统内联合动作决策的奖励函数,其具体架构为,奖励函数的输入包含系统内 所有智能体的联合观测,以及系统内所有智能体的联合动作。上述输入信息经过两个分支分别 处理。首先,奖励函数将系统中每个分拣机器人14x14的二维局部观测矩阵拼接到一起,形成 14x14x3的联合观测,若系统成员数目小于3,则用0补全;然后将联合观测上采样到224x224x3 大小,再经过64个7x7大小、步长为2的卷积核卷积后,得到112x112x64的特征图;经过 3x3、步长为2的最大汇聚后,再经过两次64个3x3的卷积核卷积,得到56x56x64的特征图; 再分别经过两次128个3x3的卷积核卷积、两次256个3x3的卷积核卷积以及两次256个3x3 的卷积核卷积后,得到7x7x512的特征图,最后经过7x7的平均汇聚后,得到512维的特征 向量;与此同时,奖励函数将系统中每个分拣机器人根据多智体决策网络做出的6维独热向量 表示的决策拼接到一起,形成36维的联合决策向量,经过两层单元数为32的全连接神经网络 后,得到32维的联合决策编码,最后经过一层全连接神经网络得到一个一维标量,该标量的 大小表示联合决策的价值。
S160,根据组织控制损失及决策损失对组织控制网络以及多智体决策网络进行优化,具 体为:使用Adam优化器对所有网络参数进行优化,使用的学习率为0.0001,批大小为512, 训练轮数为500,每轮中最大迭代次数为250,参数更新频率为每批数据更新4次。
算法训练所需要的数据通过如下方式生成。在每一轮训练的每个时间步中,分拣机器人 根据组织控制网络以及多智体决策网络得到各自的决策动作,并在仿真环境中执行。环境接收 到所有分拣机器人的联合决策后,将更新每个分拣机器人的状态,即二维坐标信息,以及货架 的状态,并为每个分拣机器人计算奖励。因而,每个时间步都将产生(联合观测、联合决策、奖 励)这样一个三元组。算法将每个时间步产生的三元组放入到一个经验回放缓存中,就形成了算 法训练所需要的数据集。在实施例一中,该经验回放缓存的大小为1,000,000。
经过十次采样不同随机种子初始化的实验,本实施例一能达到889(±78)的累积奖励值, 括号中的数值表示算法的方差;在所有的仿真实验中,算法都能够达到100%的任务完成度, 即分拣到所有的32个货架。
实施例2
本实施例在实施例1的基础上,在分拣环境中引入了干扰因素,例如观测噪声、决策延 迟、误入目标等,这些干扰因素会对分拣机器人的行为造成影响。本实施例通过引入额外的干 扰智能体的方式来一般性地、抽象地建模这些真实干扰因素。具体来说,如实施例1相比,本 实施例处理的自动分拣任务任务如图3所示,包括:16个干扰机器人,16个移动速度更快的 分拣机器人以及32个货架。分拣机器人只有成功抵达货架位置并举起货架才能得到奖励,而 干扰机器人则通过抵达分拣机器人所在位置来获得奖励。。所有智能体的动作都包括向上移动、 向下移动、向左移动、向右移动以及原地不动;分拣机器人拥有额外的举起货架的动作。干扰 机器人移动的范围为周围1个单位长度,分拣机器人的移动范围为周围2个单位长度。分拣机 器人不仅相互碰撞会受到惩罚,撞上干扰机器人也将受到惩罚。。由于分拣机器人的移动速度 要大于干扰机器人,因此分拣机器人需要学会通过分组来对大规模任务进行分解的同时,还要 学会如何躲避干扰机器人。本实施例除了上述设定之外,其余设定都与实施例1保持一致。
本实施例对于环境本身的外部奖励,所有机器人移动将不受到额外惩罚,分拣机器人被 干扰机器人追上将受到-1的惩罚,对应地干扰机器人将得到+1的奖励;分拣机器人成功举起 货架将收到+5的奖励,同样地,分拣机器人在没有货架的位置执行举起货架的行为,将受到-0.1 的惩罚。
在本实施例中,干扰机器人采用与分拣机器人一样的算法进行训练。随着训练的不断进 行,干扰机器人的能力将越来越强,即代表真实环境中的干扰幅度越来越大。分拣机器人在训 练过程中需要学会采用更好地协作策略来对抗越来越强的干扰幅度。
经过十次采样不同随机种子初始化的实验,本实施例2能达到635(±38)的累积奖励值。 括号中的数值表示算法的方差;在所有的仿真实验中,算法最终都能够达到100%的任务完成 度,即在存在干扰机器人的情况下分拣到所有的32个货架。
实施例3
如图4所示,为实现上述方法的一种基于强化组织控制的多智体系统自组织机构,包括: 初始化单元510、二元决策单元520、图模型构建单元530、组织控制单元540、多智体决策 单元550和模型优化单元560,其中:初始化单元510构建并随机初始化组织控制网络以及多 智体决策网络;二元决策单元520将每个智能体的局部观测输入到组织控制网络接中,并输出 每个智能体的动态组队策略,即是否与邻近智能体组成系统的二元决策;图模型构建单元530 根据组织控制网络输出的二元决策将整个多智体系统建模为一个图模型,图中节点代表智能体, 边反映二元决策结果;组织控制单元540利用传统图论算法找出图模型中所有弱连通分量,并 根据弱连通分量将所有智能体分组,属于同一弱连通分量的智能体将被分到同一个系统中;多 智体决策单元550利用多智体决策网络根据每个系统的联合观测为所有智能体生成决策动作, 并与环境进行交互得到每个智能体各自的奖励反馈,同时利用组织控制网络以及多智体决策网 络根据每个智能体得到的奖励计算出组织控制损失及决策损失;模型优化单元560根据多智体 决策单元得到的组织控制以及决策损失,对组织控制网络、多智体决策网络以及联合决策评估 函数的所有参数使用梯度反向传播算法进行更新。
所述的初始化单元510包括:组织控制网络初始化单元、多智体决策网络初始化单元以 及联合决策评估函数初始化单元,该三个单元分别根据组织控制网络、多智体决策网络以及联 合决策评估函数的具体架构信息,采用Xavier方法分别对应进行参数初始化。
所述的组织控制单元540包括:弱连通分量搜索单元以及分组单元,其中:弱连通分量 搜索单元利用传统图论算法找出所述图模型中所有弱连通分量,分组单元根据搜索到的所有弱 连通分量将所有智能体分组,属于同一弱连通分量的智能体将被分到同一个系统中。
所述的多智体决策单元550包括:智体决策单元、环境交互单元以及损失计算单元,其 中:智体决策单元使用多智体决策网络根据组织控制单元输出的每个系统的联合观测为所有智 能体生成决策动作,环境交互单元将所有智能体的决策动作输入到仿真环境中,得到所有智能 体更新后的状态以及环境反馈的奖励,最后,损失计算单元根据环境反馈的所有智能体的奖励 计算组织控制以及决策损失。
经过具体实际实验,在实施例1以及实施例2的具体环境设置下,使用Adam优化器对 所有网络参数进行优化,使用的学习率为0.0001,批大小为512,训练轮数为500,每轮中最 大迭代次数为250,参数更新频率为每批数据更新4次。
以上述超参数运行十次采样不同随机种子初始化的实验中,在实施例1的设置中能达到 889(±78)的累积奖励值,括号中的数值表示算法的方差;在所有的仿真实验中,算法都能够达 到100%的任务完成度,即分拣到所有的32个货架;经过十次采样不同随机种子初始化的实验 中,在实施例2的设置中,能达到635±38的累积奖励值。括号中的数值表示算法的方差;在 所有的仿真实验中,算法最终都能够达到100%的任务完成度,即在存在干扰机器人的情况下 分拣到所有的32个货架。
与现有技术相比,本发明在可处理的分拣机器人规模以及货架规模上、在完成分拣任务 的时间效率上以及在分拣任务的完成度上,本装置的性能都要由于已有的多智体强化学习方法。
上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式 对其进行局部调整,本发明的保护范围以权利要求书为准且不由上述具体实施所限,在其范围 内的各个实现方案均受本发明之约束。

Claims (8)

1.一种基于强化组织控制的多智体系统自组织方法,其特征在于,通过构建并随机初始化组织控制网络及多智体决策网络,通过组织控制网络对每个作为智能体的分拣机器人的局部观测生成对应的二元决策,并据其将多智体组成的系统建模为有向图后,从中提取所有的弱连通分量以对智能体分组;然后通过多智体决策网络根据每个智能体系统的联合观测,为所有智能体生成决策动作,并与环境进行交互得到每个智能体各自的奖励反馈;再通过组织控制网络以及多智体决策网络根据奖励计算出组织控制损失及决策损失,从而对组织控制网络及多智体决策网络进行优化;最终分拣机器人集群将在完成大规模分拣任务中自发地、动态地、合理地进行分组,将大规模分拣任务分解为独立的小规模子任务,智能体系统内将通过多智体强化学习方法产生高效的协作策略,从而有效地完成各个子任务,最终实现在大规模自动分拣任务中快速达到较高的任务完成度;
所述的二元决策是指:每个智能体i的二元决策空间
Figure FDA0003379081810000011
属于一个m维的二元决策向量,该二元向量表示智能体i根据其局部观测
Figure FDA0003379081810000012
输出的与周围m个最近邻智能体
Figure FDA0003379081810000014
Figure FDA0003379081810000013
的连接动作,即智能体i与智能体j之间是否应该存在边连接。
2.根据权利要求1所述的基于强化组织控制的多智体系统自组织方法,其特征是,所述的组织控制网络为残差神经网络,该网络接收每个智能体,即分拣机器人的局部观测作为输入,输出每个智能体的动态组队策略,即是否与邻近智能体组成系统的二元决策;
所述的多智体决策网络为残差神经网络,该网络根据每个系统中所有智能体的联合观测,为系统中所有智能体生成决策动作。
3.根据权利要求1或2所述的基于强化组织控制的多智体系统自组织方法,其特征是,所述的组织控制网络包括:一个上采样层、五个卷积层和一个平均池化层,其中:上采样层将每个分拣机器人14×14的二维局部观测矩阵上采样到224×224大小,再经过64个7×7大小、步长为2的卷积核卷积后,得到112×112×64的特征图;经过3×3、步长为2的最大汇聚后,再经过两次64个3×3的卷积核卷积,得到56×56×64的特征图;再分别经过两次128个3×3的卷积核卷积、两次256个3×3的卷积核卷积以及两次256个3×3的卷积核卷积后,得到7×7×512的特征图,最后经过7×7的平均汇聚后,得到512维的特征向量;最后经过一层全连接神经网络后,得到2维的二元决策输出;
所述的多智体决策网络包括:一个上采样层、五个卷积层和一个平均池化层,其中:上采样层将多智体系统中每个分拣机器人14×14的二维局部观测矩阵拼接到一起,形成14×14×3的联合观测,若系统成员数目小于3,则用0补全;然后将联合观测上采样到224×224×3大小,再经过64个7×7大小、步长为2的卷积核卷积后,得到112×112×64的特征图;经过3×3、步长为2的最大汇聚后,再经过两次64个3×3的卷积核卷积,得到56×56×64的特征图;再分别经过两次128个3×3的卷积核卷积、两次256个3×3的卷积核卷积以及两次256个3×3的卷积核卷积后,得到7×7×512的特征图,最后经过7×7的平均汇聚后,得到512维的特征向量;最后经过一层全连接神经网络后,得到6维的每个智能体的决策动作输出。
4.根据权利要求1所述的基于强化组织控制的多智体系统自组织方法,其特征是,所述的组织控制损失
Figure FDA0003379081810000021
Figure FDA0003379081810000022
其中:
Figure FDA0003379081810000023
代表组织控制网络,根据智能体局部观测输出二元决策,该网络输出实数
Figure FDA0003379081810000024
所述的决策损失,通过QMIX算法计算得到,具体为:
Figure FDA0003379081810000025
Figure FDA0003379081810000026
其中:
Figure FDA0003379081810000027
局部决策损失
Figure FDA0003379081810000028
Figure FDA0003379081810000029
所有智能体的联合决策损失
Figure FDA00033790818100000210
局部和全局之间满足
Figure FDA00033790818100000211
Figure FDA00033790818100000212
其中:
Figure FDA00033790818100000213
表示为每个智能体输出动作决策的多智体决策网络;
Figure FDA00033790818100000214
表示评估系统内联合动作决策的奖励函数,用以辅助多智体决策网络的训练;λQMIX=0.01表示正实数超参,用以平衡两部分损失;γ=0.99表示属于0到1之间的折扣因子,用以平衡短期收益以及长期收益。
5.一种实现权利要求1~4中任一所述方法的多智体系统自组织机构,其特征在于,包括:初始化单元、二元决策单元、图模型构建单元、组织控制单元、多智体决策单元和模型优化单元,其中:初始化单元构建并随机初始化组织控制网络以及多智体决策网络;二元决策单元将每个智能体的局部观测输入到组织控制网络接中,并输出每个智能体的动态组队策略,即是否与邻近智能体组成系统的二元决策;图模型构建单元根据组织控制网络输出的二元决策将整个多智体系统建模为一个图模型;组织控制单元利用传统图论算法找出图模型中所有弱连通分量,并根据弱连通分量将所有智能体分组,属于同一弱连通分量的智能体将被分到同一个系统中;多智体决策单元利用多智体决策网络根据每个系统的联合观测为所有智能体生成决策动作,并与环境进行交互得到每个智能体各自的奖励反馈,同时利用组织控制网络以及多智体决策网络根据每个智能体得到的奖励计算出组织控制损失及决策损失;模型优化单元根据多智体决策单元得到的组织控制以及决策损失,对组织控制网络、多智体决策网络以及联合决策评估函数的所有参数使用梯度反向传播算法进行更新。
6.根据权利要求5所述的多智体系统自组织机构,其特征是,所述的初始化单元包括:组织控制网络初始化单元、多智体决策网络初始化单元以及联合决策评估函数初始化单元,该三个单元分别根据组织控制网络、多智体决策网络以及联合决策评估函数的具体架构信息,采用Xavier方法分别对应进行参数初始化。
7.根据权利要求5所述的多智体系统自组织机构,其特征是,所述的组织控制单元包括:弱连通分量搜索单元以及分组单元,其中:弱连通分量搜索单元利用传统图论算法找出所述图模型中所有弱连通分量,分组单元根据搜索到的所有弱连通分量将所有智能体分组,属于同一弱连通分量的智能体将被分到同一个系统中。
8.根据权利要求5所述的多智体系统自组织机构,其特征是,所述的多智体决策单元包括:智体决策单元、环境交互单元以及损失计算单元,其中:智体决策单元使用多智体决策网络根据组织控制单元输出的每个系统的联合观测为所有智能体生成决策动作,环境交互单元将所有智能体的决策动作输入到仿真环境中,得到所有智能体更新后的状态以及环境反馈的奖励,最后,损失计算单元根据环境反馈的所有智能体的奖励计算组织控制以及决策损失。
CN202111427464.7A 2021-11-29 2021-11-29 基于强化组织控制的多智体系统自组织方法及系统 Pending CN114143882A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111427464.7A CN114143882A (zh) 2021-11-29 2021-11-29 基于强化组织控制的多智体系统自组织方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111427464.7A CN114143882A (zh) 2021-11-29 2021-11-29 基于强化组织控制的多智体系统自组织方法及系统

Publications (1)

Publication Number Publication Date
CN114143882A true CN114143882A (zh) 2022-03-04

Family

ID=80388292

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111427464.7A Pending CN114143882A (zh) 2021-11-29 2021-11-29 基于强化组织控制的多智体系统自组织方法及系统

Country Status (1)

Country Link
CN (1) CN114143882A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115081936A (zh) * 2022-07-21 2022-09-20 之江实验室 面向应急条件下多遥感卫星观测任务调度的方法和装置
CN115630710A (zh) * 2022-11-16 2023-01-20 清华大学 基于自组织群组的多智能体强化学习方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115081936A (zh) * 2022-07-21 2022-09-20 之江实验室 面向应急条件下多遥感卫星观测任务调度的方法和装置
CN115081936B (zh) * 2022-07-21 2022-11-18 之江实验室 面向应急条件下多遥感卫星观测任务调度的方法和装置
CN115630710A (zh) * 2022-11-16 2023-01-20 清华大学 基于自组织群组的多智能体强化学习方法

Similar Documents

Publication Publication Date Title
Schaff et al. Jointly learning to construct and control agents using deep reinforcement learning
Liao et al. Data-efficient learning of morphology and controller for a microrobot
CN114603564B (zh) 机械臂导航避障方法、系统、计算机设备及存储介质
Zhu et al. A neural network approach to dynamic task assignment of multirobots
CN114143882A (zh) 基于强化组织控制的多智体系统自组织方法及系统
Funk et al. Learn2assemble with structured representations and search for robotic architectural construction
CN111476337B (zh) 多级可变基因调控网络的群体机器人模式生成与转换方法
CN110297490B (zh) 基于强化学习算法的异构模块化机器人自重构规划方法
Lim et al. Dynamics-aware quality-diversity for efficient learning of skill repertoires
Cagnoni Genetic and evolutionary computation for image processing and analysis
Lim et al. Nature inspired algorithms to optimize robot workcell layouts
Huizinga et al. Evolving multimodal robot behavior via many stepping stones with the combinatorial multiobjective evolutionary algorithm
Engebråten et al. Evolving a repertoire of controllers for a multi-function swarm
Cao et al. Dynamic task assignment for multi-AUV cooperative hunting
Diallo et al. Multi-agent pattern formation: a distributed model-free deep reinforcement learning approach
Tanaka et al. Co-evolving morphology and control of soft robots using a single genome
Korani et al. Discrete mother tree optimization for the traveling salesman problem
He et al. Decentralized exploration of a structured environment based on multi-agent deep reinforcement learning
Zedadra et al. A distributed foraging algorithm based on artificial potential field
CN114118374A (zh) 基于层次一致性学习的多智体强化学习方法及系统
Alet et al. Robotic gripper design with evolutionary strategies and graph element networks
Yang et al. Automatic synthesizing multi-robot cooperation strategies based on Brain Storm Robotics
Liu et al. Moving forward in formation: a decentralized hierarchical learning approach to multi-agent moving together
Baysal et al. A fast non-dominated sorting multi-objective symbiotic organism search algorithm for energy efficient locomotion of snake robot
Mishra et al. A distributed epigenetic shape formation and regeneration algorithm for a swarm of robots

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination