CN114143882A

CN114143882A - 基于强化组织控制的多智体系统自组织方法及系统

Info

Publication number: CN114143882A
Application number: CN202111427464.7A
Authority: CN
Inventors: 王祥丰; 李文浩; 金博; 朱骏
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2021-11-29
Filing date: 2021-11-29
Publication date: 2022-03-04

Abstract

一种基于强化组织控制的多智体系统自组织方法及系统，通过二元决策将大规模自动分拣任务中分拣机器人集群的自组织问题建模为一个多智体强化学习问题，每个智能体能够通过二元决策单元自发地决定是否与邻近智能体组成系统，将传统图论算法用于智能体的自组织问题中，而最终能够提升自动分拣任务完成的时间效率以及任务完成度。本发明能够保证系统内紧密协作、实现对复杂协作任务的分治，从而有效提升学习算法在应用到大规模多智体系统的可扩展性。

Description

基于强化组织控制的多智体系统自组织方法及系统

技术领域

本发明涉及的是一种仓储自动化领域的技术，具体是一种基于强化组织控制的多智体系统自组织方法及系统，该系统被应用于求解仓储自动化领域中分拣机器人集群的大规模自动分拣任务中。

背景技术

现有的多智体强化学习算法大多遵循中心化训练-去中心化执行框架。在中心化训练阶段，智能体需要通过共享局部观测、参数或梯度等来学习去中心化的策略。然而，由于中心化控制器的存在，使得现有算法无法扩展到大规模的多智体系统中，而需要协同完成大规模分拣任务的分拣机器人集群则组成了一个典型的大规模多智体系统。在人类社会中，群体在完成复杂的协作任务时，人类会自发地根据外部环境的变化以及任务进度形成众多系统，通过系统内部紧密协作将复杂任务分而治之。因此，为了使得算法能够具有良好的可扩展性，一个亟待解决的问题是，智能体如何并发地组成系统，且系统的构成能够适应外部环境变化。现有方法主要通过启发式规则或端到端黑盒优化来进行智能体分组，因而很难学到具有良好适应性的动态组队策略。

发明内容

本发明针对现有技术在求解大规模分拣任务上存在的上述不足，提出一种基于强化组织控制的多智体系统自组织方法及系统，通过基于多智体强化学习的自适应组织控制来实现智能体，也即分拣机器人自发地分组，来保证系统内紧密协作、实现对复杂协作任务的分治，从而有效提升学习算法在应用到大规模多智体系统的可扩展性。

本发明是通过以下技术方案实现的：

本发明涉及一种基于强化组织控制的多智体系统自组织方法，通过构建并随机初始化组织控制网络及多智体决策网络，通过组织控制网络对每个作为智能体的分拣机器人的局部观测生成对应的二元决策，并据其将多智体组成的系统建模为有向图后，从中提取所有的弱连通分量以对智能体分组；然后通过多智体决策网络根据每个智能体系统的联合观测，为所有智能体生成决策动作，并与环境进行交互得到每个智能体各自的奖励反馈；再通过组织控制网络以及多智体决策网络根据奖励计算出组织控制损失及决策损失，从而对组织控制网络及多智体决策网络进行优化；最终分拣机器人集群将在完成大规模分拣任务中自发地、动态地、合理地进行分组，将大规模分拣任务分解为独立的小规模子任务，智能体系统内将通过多智体强化学习方法产生高效的协作策略，从而有效地完成各个子任务，最终实现在大规模自动分拣任务中快速达到较高的任务完成度。

所述的组织控制网络为残差神经网络(ResNet，其采用但不限于Glorot,Xavierand Yoshua Bengio.“Understandingthe difficulty oftraining deep feedforwardneural networks.”AISTATS(2010).中记载的方式实现)，该网络接收每个智能体，即分拣机器人的局部观测作为输入，输出每个智能体的动态组队策略，即是否与邻近智能体组成系统的二元决策。

所述的多智体决策网络为残差神经网络(ResNet，其采用但不限于Kaiming He etal.

“Deep Residual Learningfor Image Recognition”CVPR(2016).中的技术实现)，该网络根据每个系统中所有智能体的联合观测，为系统中所有智能体生成决策动作。

本发明涉及一种实现上述方法的多智体系统自组织机构，包括：初始化单元、二元决策单元、图模型构建单元、组织控制单元、多智体决策单元和模型优化单元，其中：初始化单元构建并随机初始化组织控制网络以及多智体决策网络；二元决策单元将每个智能体的局部观测输入到组织控制网络接中，并输出每个智能体的动态组队策略，即是否与邻近智能体组成系统的二元决策；图模型构建单元根据组织控制网络输出的二元决策将整个多智体系统建模为一个图模型；组织控制单元利用传统图论算法找出图模型中所有弱连通分量，并根据弱连通分量将所有智能体分组，属于同一弱连通分量的智能体将被分到同一个系统中；多智体决策单元利用多智体决策网络根据每个系统的联合观测为所有智能体生成决策动作，并与环境进行交互得到每个智能体各自的奖励反馈，同时利用组织控制网络以及多智体决策网络根据每个智能体得到的奖励计算出组织控制损失及决策损失；模型优化单元根据组织控制损失及决策损失对组织控制网络以及多智体决策网络进行优化。

技术效果

本发明通过二元决策将大规模自动分拣任务中分拣机器人集群的自组织问题建模为一个多智体强化学习问题，每个智能体能够通过二元决策单元自发地决定是否与邻近智能体组成系统。相比已有多智体强化学习技术主要采用预定义的方式对智能体进行分组，例如选择最邻近的k个智能体，或选取距离半径为r的圆形区域内的所有智能体组成系统，组织控制单元则利用传统图论算法找出由图模型构建单元输出的有向图中所有的弱连通分量，并根据弱连通分量将所有智能体进行分组，属于同一弱连通分量的智能体将被分到同一个系统中。本发明将传统图论算法用于智能体的自组织问题中，而最终能够提升自动分拣任务完成的时间效率以及任务完成度，而现有技术由于其启发式的分组策略，使得其时间效率以及任务完成度都无法达到最优。

附图说明

图1为本发明流程图；

图2为协作任务示意图；

图3为协作任务示意图；

图4为本发明系统示意图。

具体实施方式

实施例1

本实施例涉及上述基于强化组织控制的多智体系统自组织方法在仓储自动化领域中分拣机器人集群的大规模自动分拣场景下的具体实现，如图2所示。

本实施例分拣任务中，12个分拣机器人位于方形地图的中心区域，32个货架均匀分布在方形地图的四个角落区域中。分拣机器人通过导航到货架来获得奖励。每个分拣机器人的局部观测包括以自身为中心以7个单位长度为半径的正方形区域中的所有信息，即其余分拣机器人的二维坐标以及货架的二维坐标分拣机器人的决策动作包括向上移动，向下移动，向左移动，向右移动，原地不动以及举起货架，且移动的距离仅包括周围一个单位长度的区域。分拣机器人只有在达到货架所在位置后才能执行举起货架的动作。分拣机器人相互碰撞，或在没有货架的位置执行举起货架操作，均会受到惩罚。同时，为了鼓励分拣机器人能够更快地完成分拣任务，其每采取一次移动动作，也将受到较小的惩罚。智能体需要学会自动分组并对大规模分拣任务进行合理分解，从而使得每个系统能够移动到不同货架区域对货架进行分拣。

如图1所示，上述分拣任务具体通过以下步骤实现：

S110，构建并随机初始化组织控制网络、多智体决策网络以及联合决策评估函数，并使用Xavier方法(Glorot,Xavier and Yoshua Bengio.“Understandingthedifficulty oftraining deep feedforward neural networks.”AISTATS(2010).)对网络/函数的所有参数进行初始化。

所述的组织控制网络包括：一个上采样层、五个卷积层和一个平均池化层，其中：上采样层将每个分拣机器人14×14的二维局部观测矩阵上采样到224×224大小，再经过64个7×7 大小、步长为2的卷积核卷积后，得到112×112×64的特征图；经过3×3、步长为2的最大汇聚后，再经过两次64个3×3的卷积核卷积，得到56×56×64的特征图；再分别经过两次128 个3×3的卷积核卷积、两次256个3×3的卷积核卷积以及两次256个3×3的卷积核卷积后，得到7×7×512的特征图，最后经过7×7的平均汇聚后，得到512维的特征向量；最后经过一层全连接神经网络后，得到2维的二元决策输出。

所述的多智体决策网络包括：一个上采样层、五个卷积层和一个平均池化层，其中：上采样层将多智体系统中每个分拣机器人14×14的二维局部观测矩阵拼接到一起，形成14×14×3 的联合观测，若系统成员数目小于3，则用0补全；然后将联合观测上采样到224×224×3大小，再经过64个7×7大小、步长为2的卷积核卷积后，得到112×112×64的特征图；经过3×3、步长为2的最大汇聚后，再经过两次64个3×3的卷积核卷积，得到56×56×64的特征图；再分别经过两次128个3×3的卷积核卷积、两次256个3×3的卷积核卷积以及两次256个3×3 的卷积核卷积后，得到7×7×512的特征图，最后经过7×7的平均汇聚后，得到512维的特征向量；最后经过一层全连接神经网络后，得到6维的每个智能体的决策动作输出。

如表1所示，为组织控制网络以及多智体决策网络部分网络架构示意图。

S120，通过组织控制网络接收多智体系统中每个智能体的局部观测并依据上述处理流程输出每个智能体的动态组队策略，即是否与邻近智能体组成系统的二元决策。

所述的二元决策是指：每个智能体i的二元决策空间

属于一个m维的二元决策向量，该二元向量表示智能体i根据其局部观测

输出的与周围m个最近邻智能体

的连接动作，即智能体i与智能体j之间是否应该存在边连接。

S130，根据二元决策将整个多智体系统建模为一个有向图，将其转化为无向图后，使用 Tarjan算法在无向图中寻找所有的弱连通分量。

所述的有向图中，节点代表智能体，边反映二元决策结果。

所述的无向图

其中：

i檠j表示任意两个不同的智能体，

表示两个智能体分别对应的邻近m个智能体；V表示“或”操作，即对于两个智能体，只要其中一方决定与对方进行连接，则两个智能体之间就会存在边连接。

所述的Tarjan算法的最差时间复杂度为

即无向图中边的数目与节点数目之和。

S140，根据所有弱连通分量将所有智能体分组，即属于同一弱连通分量的智能体将被分到同一个系统中。

S150，通过多智体决策网络对每个系统的联合观测，依据上述处理流程为所有智能体生成决策动作，并与环境进行交互得到每个智能体各自的奖励反馈；通过组织控制网络以及多智体决策网络根据每个智能体得到的奖励计算出组织控制损失及决策损失；

所述的奖励，包括：外部奖励(下标e)与内部奖励(下标u)之和，即

所述的外部奖励是指：智能体，也即分拣机器人，每移动一次将得到-0.01的奖励，成功举起货架将获得5的奖励，在没有货架的地方执行举起货架动作将获得-0.1的奖励。

所述的内部奖励

其中：GED(·,·)表示图编辑距离，

和

表示在执行二元决策前后，仅包含智能体i和其最邻近m个智能体的子图。

所述的组织控制损失

即组织控制网络的优化目标为最大化智能体的期望累积折扣奖励，其中：τ_u表示智能体i在环境中采样得到的完整轨迹序列，由连续的局部观测、动作以及奖励组成。其中局部观测是14x14的二维矩阵、动作是6维的独热编码、奖励是一维实数标量；

表示轨迹序列中所有奖励之和。

所述的优化目标，通过以下方式实现：使用DQN算法通过最小化如下时间差分来得到组织控制损失

其中：

代表组织控制网络，根据智能体局部观测输出二元决策，该网络输出实数

多智体决策网络进行决策后的奖励通过以下方式计算：除了环境本身的外部奖励

外，为了稳定训练过程，方法额外设计了意图一致性内部奖励(下标l表示)

所述的决策损失，通过QMIX算法(Tabish Rashid et al.“QMIX:MonotonicValueFunction Factorisation for Deep Multi-Agent Reinforcement Learning.”ICML(2018).)计算得到，具体为：

其中：

局部决策损失

所有智能体的联合决策损失

局部和全局之间满足

其中：

表示为每个智能体输出动作决策的多智体决策网络；

表示评估系统内联合动作决策的奖励函数，用以辅助多智体决策网络的训练；λ_Q檠hX＝0.01表示正实数超参，用以平衡两部分损失；γ＝0.99表示属于0到1之间的折扣因子，用以平衡短期收益以及长期收益。

所述评估系统内联合动作决策的奖励函数，其具体架构为，奖励函数的输入包含系统内所有智能体的联合观测，以及系统内所有智能体的联合动作。上述输入信息经过两个分支分别处理。首先，奖励函数将系统中每个分拣机器人14x14的二维局部观测矩阵拼接到一起，形成 14x14x3的联合观测，若系统成员数目小于3，则用0补全；然后将联合观测上采样到224x224x3 大小，再经过64个7x7大小、步长为2的卷积核卷积后，得到112x112x64的特征图；经过 3x3、步长为2的最大汇聚后，再经过两次64个3x3的卷积核卷积，得到56x56x64的特征图；再分别经过两次128个3x3的卷积核卷积、两次256个3x3的卷积核卷积以及两次256个3x3 的卷积核卷积后，得到7x7x512的特征图，最后经过7x7的平均汇聚后，得到512维的特征向量；与此同时，奖励函数将系统中每个分拣机器人根据多智体决策网络做出的6维独热向量表示的决策拼接到一起，形成36维的联合决策向量，经过两层单元数为32的全连接神经网络后，得到32维的联合决策编码，最后经过一层全连接神经网络得到一个一维标量，该标量的大小表示联合决策的价值。

S160，根据组织控制损失及决策损失对组织控制网络以及多智体决策网络进行优化，具体为：使用Adam优化器对所有网络参数进行优化，使用的学习率为0.0001，批大小为512，训练轮数为500，每轮中最大迭代次数为250，参数更新频率为每批数据更新4次。

算法训练所需要的数据通过如下方式生成。在每一轮训练的每个时间步中，分拣机器人根据组织控制网络以及多智体决策网络得到各自的决策动作，并在仿真环境中执行。环境接收到所有分拣机器人的联合决策后，将更新每个分拣机器人的状态，即二维坐标信息，以及货架的状态，并为每个分拣机器人计算奖励。因而，每个时间步都将产生(联合观测、联合决策、奖励)这样一个三元组。算法将每个时间步产生的三元组放入到一个经验回放缓存中，就形成了算法训练所需要的数据集。在实施例一中，该经验回放缓存的大小为1,000,000。

经过十次采样不同随机种子初始化的实验，本实施例一能达到889(±78)的累积奖励值，括号中的数值表示算法的方差；在所有的仿真实验中，算法都能够达到100％的任务完成度，即分拣到所有的32个货架。

实施例2

本实施例在实施例1的基础上，在分拣环境中引入了干扰因素，例如观测噪声、决策延迟、误入目标等，这些干扰因素会对分拣机器人的行为造成影响。本实施例通过引入额外的干扰智能体的方式来一般性地、抽象地建模这些真实干扰因素。具体来说，如实施例1相比，本实施例处理的自动分拣任务任务如图3所示，包括：16个干扰机器人，16个移动速度更快的分拣机器人以及32个货架。分拣机器人只有成功抵达货架位置并举起货架才能得到奖励，而干扰机器人则通过抵达分拣机器人所在位置来获得奖励。。所有智能体的动作都包括向上移动、向下移动、向左移动、向右移动以及原地不动；分拣机器人拥有额外的举起货架的动作。干扰机器人移动的范围为周围1个单位长度，分拣机器人的移动范围为周围2个单位长度。分拣机器人不仅相互碰撞会受到惩罚，撞上干扰机器人也将受到惩罚。。由于分拣机器人的移动速度要大于干扰机器人，因此分拣机器人需要学会通过分组来对大规模任务进行分解的同时，还要学会如何躲避干扰机器人。本实施例除了上述设定之外，其余设定都与实施例1保持一致。

本实施例对于环境本身的外部奖励，所有机器人移动将不受到额外惩罚，分拣机器人被干扰机器人追上将受到-1的惩罚，对应地干扰机器人将得到+1的奖励；分拣机器人成功举起货架将收到+5的奖励，同样地，分拣机器人在没有货架的位置执行举起货架的行为，将受到-0.1 的惩罚。

在本实施例中，干扰机器人采用与分拣机器人一样的算法进行训练。随着训练的不断进行，干扰机器人的能力将越来越强，即代表真实环境中的干扰幅度越来越大。分拣机器人在训练过程中需要学会采用更好地协作策略来对抗越来越强的干扰幅度。

经过十次采样不同随机种子初始化的实验，本实施例2能达到635(±38)的累积奖励值。括号中的数值表示算法的方差；在所有的仿真实验中，算法最终都能够达到100％的任务完成度，即在存在干扰机器人的情况下分拣到所有的32个货架。

实施例3

如图4所示，为实现上述方法的一种基于强化组织控制的多智体系统自组织机构，包括：初始化单元510、二元决策单元520、图模型构建单元530、组织控制单元540、多智体决策单元550和模型优化单元560，其中：初始化单元510构建并随机初始化组织控制网络以及多智体决策网络；二元决策单元520将每个智能体的局部观测输入到组织控制网络接中，并输出每个智能体的动态组队策略，即是否与邻近智能体组成系统的二元决策；图模型构建单元530 根据组织控制网络输出的二元决策将整个多智体系统建模为一个图模型，图中节点代表智能体，边反映二元决策结果；组织控制单元540利用传统图论算法找出图模型中所有弱连通分量，并根据弱连通分量将所有智能体分组，属于同一弱连通分量的智能体将被分到同一个系统中；多智体决策单元550利用多智体决策网络根据每个系统的联合观测为所有智能体生成决策动作，并与环境进行交互得到每个智能体各自的奖励反馈，同时利用组织控制网络以及多智体决策网络根据每个智能体得到的奖励计算出组织控制损失及决策损失；模型优化单元560根据多智体决策单元得到的组织控制以及决策损失，对组织控制网络、多智体决策网络以及联合决策评估函数的所有参数使用梯度反向传播算法进行更新。

所述的初始化单元510包括：组织控制网络初始化单元、多智体决策网络初始化单元以及联合决策评估函数初始化单元，该三个单元分别根据组织控制网络、多智体决策网络以及联合决策评估函数的具体架构信息，采用Xavier方法分别对应进行参数初始化。

所述的组织控制单元540包括：弱连通分量搜索单元以及分组单元，其中：弱连通分量搜索单元利用传统图论算法找出所述图模型中所有弱连通分量，分组单元根据搜索到的所有弱连通分量将所有智能体分组，属于同一弱连通分量的智能体将被分到同一个系统中。

所述的多智体决策单元550包括：智体决策单元、环境交互单元以及损失计算单元，其中：智体决策单元使用多智体决策网络根据组织控制单元输出的每个系统的联合观测为所有智能体生成决策动作，环境交互单元将所有智能体的决策动作输入到仿真环境中，得到所有智能体更新后的状态以及环境反馈的奖励，最后，损失计算单元根据环境反馈的所有智能体的奖励计算组织控制以及决策损失。

经过具体实际实验，在实施例1以及实施例2的具体环境设置下，使用Adam优化器对所有网络参数进行优化，使用的学习率为0.0001，批大小为512，训练轮数为500，每轮中最大迭代次数为250，参数更新频率为每批数据更新4次。

以上述超参数运行十次采样不同随机种子初始化的实验中，在实施例1的设置中能达到 889(±78)的累积奖励值，括号中的数值表示算法的方差；在所有的仿真实验中，算法都能够达到100％的任务完成度，即分拣到所有的32个货架；经过十次采样不同随机种子初始化的实验中，在实施例2的设置中，能达到635±38的累积奖励值。括号中的数值表示算法的方差；在所有的仿真实验中，算法最终都能够达到100％的任务完成度，即在存在干扰机器人的情况下分拣到所有的32个货架。

与现有技术相比，本发明在可处理的分拣机器人规模以及货架规模上、在完成分拣任务的时间效率上以及在分拣任务的完成度上，本装置的性能都要由于已有的多智体强化学习方法。

上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整，本发明的保护范围以权利要求书为准且不由上述具体实施所限，在其范围内的各个实现方案均受本发明之约束。

Claims

1.一种基于强化组织控制的多智体系统自组织方法，其特征在于，通过构建并随机初始化组织控制网络及多智体决策网络，通过组织控制网络对每个作为智能体的分拣机器人的局部观测生成对应的二元决策，并据其将多智体组成的系统建模为有向图后，从中提取所有的弱连通分量以对智能体分组；然后通过多智体决策网络根据每个智能体系统的联合观测，为所有智能体生成决策动作，并与环境进行交互得到每个智能体各自的奖励反馈；再通过组织控制网络以及多智体决策网络根据奖励计算出组织控制损失及决策损失，从而对组织控制网络及多智体决策网络进行优化；最终分拣机器人集群将在完成大规模分拣任务中自发地、动态地、合理地进行分组，将大规模分拣任务分解为独立的小规模子任务，智能体系统内将通过多智体强化学习方法产生高效的协作策略，从而有效地完成各个子任务，最终实现在大规模自动分拣任务中快速达到较高的任务完成度；

所述的二元决策是指：每个智能体i的二元决策空间

输出的与周围m个最近邻智能体

2.根据权利要求1所述的基于强化组织控制的多智体系统自组织方法，其特征是，所述的组织控制网络为残差神经网络，该网络接收每个智能体，即分拣机器人的局部观测作为输入，输出每个智能体的动态组队策略，即是否与邻近智能体组成系统的二元决策；

所述的多智体决策网络为残差神经网络，该网络根据每个系统中所有智能体的联合观测，为系统中所有智能体生成决策动作。

3.根据权利要求1或2所述的基于强化组织控制的多智体系统自组织方法，其特征是，所述的组织控制网络包括：一个上采样层、五个卷积层和一个平均池化层，其中：上采样层将每个分拣机器人14×14的二维局部观测矩阵上采样到224×224大小，再经过64个7×7大小、步长为2的卷积核卷积后，得到112×112×64的特征图；经过3×3、步长为2的最大汇聚后，再经过两次64个3×3的卷积核卷积，得到56×56×64的特征图；再分别经过两次128个3×3的卷积核卷积、两次256个3×3的卷积核卷积以及两次256个3×3的卷积核卷积后，得到7×7×512的特征图，最后经过7×7的平均汇聚后，得到512维的特征向量；最后经过一层全连接神经网络后，得到2维的二元决策输出；

所述的多智体决策网络包括：一个上采样层、五个卷积层和一个平均池化层，其中：上采样层将多智体系统中每个分拣机器人14×14的二维局部观测矩阵拼接到一起，形成14×14×3的联合观测，若系统成员数目小于3，则用0补全；然后将联合观测上采样到224×224×3大小，再经过64个7×7大小、步长为2的卷积核卷积后，得到112×112×64的特征图；经过3×3、步长为2的最大汇聚后，再经过两次64个3×3的卷积核卷积，得到56×56×64的特征图；再分别经过两次128个3×3的卷积核卷积、两次256个3×3的卷积核卷积以及两次256个3×3的卷积核卷积后，得到7×7×512的特征图，最后经过7×7的平均汇聚后，得到512维的特征向量；最后经过一层全连接神经网络后，得到6维的每个智能体的决策动作输出。

4.根据权利要求1所述的基于强化组织控制的多智体系统自组织方法，其特征是，所述的组织控制损失

其中：

所述的决策损失，通过QMIX算法计算得到，具体为：

其中：

局部决策损失

所有智能体的联合决策损失

局部和全局之间满足

其中：

表示为每个智能体输出动作决策的多智体决策网络；

表示评估系统内联合动作决策的奖励函数，用以辅助多智体决策网络的训练；λ_QMIX＝0.01表示正实数超参，用以平衡两部分损失；γ＝0.99表示属于0到1之间的折扣因子，用以平衡短期收益以及长期收益。

5.一种实现权利要求1～4中任一所述方法的多智体系统自组织机构，其特征在于，包括：初始化单元、二元决策单元、图模型构建单元、组织控制单元、多智体决策单元和模型优化单元，其中：初始化单元构建并随机初始化组织控制网络以及多智体决策网络；二元决策单元将每个智能体的局部观测输入到组织控制网络接中，并输出每个智能体的动态组队策略，即是否与邻近智能体组成系统的二元决策；图模型构建单元根据组织控制网络输出的二元决策将整个多智体系统建模为一个图模型；组织控制单元利用传统图论算法找出图模型中所有弱连通分量，并根据弱连通分量将所有智能体分组，属于同一弱连通分量的智能体将被分到同一个系统中；多智体决策单元利用多智体决策网络根据每个系统的联合观测为所有智能体生成决策动作，并与环境进行交互得到每个智能体各自的奖励反馈，同时利用组织控制网络以及多智体决策网络根据每个智能体得到的奖励计算出组织控制损失及决策损失；模型优化单元根据多智体决策单元得到的组织控制以及决策损失，对组织控制网络、多智体决策网络以及联合决策评估函数的所有参数使用梯度反向传播算法进行更新。

6.根据权利要求5所述的多智体系统自组织机构，其特征是，所述的初始化单元包括：组织控制网络初始化单元、多智体决策网络初始化单元以及联合决策评估函数初始化单元，该三个单元分别根据组织控制网络、多智体决策网络以及联合决策评估函数的具体架构信息，采用Xavier方法分别对应进行参数初始化。

7.根据权利要求5所述的多智体系统自组织机构，其特征是，所述的组织控制单元包括：弱连通分量搜索单元以及分组单元，其中：弱连通分量搜索单元利用传统图论算法找出所述图模型中所有弱连通分量，分组单元根据搜索到的所有弱连通分量将所有智能体分组，属于同一弱连通分量的智能体将被分到同一个系统中。

8.根据权利要求5所述的多智体系统自组织机构，其特征是，所述的多智体决策单元包括：智体决策单元、环境交互单元以及损失计算单元，其中：智体决策单元使用多智体决策网络根据组织控制单元输出的每个系统的联合观测为所有智能体生成决策动作，环境交互单元将所有智能体的决策动作输入到仿真环境中，得到所有智能体更新后的状态以及环境反馈的奖励，最后，损失计算单元根据环境反馈的所有智能体的奖励计算组织控制以及决策损失。