CN111582469A

CN111582469A - 多智能体协作信息处理方法、系统、存储介质、智能终端

Info

Publication number: CN111582469A
Application number: CN202010211670.3A
Authority: CN
Inventors: 邹长杰; 郑皎凌; 张中雷
Original assignee: Chengdu University of Information Technology
Current assignee: Chengdu University of Information Technology
Priority date: 2020-03-23
Filing date: 2020-03-23
Publication date: 2020-08-25

Abstract

本发明属于人工智能技术领域，公开了一种多智能体协作信息处理方法、系统、存储介质、智能终端，每个agent在环境中每采取下一步行为在环境中留下自己的信息微量，当其它agent到达环境中状态时会先搜索周围的信息微量，把信息微量加入到神经网络中进行训练；分组模型找到多智能体之间更好的合作策略，分组模型使用多智能体之间的分组关系，预测出多智能体在下一时刻的最优分组；在每次经过G模型训练一回合结束时，把每个agent的损失函数公式看作适应度，统计每一回合智能体轨迹的损失值均值，汇总每一回合所有agent轨迹的损失值。本发明提高了多智能体的团队学习效率，实现多智能体能够团队协作更好的完成任务。

Description

多智能体协作信息处理方法、系统、存储介质、智能终端

技术领域

本发明属于人工智能技术领域，尤其涉及一种多智能体协作信息处理方法、系统、存储介质、智能终端。

背景技术

目前，多智能体协作是在实际应用的新课题，也是一项富有挑战意义的课题。a)如何让多智能体在更大和随机环境中仍然能够高效地学习是强化学习一直存在的挑战。强化学习中一些算法采用策略迭代方式训练智能体，可以泛化到更大尺寸的环境中，但是这种方式只能用在单智能体算法的优化上，在多智能体系统中，此种方式就没那么适用了。b)让多智能体能像人一样组队合作完成目标是一项新课题。深度强化学习使用异步框架来训练多智能体，每个智能体相对于其它智能体都是独立的，如果出现各个智能体分工不一样的情况，异步框架就不适用了。一些多智能体算法中智能体的交互是全连接，这样不仅增加算法复杂度更难应用到现实中。c)如何管理多智能体训练学习中的生和灭也是多智能体强化学习的一个难题。多智能体训练学习中，不管智能体学习的好和坏，每回合都会同时结束当前训练。因此，让学习好的智能体继续训练，学习差的智能体重新学习也是一项挑战。

现有技术缺点：

a)基于策略梯度的单智能体强化学习

强化学习分为两大类：有模型强化学习、无模型强化学习，其中无模型又可以分为基于值和基于策略。自从2015年引入强化学习以来，Q-learning、Sarsa和TD-lambda等算法成为强化学习的主流。Q-learing、Sarsa、TD-lambda都是无模型基于值迭代的算法，使用时间差分法TD，无需等待到终止时间才进行更新，而是在下一步行动前就可以进行估计的更新。与蒙特卡洛方法相比时间差分法TD会进行极大虽然估计，使得估计的结果更符合未来数据的趋势。深度强化学习(Deep Reinforcement Learning，DRL)，它将具有决策的强化学习和具有感知的深度学习相结合。最初，它被应用于视频游戏领域，随着深度强化学习的不断创新，它解决了越来越多的问题，如控制机器人，工厂智能机器人手臂，人脸识别，视频分析。DQN在Q-learning的改进下被提出来，它解决了Q-learning“纬度灾难”的问题。DQN做的三大改进为：使用经验重放和目标网络稳定基于DL的近似动作值函数；使用端到端方法，将CNN网络将原始图片和游戏得分作为输入，使得模型仅需较少的领域知识；训练出可变的网络，在多任务中具有良好的表现，有些实验结果还超越人类专业玩家。为了消除强化学习数据之间的强相关性，DQN使用均匀采样经验重放机制来训练神经网络，然而均匀采样方法忽略了不同经验的重要性程度，因此，提出了优先经验重放，利用TD error对智能体经验的重要性进行衡量和重放多次，进而提高学习效率。Hasselt等人^[7]在DQN基础上提出DoubleDQN算法，将动作选择和价值估计分开，避免价值过高估计。和上面所提到的基于值迭代算法不同的是，Policy Gradient算法往往采用的回合更新，也就是要到一轮结束后才能进行更新，这样在评估一个策略时通常效率较低。Actor-Critic结合Policy Gradient和TD算法，采用单步更新解决评估策略低效的问题。在AC算法的基础上DPG、A3C被提出来，其中A3C与DQN经验重放机制不同，采用并行训练方法打破了训练数据间的相关性。相比AC算法，A3C可大幅度提升算法的学习效率。和AC不同的是，DPG算法采用TD的方式降低方差，能更好地应用于off-policy。DDPG算法由DPG算法改进而来，其在输入上仅仅依赖状态空间，可以应对高维的输入，实现端对端的控制，还可以输出连续动作，使得深度强化学习方法可以应用于较为复杂动作空间和连续动作空间。TRPO结合Policy Gradient和蒙特卡洛方法，通过一步步改进梯度策略，提高算法的稳定性。PPO算法和TRPO算法近似，该算法更能适应大规模的运算，在实现的难易程度、采样复杂度、调试所需精力之间取得了新的平衡。尽管现有的单智能体算法很成熟，但是当任务变为多个智能体合作模式，就打破了单智能体算法的基本前提，环境变得非稳定性，单智能体算法算法就很难学习好策略。

b)基于策略梯度的多智能体强化学习

Mao等人结合AC算法和DL提出了通用的协作网络(ACCNet)，在部分观测的环境中从零学习agent之间的通信方式，从而减轻环境的非稳态性。提出平均场强化学习，它使用整体或邻近agent之间的平均相互作用来近似agent之间的相互作用，个人的最优策略取决于整体动态，而全局动态则根据个人策略集而改变，极大地简化了智能体数量带来的动作空间增大的问题。Lowe等人将DDPG方法扩展到多智能体强化学习中，通过观测对手行为然后进行学习，同时构建全局critic函数对全局状态动作进行评估，并训练一组agent策略提高算法的鲁棒性。提出一个基于参数共享的MADDPG算法(PS-MADDPG)，包括三种actor-critic共享组合架构：不同应用环境中的actor-critic网络都共享、actor网络共享和critic网络不共享、actor共享和critic部分共享，用于解决MADDPG算法可扩展性差的问题。通过确定agent之间交互的程度，即考虑agent是否应该同某一agent进行交互或者仅将其当作环境的一部分而不进行交互，这样将降低算法的复杂度。考虑多个agent在环境中感知和行动的问题，让agent在这些环境中学习通信协议，共享解决任务所需的信息，最大限度地提高它们的共享效用。在多智能体的设置下，AC算法往往会由于独立训练，导致信息共享不足，agent之间的协作能力较差，在COMA中引入centralised critic，将全局的信息传输到每个agent，从而提高每个agent对其他agent的信息的建模能力，以此给出解决这个问题的初步方案。多智能体系统同DRL的结合会带来一些问题：相对于单智能体系统，多智能体系统中单个agent策略会受到同一环境中其它agent的影响，导致难以制定较好的学习目标；随着agent数量的增加，策略输出的动作维度变大，动作空间呈现指数增长的趋势；多个agent的同步学习会使环境变得不稳定；智能体数量的增加更容易使得策略的学习陷入死循环，难以学会良好的策略。

c)群体智能技术在多智能体强化学习中的应用

多机器人系统强化学习算法提出一种多机器人意向行为结构，这种结构研究了每个机器人的行为能力和群体交互模式，兼顾整体利益和个人奖励，显著改善了传统的强化学习算法。讨论了多智能体强化学习领域中共享事件和共享策略的协调方法，并从强化学习的角度，分析了蚁群系统中多个agent间接通信的性能，利用信息素解决优化问题。结合强化学习和蚁群算法中的信息素，提出一种改进的蚁群算法，求取从第一层出发的蚁群到各层节点之间的路径，将各层中信息素最大的节点作为最终的故障诊断类别。大多数探索-开采策略都使用从单一模拟轨迹中提取的一些统计数据，而使用从一群蚂蚁群中获得的多个模拟轨迹中提取的一些统计信息，提出一种新的基于蚁群系统的强化学习开发策略，该策略保持了Q-learing的收敛性。等传统的蚁群优化算法都是人为地设定信息素的衰减量，这种方式放到多智能体系统中，agent就不智能了。

现有技术的技术方案MADDPG算法，在多智能体环境(Multiagent environments)中，智能体之间对资源的恶性竞争现象无疑是通往通用人工智能(Artificial generalintelligence，AGI)路上的一块绊脚石。多智能体环境具有两大实用的特性：首先，它提供了一个原生的课程(Natural curriculum)——这里环境的困难程度取决于竞争对手的能力(而如果你是与自身的克隆进行竞争，则该环境与你的能力等级是相当匹配的)；其次，多智能体环境不具有稳定的平衡：因为无论智能体多么聪明，总是存在着更大压力使得它更加聪明。这些环境与传统环境有着非常大的不同，因此还有更多的研究有待进行。来自OpenAI的研究员发明了一种新算法——MADDPG。该算法适用于多智能体环境下的集中式学习(Centralized learning)和分散式执行(Decentralized execution)，并且允许智能体之间学会协作与竞争。该算法将模拟中的每个智能体视为一个“Actor”，并且每个Actor将从“Critic”那儿获得建议，这些建议可以帮助Actor在训练过程中决定哪些行为是需要加强的。通常而言，Critic试图预测在某一特定状态下的行动所带来的价值(比如，期望能够获得的奖励)，而这一价值将被智能体(Actor)用于更新它的行动策略。这么做比起直接使用奖励来的更加稳定，因为直接使用奖励可能出现较大的差异变动。另外，为了使训练按全局协调方式行动的多个智能体(Multiple agents that can act in a globally-coordinated way)变得可行，OpenAI的研究员还增强了Critic的级别，以便于它们可以获取所有智能体的行为和观察，传统的分散式增强学习(Descentralized reinforcementlearning)方法，比如DDPG，actor-critic learning，deep Q-learning等等，在多智能体环境下的学习总是显得很挣扎，这是因为在每个步骤中，每个智能体都将尝试学习预测其它智能体的行动，并且同时还要采取自己的行动，这在竞争的情况下尤为如此。MADDPG启用了一个集中式Critic来向智能体提供同类代理的观察和潜在行为的信息，从而将一个不可预测的环境转换成可以预测的环境。当前，梯度策略方法(Policy gradient methods)面临着更多的挑战。因为当奖励不一致的时候，这些方法很难得到正确的策略，并且表现出了高度的差异。另外研究员还发现，加入了Critic之后虽然提高了稳定性，但是依然无法解决多个环境之间诸如交流合作的问题。并且对于学习合作策略问题，在训练过程中综合考虑其它智能体的行为似乎是非常重要的。一个智能体(agent)以及智能体环境中的当前状态为S，经过行为a通过状态转移函数获得下一步状态为5′，每一步的回报值为r，agent_i的观测值O：O＝{agent_i在环境中的状态，其它agent的状态}agent_i通过确定性行为策略μ_θ选择行为：

所有agent每一步经验(S，a，r，S′)都存放到经验库D中，done表示是否agent完成目标，完成done是1，反之为0，D＝(S，a，r，S′，done)。MADDPG算法中每个agent从环境中获取观测值，使用把观测值放到Actor网络中学习出下一步行为，状态-行为通过环境反馈获得回报值，算法将(S，a，r，5′)存放经验库，随机抽取经验通过梯度下降法训练神经网络。

但是该技术存在以下缺点：

a)很难让多智能体能像人一样组队合作完成目标。深度强化学习使用异步框架来训练多智能体，每个智能体相对于其它智能体都是独立的，如果出现各个智能体分工不一样的情况，异步框架就不适用了。MADDPG多智能体算法中智能体的交互是全连接，这样不仅增加算法复杂度更难应用到现实中。使用了集中训练，分散执行框架，在训练过程中实现了多智能体之间的交流合作策略，在复杂的现实世界让所有人都产生交集是不可能的，同时也会增加计算机的负担，因此如何让多智能体之间互相选择队友学习也是一个挑战。

b)很难让多智能体在更大和随机环境中仍然能够高效地学习。强化学习中一些算法采用策略迭代方式训练智能体，可以泛化到更大尺寸的环境中，但是这种方式只能用在单智能体算法的优化上，在多智能体系统中这些算法显得没那么适应了。

c)难以让多智能体训练学习中遗传好的学习经验。多智能体训练学习中，不管智能体学习的好和坏，每回合都会同时结束当前训练。因此，让学习好的智能体继续训练，学习差的智能体重新学习也是一项挑战。

综上所述，现有技术存在的问题是：

(1)现有技术的智能体学习效率不快、也不适用于随机变化环境的问题。

(2)现有技术的多智能体很难像人类一样自己选择分组完成目标问题，MADDPG中让所有智能体的交互都是全连接的，增加算法的收敛时间，甚至难以收敛，出现分工合作的场景效果就不好。

(3)传统算法中多智能体在训练时每回合都会从零开始，算法结束训练的条件是找到目标或者达到最大步长，训练时间就会变得很大。还有些agent在训练中进入了死胡同，学习的就很慢。

解决上述技术问题的难度：环境规模越大，智能体的探索就越花费更多时间，同时也容易进入死循环，因此导致智能体无法学习高效的策略。如果智能体的数量增多，多智能体算法中很容易出现维度爆炸，难以训练。在每次训练的过程中都要采用额外的评估指标评估智能体的训练情况。

解决上述技术问题的意义：现实世界是复杂的，让多智能体能适应更大更复杂的环境，这样就可以把这些算法应用到现实世界中，比如城市交通中去控制大规模的车流量。同样的解决了上述技术问题可以提高多智能体算法的学习效率，能够实现在短时间内高效完成任务。能更好的实现如下场景：

a)城市车辆路径规划。当城市中出现大数量的车辆时，为了减少整体城市交通拥堵时间，使用深度多智能体强化学习为每个车辆推荐出最优行进路线，确保交通顺畅。

b)出租车调度。分析城市出租车的地理位置分布和在某个时刻人流数量分布，采用深度多智能体强化学习为不同地理位置的出租车制定目标和路径，整体上实现最大化出租车资源利用。

c)无人驾驶。当使用无人驾驶决策控制汽车的行为时，采用多智能体强化学习技术研究出自适应的合作交流通讯系统来应对驾驶环境中出现的各种突发情况。

发明内容

针对现有技术存在的问题，本发明提供了一种多智能体协作信息处理方法、系统、存储介质、智能终端。

本发明是这样实现的，一种多智能体协作信息处理方法，所述多智能体协作信息处理方法包括以下步骤：

第一步，每个agent在环境中每采取下一步行为在环境中留下自己的信息微量，当其它agent到达环境中这个状态时会先搜索周围的信息微量，把信息微量加入到神经网络中进行训练；

第二步，分组模型找到多智能体之间更好的合作策略，分组模型使用RNN网络设计出多智能体之间的分组关系，称为G模型，并且通过G模型能够预测出多智能体在下一时刻的最优分组；

第三步，在每次经过G模型训练一回合结束时，把每个agent的损失函数公式看作适应度，统计每一回合智能体轨迹的损失值均值，汇总每一回合所有agent轨迹的损失值，最后使用生灭过程遗传信息给下一代agent。

进一步，所述第一步每个agent在环境中每采取下一步行为在环境中留下自己的信息微量，当其它agent到达环境中这个状态时会先搜索周围的信息微量，把信息微量加入到神经网络中进行训练具体包括：智能体agent_i的信息微量X_i，信息微量用x表示，X＝R^n×n到其中n×n表示环境大小；

x′_i＝x_i+Δs；

Agent_i每到达下一个状态都会更新信息微量表中对应状态的数量值，Δs表示agent_i到达对应状态记为1，否则记为0；所有agent信息微量汇总方式如下：

x_all＝λ₁x₁+λ₂x₂+…+λ_nx_n；

λ_i是x_i的权重，如果agent_i在一回合内完成目标，那么信息微量x_i就是正反馈λ_i＝1，反之λ_i＝-1；每回合结束后环境中的信息微量汇总x_all，对汇总表x_all的信息微量进行归一化，

两个智能体agent₁和agent₂，x₁和x₂过程如下：

x₁+x₂＝x_all；

得到x_all后对其归一化，当agent_i到达x_all中某一状态是获取周围4个方向的信息微量数值，放到actor中训练，在训练过程中agent_i利用这四个数值优化行为策略，在学习过程中agent_i会朝信息微量相对多的方向行动的概率会增大。

进一步，所述第二步组队策略G_t，使用分组模型找到多智能体之间更好的合作策略，分组模型使用RNN网络设计出多智能体之间的分组关系，称为G模型，并且通过G模型能够预测出多智能体在下一时刻的最优分组；

每个agent通过自己的Actor网络选出下一步行为a，通过Critic网络更新Actor策略。经过G模型的组队，agent₁和agent₃组队训练Critic1网络，agent₂和agent₁、agent₃组队训练Critic2网络，agent₃和agent₂组队训练Critic3网络用有向图表示agent组队。

进一步，所述G_t定义；多智能体分组模型G_t＝R^n×n，其中n表示智能体的个数：

G表示一个n×n的所有智能体组队矩阵，G_t表示t时刻的组队矩阵，用矩阵存储多智能体的组队情况，agent不能和自己连接，G_t(i)表示t时刻agent_i和其它智能体的组队情况：

G_t(3)＝{1，1，0}。

进一步，通过G_t预测G_t+1，通过G_t构造拟合模型，将G_t输入该模型，得到G_t+1。

进一步包括：

第一步：基于G_t构造训练集D_train；D_train分为两部分F_train和L_train，RNN网络中F_train是自变量，L_train是因变量，F_train的构造：缓存每一步agent_i的经验：buffer＝(S，x，a，r，S′，done)，agent_i的所有经验都会存放到经验库D_i中，D_i＝{buffer_i，1，buffer_i，2，...，buffer_i，t}，D存放N条经验，但存满后新来的经验会替换掉最早缓存的经验；根据t-1时刻的组队情况把经验拼接构造成F_train；agent₃和智能体agent₁、agent₂组队共享经验，组队经验拼接到一起，L_train的构造：根据F_train中两条经验中如果有任何一条经验完成任务done是true，那么L_train设为1，只有done都是false，L_train才是0；

agent₃和智能体agent₁、agent₂组队共享经验，依次构造F_train，L_train，在训练网络时，buffer里的数据当作特征，特征一批一批输入到网络中，通过预测结果和真实结果差距反向传播，更新网络权重；

第二步：基于RNN构造训练模型，通过RNN网络训练预测模型，RNN网络的损失函数l定义，通过交叉熵损失函数最小化预测结果和完成任务之间的差距，RNN输入的是(F_{train_i}，L_{train_i})；

第三步：基于G_t构造预测集D_test，三个agent，agent₃和agent₁构造出2条数据集；

第四步：基于G_t预测G_t+1，通过所有预测的结果来构造t+1时刻组队矩阵G_t+1：

G_t中第3行agent₃和agent₁、agent₂组队，预测结果为agent₃和agent₁较好，RNN模型预测是一条一条预测的，当所有智能体组队预测完成后把结果组成G_t+1矩阵。

进一步，所述G模型的更新函数有N个循环神经网络生成算法如下：

输入：t时刻分组矩阵

输出：t+1时刻分组矩阵

步骤一：.初始化损失值1；

步骤二：根据分组矩阵构造训练集和测试集；

步骤三：使用RNN网络计算损失函数；

步骤四：每回合都执行步骤二-步骤三，直到训练结果达到评估指标。

进一步，所述第三步统计每一回合agent_i轨迹的损失值均值L(Θ_i)_mean：

L(Θ_i)_mean＝E(L(Θ_i)₁+L(Θ_i)₂+…+L(Θ_i)_step)；

汇总每一回合所有agent轨迹的损失值∑L(Θ)：

∑L(Θ)＝L(Θ₁)_mean+…+L(Θ_n)_mean；

∑L(Θ)为所有agent损失轨迹总和，agent_i生灭的概率公式如下：

p(i)越大agent_i生的概率越大反之越小，选出适应度较高的agent衍生出下个子代，子代将会继承父亲的状态、信息微量表：

agent_i_alive＝(S_new，x_new)；

(S→S_new，x→x_new)；

其它适应度不好的agent就会死亡而且会回到初始状态，只继承父亲的神经网络参数和经验库，定义如下：

aagent_i_death＝(S_new，x_new)；

(S_initial→S_new，x_initial→x_new)。

进一步包括：

输入：所有智能体的状态，经验库；

输出：所有智能体的新状态和新信息微量表；

步骤一：初始化所有智能体的状态，信息微量；

步骤二：每个回合都收集每个智能体网络的损失值；

步骤三：对每个智能体的损失值加权求和，计算智能体的存活概率；

步骤四：更新所有智能体的状态和信息微量表。

本发明的另一目的在于提供一种实施所述多智能体协作信息处理方法的多智能体协作信息处理系统，所述多智能体协作信息处理系统包括：

神经网络训练模块，用于实现每个agent在环境中每采取下一步行为在环境中留下自己的信息微量，当其它agent到达环境中这个状态时会先搜索周围的信息微量，把信息微量加入到神经网络中进行训练；

多智能体最优分组预测模块，用于分组模型找到多智能体之间更好的合作策略，分组模型使用RNN网络设计出多智能体之间的分组关系，称为G模型，并且通过G模型能够预测出多智能体在下一时刻的最优分组；

损失值获取模块，用于在每次经过G模型训练一回合结束时，把每个agent的损失函数公式看作适应度，统计每一回合智能体轨迹的损失值均值，汇总每一回合所有agent轨迹的损失值。

本发明的另一目的在于提供一种接收用户输入程序存储介质，所存储的计算机程序使电子设备执行权利要求任意一项所述包括下列步骤：

第三步，在每次经过G模型训练一回合结束时，把每个agent的损失函数公式看作适应度，统计每一回合智能体轨迹的损失值均值，汇总每一回合所有agent轨迹的损失值。

本发明的另一目的在于提供一种实现所述多智能体协作信息处理方法的智能终端。

综上所述，本发明的优点及积极效果为：本发明针对现有技术的算法智能体学习效率不快、也不适用于随机变化环境的问题，受到蚁群算法启发，使每个智能体行动后留下自己的信息素，随着时间推移这些多智能体将学会如何加重好的信息素和衰减不好的信息素。通过增加多智能体之间的交互，智能体就会一步步优化自己的策略。即使环境发生变化，智能体也能根据已学的策略很好地完成目标。希望agent能像蚁群那样具有群体协作智慧，比如蚁群“感受”到适合度景观山脉上的梯度，它们试图向山上攀爬并努力到达局部或整个山脉的最高峰。如果让所有agent都不共享经验，那么多智能体就会像单智能体那样只能完成单一的任务。加入信息微量共享策略是让多智能体能更快的完成合作任务。信息微量可以弥补分组带来的所有智能体无法共享信息的问题，每个agent在环境中每采取下一步行为在环境中留下自己的信息微量，当其它agent到达环境中这个状态时会先搜索周围的信息微量，把这些信息微量加入到神经网络中进行训练，因此间接的让多智能体共享信息微量经验，agent学习别人走过的路这样就不会绕更多弯路。

本发明针对现有技术的多智能体很难像人类一样自己选择分组完成目标问题，MADDPG中让所有智能体的交互都是全连接的，会增加算法的收敛时间，甚至难以收敛，出现分工合作的场景效果就不好。本发明使用一种预测模型让多智能体在训练期间学会组队，选择要学习的同伴，而不是单一地学习离它最近或者其它所有智能体。组队策略不仅解决了多智能体因数量过多交互变得复杂的问题，而且还将节省计算机的运行时耗。提出了分组模型来找到多智能体之间更好的合作策略。分组模型使用RNN网络设计出一种多智能体之间的分组关系，称为G模型，并且通过G模型能够预测出多智能体在下一时刻的最优分组。

本发明针对现有技术的传统算法中多智能体在训练时每回合都会从零开始的问题，采用生灭过程实现多智能体的后代遗传。在考虑一个群体的出生和死亡过程时，假设在一个规模为n的群体中有两种类型的个体A和B，它们具有相同的生育率和死亡率。在任何时间点，随机选择逐个进行繁殖，然后随机选择逐个进行死亡。本发明设计允许多智能体训练在每个回合结束时可以选择生或者灭，且生灭的遗传信息是不一样的。传统的算法结束训练的条件是找到目标或者达到最大步长。这种方法并不是最优，因为有些agent下一步就能完成目标，结果因为每回合步长限制又要重新回到初始点，这样训练时间就会变得很大。还有些agent在训练中进入了死胡同，学习的就很慢。进入死胡同的agent最好的选择就是早点死亡回到初始点开始训练。基于以上分析，本发明设计出一种科学的agent生灭训练。在每一回合结束后把学习好的智能体的经验遗传给后代，这样后代就不需要每次从头开始学习，将节省更多时间。

目前大部分多智能体强化学习算法都是采用集中学习，分散行动的策略，即所有智能体在训练时可以同时获得所有其他智能体的信息，这样的学习框架不仅会增加算法的收敛时间，同时也可能导致算法无法收敛。为了加快多智能体的集体学习时间，本发明提出了多智能体的分组学习策略，A模型是多智能体训练过程中加入了信息微量，使用信息微量来加快策略收敛时间。G部分从环境中获取多智能体当前的组队情况，使用神经网络预测t+1时刻多智能体的组队情况。ED模型是在每回合结束时通过生灭过程ED遗传经验。通过使用循环神经网络预测出多智能体的分组矩阵，通过在分组内部共享智能体之间经验的机制，提高了多智能体的团队学习效率。同时，为了弥补分组带来的所有智能体无法共享信息的问题，提出了信息微量的概念来在所有智能体之间传递部分全局信息；为了加强分组内部优秀经验的留存，提出了推迟组内优秀智能体死亡时间的生灭过程。最终目的是实现多智能体能够团队协作更好的完成任务。

附图说明

图1是本发明实施例提供的多智能体协作信息处理方法流程图。

图2是本发明实施例提供的4×4迷宫示意图。

图3是本发明实施例提供的基于G模型的分组训练过程图。

图4是本发明实施例提供的G模型的预测过程图。

图5是本发明实施例提供的F_train，L_train构造案例示意图。

图6是本发明实施例提供的F_{test_i}构造案例示意图。

图7是本发明实施例提供的信息微量示意图。

图8是本发明实施例提供的夺旗实验结果图；

图中：(a)8x8迷宫迭代次数对应的平均回报；(b)16x16迷宫迭代次数对应的平均回报；(c)32x32迷宫迭代次数对应的平均回报；(d)64x64迷宫迭代次数对应的平均回报；(e)80x80迷宫迭代次数对应的平均回报。

图9是本发明实施例提供的迷宫实验结果图；

图中：(a)10x10夺旗实验迭代次数对应的平均回报；(b)17x17夺旗实验迭代次数对应的平均回报；(c)33x33夺旗实验迭代次数对应的平均回报。

图10是本发明实施例提供的多智能体捕猎图。

图11是本发明实施例提供的捕猎实验结果图。

图12是本发明实施例提供的GAED-MADDPG算法框架示意图。

图13是本发明实施例提供的实施例的原理示意图。

图14是本发明实施例提供的把行车轨迹OD热力图。

图15是本发明实施例提供的使用GAED-MADDPG算法优化行车轨迹OD热力图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

针对现有技术存在的问题，本发明提供了一种多智能体协作信息处理方法，下面结合附图对本发明作详细的描述。

如图1所示，本发明实施例提供的多智能体协作信息处理方法包括以下步骤：

S101：每个agent在环境中每采取下一步行为在环境中留下自己的信息微量，当其它agent到达环境中这个状态时会先搜索周围的信息微量，把信息微量加入到神经网络中进行训练；

S102：分组模型找到多智能体之间更好的合作策略，分组模型使用RNN网络设计出多智能体之间的分组关系，称为G模型，并且通过G模型能够预测出多智能体在下一时刻的最优分组；

S103：在每次经过G模型训练一回合结束时，把每个agent的损失函数公式看作适应度，统计每一回合agent_i轨迹的损失值均值，汇总每一回合所有agent轨迹的损失值。

下面结合附图对本发明的技术方案作进一步的描述。

1、基于信息微量优化Actor网络

本发明受到蚂蚁群体行为的启发，希望agent能像蚁群那样具有群体协作智慧，比如蚁群“感受”到适合度景观山脉上的梯度，它们试图向山上攀爬并努力到达局部或整个山脉的最高峰。如果让所有agent都不共享经验，那么多智能体就会像单智能体那样只能完成单一的任务。加入信息微量共享策略是让多智能体能更快的完成合作任务。信息微量可以弥补分组带来的所有智能体无法共享信息的问题，每个agent在环境中每采取下一步行为在环境中留下自己的信息微量，当其它agent到达环境中这个状态时会先搜索周围的信息微量，把这些信息微量加入到神经网络中进行训练，因此间接的让多智能体共享信息微量经验，agent学习别人走过的路这样就不会绕更多弯路。

下面给出多智能体协作信息微量的详细定义。

定义1：智能体agent_i的信息微量X_i，信息微量用x表示。X＝R^n×n到其中n×n表示环境大小。

x′_i＝x_i+Δs；

Agent_i每到达下一个状态都会更新信息微量表中对应状态的数量值，Δs表示agent_i到达对应状态记为1，否则记为0。所有agent信息微量汇总方式如下：

x_all＝λ₁x₁+λ₂x₂+…+λ_nx_n；

λ_i是x_i的权重，如果agent_i在一回合内完成目标，那么信息微量x_i就是正反馈λ_i＝1，反之λ_i＝-1。每回合结束后环境中的信息微量就会汇总x_all。对汇总表x_all的信息微量进行归一化。

如图2所示，设有4*4的迷宫，如迷宫中有两个智能体，红色agent₁和蓝色agent₂，黑色是障碍物，黄色球是终点，则x₁和x₂过程如下：

x₁+x₂＝x_all；

得到x_all后对其归一化，当agent_i到达x_all中某一状态是获取周围4个方向的信息微量数值，放到actor中训练，在训练过程中agent_i就会利用这四个数值优化行为策略。在学习过程中agent_i会朝信息微量相对多的方向行动的概率会增大。

2、基于分组策略优化Critic网络

a)组队策略G_t

MADDPG中让所有智能体的交互都是全连接的，这样就会增加算法的收敛时间，甚至难以收敛，出现分工合作的场景效果就不好。本发明提出了分组模型来找到多智能体之间更好的合作策略。分组模型使用RNN网络设计出一种多智能体之间的分组关系，称为G模型，并且通过G模型能够预测出多智能体在下一时刻的最优分组。

图3中每个agent通过自己的Actor网络选出下一步行为a，通过Critic网络更新Actor策略。经过G模型的组队，agent₁和agent₃组队训练Critic1网络，agent₂和agent₁、agent₃组队训练Critic2网络，agent₃和agent₂组队训练Critic3网络用有向图表示agent组队。

下面给出G_t的详细定义。

定义2：多智能体分组模型G_t＝R^n×n，其中n表示智能体的个数：

G表示一个n×n的所有智能体组队矩阵，G_t表示t时刻的组队矩阵，用矩阵存储多智能体的组队情况，agent不能和自己连接。根据定义2可知，G_t(i)表示t时刻agent_i和其它智能体的组队情况，例如：

G_t(3)＝{1，1，0}；

b)基于RNN预测G_t+1；

如图4所示，本发明通过G_t来预测G_t+1，显然，该过程是一个拟合过程，即通过G_t构造拟合模型，然后将G_t输入该模型，得到G_t+1.整个过程分为以下四步；

第一步：基于G_t构造训练集D_train；

D_train分为两部分F_train和L_train，RNN网络中F_train是自变量，L_train是因变量。F_train的构造：缓存每一步agent_i的经验：buffer＝(S，x，a，r，S′，done)。agent_i的所有经验都会存放到经验库D_i中，D_i＝{buffer_i，1，buffer_i，2，...，buffer_i，t}，D可以存放N条经验，但存满后新来的经验会替换掉最早缓存的经验。根据t-1时刻的组队情况把经验拼接构造成F_train。图4中agent₃和智能体agent₁、agent₂组队共享经验，因此组队经验拼接到一起。L_train的构造：根据F_train中两条经验中如果有任何一条经验完成任务done是true，那么L_train设为1，只有done都是false，L_train才是0。图4中buffer_3，1和buffer_1，1中都没有完成目标的记录，因此L_train是0。

图5中agent₃和智能体agent₁、agent₂组队共享经验，依次构造F_train，L_train。在训练网络时，buffer里的数据当作特征，这些特征一批一批输入到网络中，最后通过预测结果和真实结果差距反向传播，更新网络权重。

第二步：基于RNN构造训练模型

本发明通过RNN网络训练预测模型，RNN网络的损失函数l定义为公式(9)，通过交叉熵损失函数最小化预测结果和完成任务之间的差距，RNN输入的是(F_{train_i}，L_{train_i})。

第三步：基于G_t构造预测集D_test

图6中表示三个agent，agent₃和agent₁，agent₂构造F_{test_i}过程，如右边所示，三个agent最新的一条经验可以构造出2条数据集。

第四步：基于G_t预测G_t+1

本发明通过所有预测的结果来构造t+1时刻组队矩阵G_t+1，如：

G_t中第3行agent₃和agent₁、agent₂组队，预测结果为agent₃和agent₁较好。RNN模型预测是一条一条预测的，当所有智能体组队预测完成后把结果组成G_t+1矩阵。

G模型的更新函数有N个循环神经网络生成。算法如下：

算法1 G模型算法

输入：t时刻分组矩阵

输出：t+1时刻分组矩阵

步骤一：初始化损失值1；

步骤二：根据分组矩阵构造训练集和测试集；

步骤三：使用RNN网络计算损失函数；

3、多智能体生灭训练

针对即强化学习中不管智能体学习的好坏每一回合结束后就会从头开始训练，本发明提出了多智能体的生灭训练ED(multi-agent Explode and Deracinate training)。

在考虑一个群体的出生和死亡过程时，假设在一个规模为n的群体中有两种类型的个体A和B，它们具有相同的生育率和死亡率。在任何时间点，随机选择逐个进行繁殖，然后随机选择逐个进行死亡。本发明设计允许多智能体训练在每个回合结束时可以选择生或者灭，且生灭的遗传信息是不一样的。传统的算法结束训练的条件是找到目标或者达到最大步长。这种方法并不是最优，因为有些agent下一步就能完成目标，结果因为每回合步长限制又要重新回到初始点，这样训练时间就会变得很大。还有些agent在训练中进入了死胡同，学习的就很慢。进入死胡同的agent最好的选择就是早点死亡回到初始点开始训练。基于以上分析，本发明设计出一种科学的agent生灭训练。

ED让收益高的agent继续探索下去，让收益不好的agent重新探索，总体减少了agent探索未知世界的时间。该算法在每次经过G模型训练一回合结束时，把每个agent的损失函数公式(7)看作适应度，然后统计每一回合agent_i轨迹的损失值均值L(Θ_i)_mean：

L(Θ_i)_mean＝E(L(Θ_i)₁+L(Θ_i)₂+…+L(Θ_i)_step)；

汇总每一回合所有agent轨迹的损失值∑L(Θ)：

∑L(Θ)＝L(Θ₁)_mean+…+L(Θ_n)_mean；

agent_i_alive＝(S_new，x_new)；

(S→S_new，x→x_new)；

agent-i_death＝(S_new，x_new)；

(S_initial→S_new，x_initial→x_new)；

使用ED算法可以缩短agent学习策略的时间，加快算法收敛。随着agent不断的繁衍使得后代适应环境的能力不断提高。

算法2 ED-MADDPG模型算法

输入：所有智能体的状态，经验库；

输出：所有智能体的新状态和新信息微量表；

步骤一：初始化所有智能体的状态，信息微量；

步骤二：每个回合都收集每个智能体网络的损失值；

步骤四：更新所有智能体的状态和信息微量表。

下面结合实验对本发明的技术效果作详细的描述。

1、实验

本发明设计了不同数量agent和不同规模的迷宫实验、占领高地夺旗实验和多智能体追捕实验，还设计了五组算法对比实验：GAED-MADDPG、MADDPG[LOWE，RYAN，YI WU etal.Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments[J].NIPS，2017：6379-6390]、DQN[MNIH，VOLODYMYR et al.Human-level control throughdeep reinforcement learning[J].Nature518，2015：529-533]、A3C[MNIH，VOLODYMYR etal.Asynchronous Methods for Deep Reinforcement Learning[C].ICML，2016：1928-1937]、MVPROP Nardelli N Gabriel S，Lin Zeming，et al.Value Propagation Networks[J].ArXiv abs，2018：11199.

2、迷宫实验分析

本发明共实验了40个不同的迷宫实验。迷宫的实验规模包括8x8、16x16、32x32、64x64、80x80。依据实验的随机性分为两类：一种是在迷宫中多智能体出发点都在左上角，终点离它们最远右下角；另一种实验是多智能体初始位置随机，终点在右下角。实验中用到智能体个数有：3个、4个、8个、10个。在各个实验中，智能体完全不知道目标的位置，它们自己学会分组协作更新策略，它们中任何一个智能体找到目的地就表示团队的胜利。因此，在训练过程中这些智能体为了胜利会尽可能地分散开来，争取为同伴留下有用的信息微量，多智能体表现出来的智慧是有时候即使牺牲自己也要让团队胜利。在训练的过程中周围的墙也是随机产生的，结果测试表明，随机变化的墙也不能阻挡它们快速找到目的地。本发明也实验了64x64，80x80规模的迷宫，结果体现多智能体都能很快完成任务。如下是8x8、16x16、32x32、64x64、80x80，3个智能体组成的5个实验的平均回报图。如图7所示每个agent后面的路径点就是留下的信息微量。

图7为迷宫中所有回合结束后信息微量汇总的可视化，黄色球是起点位置，红色球是终点位置，图中高度越高表示信息微量越多。图8的(a)(b)(c)(d)(e)共实验了五种算法的对比结果，分别显示不同规模下算法迭代次数所对应的回报值。

为了验证GAED-MAPDDPG算法的高效性，算法的对比实验结果如下表。

表1迷宫实验收敛回合数结果

表2迷宫实验成功率结果

表1、表2表明GAED-MADDPG算法的成功率和收敛效率在规模较大且更复杂环境中更加突出。

3、占领夺旗实验与分析

本发明共实验了3个不同的占领夺旗实验。实验规模包括10x10、17x17和33x33，两个旗帜，2个智能体。它们之间的规则很简单，只需要占领到高地后把高地的旗帜拿走，所有的旗帜都拿完就代表了团队的胜利。其中的绿色方块表示高地黑色方块表示障碍物，好的智能体团队合作是两个智能体分别行动到不同的高地去夺旗，让团队收益最大化。图9所示为3个实验的团体回报图。

表3夺旗实验收敛回合数结果

表4夺旗实验成功率结果

结果显示，GAED-MADDPG算法的在10×10环境中750回合收敛，在17×17中1100回合收敛，33×33中1400回合收敛，而且三种实验的成功率都是100％。在33×33环境中本发明的算法收敛回合数1400，比MADDPG算法少。

4、追踪捕猎实验与分析

本发明设计的追踪捕猎实验包括8个智能体，其中3个蓝色智能体是猎物，5个红色智能体是捕猎者。其中，猎物在环境中随机游走，移动速度是捕猎者的二倍，5个捕猎者一起合作围捕3个猎物。

图10中t-1时刻五个红色智能体一同出发，t时刻是红色智能体开始分开追捕蓝色智能体，t+1时刻红色智能体分两组围捕蓝色智能体，表明智能体学会了分组合作快速完成目标。图11中是五种算法的结果对比GAED-MAPDDPG实验在进行2700回合后多智能体变得相对稳定，而MADDPG需要3500回合收敛，其它算法最终都无法收敛，无法稳定抓住目标。GAED-MADDPG算法在实验中由于学会了组队群体协作策略进而很好地完成了任务。本发明算法在规模8×8，16×16，32×32，64×64，80×80迷宫实验中的收敛时间均少于其它四种算法，并且在更大环境中agent依然可以很好的完成任务，本发明算法比其它算法收敛时间平均少12％。在夺旗实验中其它算法中因为出现多个目标，因此DQN、A3C、MVPROP算法无法稳定的完成任务，本发明算法可以完成任务且比其它算法收敛时间平均少17％。在在捕猎实验中，目标一直不断移动，只有GAED-MADDPG算法能够运用分组围捕的策略完成任务，相比其它算法，GAED-MADDPG训练2700回合就可以学会策略。环境变得复杂时更能体现出本发明算法的优势。未来希望有更多的人来检验GAED-MADDPG，也希望其应用到更多地方。

下面结合具体实施例对本发明的技术方案作进一步的描述。

实施例1，城市规划。当城市中出现大数量的车辆时，为了减少整体城市交通拥堵时间，使用深度多智能体强化学习为每个车辆推荐出最优行进路线，确保交通顺畅。优化公交车路线，优化交通灯控制。如图13所示。

第一步：构建绵阳市路网。

第二步：把行车轨迹OD分析。行车轨迹映射到路网上。

第三步：基于卡口数据的绵阳市机动车出行时空规律分析系统。

第四步：把行车轨迹OD热力图，如图14所示。

第五步：使用GAED-MADDPG算法找出最优交通组织方案，如图15所示。

应当注意，本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现；软件部分可以存储在存储器中，由适当的指令执行系统，例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现，例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以用由各种类型的处理器执行的软件实现，也可以由上述硬件电路和软件的结合例如固件来实现。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种多智能体协作信息处理方法，其特征在于，所述多智能体协作信息处理方法包括以下步骤：

2.如权利要求1所述的多智能体协作信息处理方法，其特征在于，所述第一步每个agent在环境中每采取下一步行为在环境中留下自己的信息微量，当其它agent到达环境中这个状态时会先搜索周围的信息微量，把信息微量加入到神经网络中进行训练具体包括：智能体agent_i的信息微量X_i，信息微量用x表示，X＝R^n×n到其中n×n表示环境大小；

x′_i＝x_i+Δs；

x_all＝λ₁x₁+λ₂x₂+…+λ_nx_n；

两个智能体agent₁和agent₂，x₁和x₂过程如下：

x₁+x₂＝x_all；

3.如权利要求1所述的多智能体协作信息处理方法，其特征在于，所述第二步组队策略G_t，使用分组模型找到多智能体之间更好的合作策略，分组模型使用RNN网络设计出多智能体之间的分组关系，称为G模型，并且通过G模型能够预测出多智能体在下一时刻的最优分组；

每个agent通过自己的Actor网络选出下一步行为a，通过Critic网络更新Actor策略，经过G模型的组队，agent₁和agent₃组队训练Critic1网络，agent₂和agent₁、agent₃组队训练Critic2网络，agent₃和agent₂组队训练Critic3网络用有向图表示agent组队。

4.如权利要求3所述的多智能体协作信息处理方法，其特征在于，所述G_t定义；多智能体分组模型G_t＝R^n×n，其中n表示智能体的个数：

5.如权利要求3所述的多智能体协作信息处理方法，其特征在于，通过G_t预测G_t+1，通过G_t构造拟合模型，将G_t输入该模型，得到G_t+1。

6.如权利要求5所述的多智能体协作信息处理方法，其特征在于，进一步包括：

第一步：基于G_t构造训练集D_train；D_train分为两部分F_train和L_train，RNN网络中F_train是自变量，L_train是因变量，F_train的构造：缓存每一步agent_i的经验：buffer＝(S，x，a，r，S′，done)，agent_i的所有经验都会存放到经验库D_i中，D_i＝{buffer_i.1，buffer_i.2，...，buffer_i.t}，D存放N条经验，但存满后新来的经验会替换掉最早缓存的经验；根据t-1时刻的组队情况把经验拼接构造成F_train；agent₃和智能体agent₁、agent₂组队共享经验，组队经验拼接到一起，L_train的构造：根据F_train中两条经验中如果有任何一条经验完成任务done是true，那么L_train设为1，只有done都是false，L_train才是0；

G_t中第3行agent₃和agent₁、agent₂组队，预测结果为agent₃和agent₁较好，RNN模型预测是一条一条预测的，当所有智能体组队预测完成后把结果组成G_t+1矩阵；

所述G模型的更新函数有N个循环神经网络生成算法如下：

输入：t时刻分组矩阵

输出：t+1时刻分组矩阵

步骤一：初始化损失值1；

步骤二：根据分组矩阵构造训练集和测试集；

步骤三：使用RNN网络计算损失函数；

7.如权利要求1所述的多智能体协作信息处理方法，其特征在于，所述第三步统计每一回合agent_i轨迹的损失值均值L(Θ_i)_mean：

L(Θ_i)_mean＝E(L(Θ_i)₁+L(Θ_i)₂+…+L(Θ_i)_step)；

汇总每一回合所有agent轨迹的损失值∑L(Θ)：

∑L(Θ)＝L(Θ₁)_mean+…+L(Θ_n)_mean；

agent_i_alive＝(S_new，x_new)；

(S→S_new，x→x_new)；

agent_i_death＝(S_new，x_new)；

(S_initial→S_new，x_initial→x_new)；

进一步包括：

输入：所有智能体的状态，经验库；

输出：所有智能体的新状态和新信息微量表；

步骤一：初始化所有智能体的状态，信息微量；

步骤二：每个回合都收集每个智能体网络的损失值；

步骤四：更新所有智能体的状态和信息微量表。

8.一种实施权利要求1～7任意一项所述多智能体协作信息处理方法的多智能体协作信息处理系统，其特征在于，所述多智能体协作信息处理系统包括：

9.一种接收用户输入程序存储介质，所存储的计算机程序使电子设备执行权利要求任意一项所述包括下列步骤：

10.一种实现权利要求1～7任意一项所述多智能体协作信息处理方法的智能终端。