CN110991972B

CN110991972B - 一种基于多智能体强化学习的货物运输系统

Info

Publication number: CN110991972B
Application number: CN201911287052.0A
Authority: CN
Inventors: 姜元爽; 宁立; 张涌; 冯圣中
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2019-12-14
Filing date: 2019-12-14
Publication date: 2022-06-21
Anticipated expiration: 2039-12-14
Also published as: CN110991972A

Abstract

本发明涉及一种基于多智能体强化学习的货物运输系统，包括：包括货运智能体、分组模块和模型构建模块；所述分组模块用于获取每个货运智能体的位置坐标，并根据动态分组算法对所有货运智能体进行分组，得到至少一个货运智能体小组；模型构建模块用于通过隐性赋予权重算法对每个货运智能体小组中的货运智能体进行权重划分，对货运智能体小组内的多个货运智能体进行隐式协调控制；采用多智能体深度确定性策略梯度算法的集中式评论家方式构建神经网络，通过神经网络生成多货运智能体的优化路径，货运智能体小组中的货运智能体根据该优化路径绕过障碍物并到达地标。本发明能够处理数量多、通信信息量大的货运智能体，其性能好、效率高且成本低。

Description

一种基于多智能体强化学习的货物运输系统

技术领域

本发明属于多智能体系统技术领域，特别涉及一种基于多智能体强化学习的货物运输系统。

背景技术

随着人工智能、通信及信息等技术的发展，多智能体的研究近年来一直是很多人关注的研究热点。多智能体系统可以被广泛应用于公共设施检测、灾难环境调查、军事侦察、仓储搬运等领域，无论在军用还是民用方面都得到了广泛应用。在货物运输过程中，使多个货运智能体能够智能的规划路线，以到达多个不同的位置放置货物，是一个十分重要的问题，因为这样能够加快运货的效率，同时减少人力成本，现在也越来越成为一个研究的重点方向。其中货运智能体和障碍间的相对距离的控制往往至关重要，多货运智能体之间精确地相对距离权重控制可以保证系统内部成员之间的防碰撞。尤其是在外部产生很大的干扰时，比如货运智能体遇到阵风、地面货运智能体遇到负载变化等一些外部干扰时，如何使系统可以表现出很强的适应性和鲁棒性，保证多货运智能体之间的距离控制也成为多智能体系统在实际应用过程中需要关注的问题。

现有技术中，申请号201811581645.3中公开一种应用于多智能体间相对距离控制及自适应矫正方法，该方法可以有效保证多智能体之间的相对距离的控制，避免多智能体之间的碰撞，通过使用ESO可以使系统具有很强的适应性及鲁棒性。申请号201810606662.1公开了一种强化学习多智能体沟通与决策方法，该方法根据各个智能体的观测状态信息通过神经网络提取相应的状态特征；将所有智能体的状态特征作为沟通信息输入至VLAD层中进行软分配与聚类，得到聚类后的沟通信息；将聚类后的沟通信息分发给各个智能体，由各个智能体将自身的状态特征与接收到的聚类后的沟通信息进行聚合，并通过智能体内部的全连接神经网络进行动作决策。

在现有的多货运智能体系统中，单个货运智能体要把所有货运智能体的信息都不加处理的直接进行考虑。但是实际上，在多智能体环境中，由于距离、速度以及其他因素的不同，对单个货运智能体而言，所有货运智能体信息中可能会存在一些不需要的信息甚至干扰信息，且通信信息量过大，因此可能会减慢系统收敛速度，影响整个系统的性能和效率。另外，在当前的多智能强化学习研究中，也不能解决当货运智能体数目较多的情况下的收敛性问题。

发明内容

本发明的目的在于针对现有技术存在的技术问题，提供一种基于多智能体强化学习的货物运输系统，能够处理大规模货运智能体，其性能好、效率高且成本低。

为了解决上述问题，本采用的技术方案为：

一种基于多智能体强化学习的货物运输系统，包括货运智能体、分组模块和模型构建模块；

所述货运智能体的数量为至少两个，且每个货运智能体分别包括相应的地标和至少一个障碍物；

所述分组模块用于获取每个货运智能体的位置坐标，并根据动态分组算法对所有货运智能体进行分组，得到至少一个货运智能体小组，每个货运智能体小组中分别包括至少两个货运智能体；

模型构建模块：用于通过隐性赋予权重算法对每个货运智能体小组中的货运智能体进行权重划分，对货运智能体小组内的多个货运智能体进行隐式协调控制；采用多智能体深度确定性策略梯度算法的集中式评论家方式构建神经网络，通过所述神经网络生成多货运智能体的优化路径，所述货运智能体小组中的货运智能体根据该优化路径绕过障碍物并到达地标。

进一步地，还包括设置模块，所述设置模块用于设定货运智能体的移动动作空间和状态空间，并设置环境中的奖惩机制。

进一步地，所述设定货运智能体的移动动作空间和状态空间具体为：设定所述货运智能体的状态为单个网格的位置坐标，用网格对角线交点的x,y坐标写成二维数组形式表示；设定货运智能体可以360度自由移动，每个货运智能体位于地图上的不同位置，并且有相应的地标和障碍物。

进一步地，所述环境中的奖惩机制即为当货运智能体达到设定状态时环境所给予的奖惩回报；所述奖惩机制包括：令各货运智能体应与其它货运智能体以及障碍物保持设定距离，若违背给予相应的惩罚；根据各货运智能体与所要到达地标之间的距离关系，按照货运智能体与各个地标的最小距离给与相应大小的奖励。

进一步地，所述通过隐性赋予权重算法对每个货运智能体小组中的货运智能体进行权重划分，对货运智能体小组内的多个货运智能体进行隐式协调控制具体包括：对于每一个货运智能体，都需要4个视角，分别为：每个货运智能体自己的信息对应的一个视角、另一个货运智能体的信息对应的两个视角、所有货运智能体的信息对应的一个视角；每个货运智能体在不同的视角下，根据多智能体深度确定性策略梯度算法的集中式评论家Q值的大小隐私赋予权重，所述集中式评论家由全连接的神经网络组成，每次都使用所有货运智能体信息产生一个Q值，根据当前状态与下一个状态产生Q值的不同推动梯度更新，进而训练神经网络并生成策略，所有货运智能体根据该策略分布式执行。

进一步地，所述神经网络使用深度Q网络中的经验池和双网络结构促进神经网络学习路径知识，将所述货运智能体看作是算法中的Actor，每个Actor对应一个Critic，Critic观测各个货运智能体并给出对应智能体的路径状态建议，进行策略更新。

进一步地，所述神经网络包括Critic模块，所述Critic模块采用双网络结构，由两个结构相同、参数更新时间不同的网络构成，分别为及时更新参数的状态估计网络π和延时更新参数的状态现实网络π′，状态估计网络π的参数表示为θ^π，状态现实网络π′的参数表示为θ^π′。

进一步地，所述状态现实网络首先随机抽取经验池中的一批货运智能体信息，每一条信息的形式为：{货运智能体的当前状态s，货运智能体的当前动作a,货运智能体的下一步状态s_，奖励R}，根据该信息估计得到货运智能体的下一个位置状态s_时采取的下一个运动动作a_，计算动作-价值函数Q′(s_,a_|θ^π′)，最后估计当前的期望回报y＝R+γQ′(s_,a_|θ^π′)，其中γ(γ∈[0,1])表示为衰减因子；

所述状态估计网络根据经验池记录的货运智能体的当前状态s和当前动作a，计算得到动作-价值函数Q(s,a|θ^π)，用隐性赋予权重的方法更新Q值，表示为：

上述公式中，S_j是当前货运智能体和当前货运智能体视野范围内其它货运智能体观察的一种组合，利用状态估计网络估计得到货运智能体相应的状态S_j时采取的下一个运动动作A_j，j取值为1…2^N-1，最后得到动作-价值函数Q(s,a|θ^π)；

现实和估计之间的期望回报之间的均方误差为：

上述公式中，N为更新总次数，模拟环境运行一回合里的总步骤数；k为第k步更新，利用误差L完成对状态估计网络的参数更新，加入平衡因子

的状态现实网络更新公式为：

进一步地，所述神经网络还包括Actor模块，所述Actor模块由两个结构相同、参数更新时间不同的网络构成，分别为及时更新参数的动作估计网络μ和延时更新参数的动作现实网络μ′，动作估计网络μ的参数表示为θ^μ，动作现实网络μ′的参数表示为θ^μ′。

进一步地，所述动作现实网络根据经验池中货运智能体的下一个位置状态s_，通过计算，得出货运智能体的下一步动作a_，即μ′(s_|θ^μ′)，用于计算Critic模块里的状态现实网络的目标动作-价值函数Q′(s_,a_|θ^μ′)；

所述动作估计网络根据经验池记录的货运智能体的当前状态s，计算当前状态s的实际动作，即μ(s|θ^μ)，利用当前状态s的实际动作μ(s|θ^μ)和动作估计网络输出的Q(s,a|θ^π)联合更新动作估计网络的参数，利用梯度下降法进行参数的更新，：

由于动作现实网络是延迟更新，加入平衡因子

的动作状态现实网络更新公式为：

对所述Critic模块和Actor模块进行模型训练，并用新产生的{货运智能体的当前状态s，货运智能体的当前动作a,货运智能体的下一步状态s_，奖励R}对替换经验池中存储的{货运智能体的当前状态s，货运智能体的当前动作a,货运智能体的下一步状态s_，奖励R}对。

与现有技术相比，本发明的有益效果在于：

本发明提供的基于多智能体强化学习的货物运输系统，采用动态分组技术与小组内隐性赋予权重相结合的方法，解决了现有技术无法处理货运智能体数量多、通信信息量可能过大等技术缺陷。相对于现有技术，本发明具有以下优点：

(1)在货运智能体上加入了初步的数据处理，一方面实现了对数据的处理；另一方面在一定程度上减少了货运智能体处理大量原始数据的压力，提升了整个系统的性能。

(2)在所有智能体信息中，可能是存在一些不需要的信息甚至干扰信息，因此会减慢收敛速度，并且货运智能体学习的策略可能会受到环境的影响，从而使得货运智能体无法做到很好的避障。本发明基于小组内隐性赋予权重的方法，有效的克服了货运智能体每次都需要处理全部信息的问题，实现了一种动态的信息过滤，提高了效率。

(3)在现有技术中的多智能体强化学习多采用集中式评论家对所有智能体信息进行统一处理，使得其不能使用在货运智能体数量很多的场景下，本发明使用动态分组技术对多货运智能体进行分组，解决现有技术不能处理大规模货运智能体的问题，也同时降低了成本。

附图说明

图1是本发明基于多智能体强化学习的货物运输系统的结构示意图。

图2为本发明中货运智能体分组算法的原理图。

图3为本发明中货运智能体实现避开障碍占据地标任务图。

图4为本发明与现有技术的比较示意图。

具体实施方式

为了便于理解本发明，下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的较佳实施例。但是，本发明可以以许多不同的形式来实现，并不限于本文所描述的实施例。相反地，提供这些实施例的目的是使对本发明的公开内容的理解更加透彻全面。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。

本发明提供的基于多智能体强化学习的货物运输系统，首先通过动态分组技术对多个货运智能体进行分组，每个货运智能体小组都包含多个货运智能体，通过每个货运智能体获得全局信息的共享，由于每个货运智能体与其它货运智能体以及地标之间的距离不同，通过动态的调整权重，并使用基于隐式权重的多智能体强化学习方法使每个货运智能体小组中的多个货运智能体避开障碍物更快的到达多个目标点，有效减少碰撞，从而获得更大的共同奖励。

具体的，请参阅图1，是本发明的基于多智能体强化学习的货物运输系统的结构示意图。本发明提供的一种基于多智能体强化学习的货物运输系统，包括至少一个货运智能体、至少一个地标(一个地标对应一个目标点)和至少一个障碍物、设置模块、分组模块和模型构建模块。

设置模块：用于在系统部署实施时，设定货运智能体的移动动作空间和状态空间，并设置环境中的奖惩机制；具体的，本发明中，设定货运智能体的状态为单个网格的位置坐标，用网格对角线交点的x,y坐标写成二维数组形式表示；设定货运智能体可以360度自由移动，每个货运智能体位于地图上的不同位置，并且有相应的地标数和障碍物。

上述中，所述环境中的奖惩机制即为当货运智能体达到设定状态时，环境所给予的奖惩回报。本申请实施例设定两种奖惩规则即货运智能体达到的设定状态包括：1、令各货运智能体与其它货运智能体以及障碍物保持设定距离(具体距离参数可根据实际情况进行设定)，若违背给予相应的惩罚(-1)；2、根据各货运智能体与所要到达地标之间的距离关系，按照货运智能体与各个地标的最小距离给与相应大小的奖励。由于是协调控制货运智能体小组内的多个货运智能体到达多个地标，因此所述的奖励是一种共同奖励，同一个货运智能体小组内的多个货运智能体的奖励大小是相同的。

分组模块：用于获取每个货运智能体的位置坐标，然后根据动态分组算法对所有货运智能体进行分组，得到至少一个货运智能体小组；请一并参阅图2，为货运智能体分组示意图。货运智能体小组通过协调控制到达多个地标；当某个货运智能体小组的货运智能体到达地标时，产生一个正向奖励信息。

上述中，所述动态分组算法是指：对于货运智能体1而言，与在一定范围距离的货运智能体2归属于同一个货运智能体小组；但是对于货运智能体2而言，可能是与其他距离更近的货运智能体为一个小组，并且每个小组限定货运智能体的个数。如图2所示，假设包括5个货运智能体，设定每个货运智能体小组内的货运智能体个数为3，则对于货运智能体Agent1来说，与货运智能体Agent2和货运智能体Agent4是一个小组，因为货运智能体Agent1离这两个货运智能体更近；而对于货运智能体Agent3来说，与货运智能体Agent1和货运智能体Agent4更近，则货运智能体Agent3、Agent1和Agent4是一个小组。本发明通过动态分组技术对多个货运智能体进行分组，解决了现有技术不能处理大规模货运智能体的问题，也同时降低了成本。

模型构建模块：用于通过隐性赋予权重算法对每个货运智能体小组中的多个货运智能体进行权重划分，对货运智能体小组内的多个货运智能体进行协调控制；并采用多智能体深度确定性策略梯度算法的集中式评论家方式构建神经网络，生成多货运智能体的优化路径，各个货运智能体小组的货运智能体根据该优化路径绕过障碍物到达地标。

上述中，为了解决货运智能体信息过多的问题，本申请通过基于小组内隐性赋予权重的方法实现了一种动态的信息过滤，有效的克服了单个货运智能体每次都需要处理全部货运智能体信息的问题，显著减少了处理信息量，提高了效率；同时，通过隐私赋予权重的方法，使多个货运智能体之间不需要直接进行通信，提高货运智能体处理信息的效率和整个系统能容纳货运智能体的数量，降低了通信的成本和提高了效率。

如图3所示，为货运智能体实现避开障碍占据地标任务图。假设某货运智能体小组包括三个货运智能体，灰球为货运智能体，分别为agent1、agent2和agent3，黑球为障碍物，黑色叉叉为地标，货运智能体的目的是通过隐式协调控制避开障碍物并到达地标，同时避免与其它货运智能体相撞。其中，隐式协调控制即：不特别指定每个货运智能体到达哪个地标，而是通过多个货运智能体之间的策略协调使所有货运智能体能够合作导航到达各自的最优目的地。

假设每个货运智能体小组中的货运智能体数量为3，对于每一个货运智能体，都需要4个视角，分别为：每个货运智能体自身的信息(一个视角)、另一个货运智能体的信息(有两个视角)、所有货运智能体的信息(一个视角)。每个货运智能体在不同的视角下，根据多智能体深度确定性策略梯度算法(MADDPG)使用的集中式评论家计算Q值，选取最大的Q值对信息进行处理，然后交给货运智能体，货运智能体根据Q值对行动作出相应的调整。在该方式下，每个货运智能体可以表达自身对一个或多个货运智能体感兴趣。这种松耦合关系使系统具有可扩展性，可以支持更为动态的网络拓扑结构，在处理复杂、实时的应用场景时更具有优势。

多智能体深度确定性策略梯度算法使用的集中式评论家是由OpenAI公司于2017年发布的，MADDPG启用了一个集中式Critic来向智能体提供同类代理的观察和潜在行为的信息，从而将一个不可预测的环境转换成可以预测的环境，解决由于智能体不断变化策略而导致的环境非平衡性问题。使用集中评论家后，每个Critic可以获取所有智能体的行为和观察，当采用集中训练，分布式执行的框架，有一个集中控制的集中式评论家，该集中式评论家由全连接的神经网络组成，每次都使用所有智能体信息，来产生一个Q值，根据当前状态与下一个状态产生Q值的不同，来推动梯度更新，进而训练神经网络，最终生成策略，然后所有货运智能体根据该策略再分布式的执行。

深度确定性政策梯度算法结合多智能体进行路径规划，其中，神经网络使用深度Q网络(DQN)中的经验池和双网络结构促进神经网络有效学习路径知识，将货运智能体看作是算法中的Actor，每个Actor对应一个Critic(评论家)，Critic观测各个货运智能体进而给出对应智能体路径状态建议，进行策略更新。并且由于其确定性机制使得智能体Actor(演员)不再输出每个动作的概率，而是一个具体的动作，更有助于在连续动作空间中进行学习。

具体的，所述神经网络包括Critic模块和Actor模块，其中：

Critic模块采用双网络结构，由两个结构相同、参数更新时间不同的网络构成，分别为及时更新参数的状态估计网络π和延时更新参数的状态现实网络π′，状态估计网络π的参数表示为θ^π，状态现实网络π′的参数表示为θ^π′。

对于状态现实网络，首先随机抽取经验池中的一批货运智能体信息，每一条信息的形式为：{货运智能体的当前状态s，货运智能体的当前动作a，货运智能体的下一步状态s_，奖励R}，该信息的内容可以解释为：货运智能体在当前状态s下采取当前动作a，到达的下一个位置状态s_，获得一个奖励R。因为处于一个陌生环境，每个货运智能体并不能完全熟悉场景，所以货运智能体的Critic模块在影响回报奖励时，不仅考虑了当前货运智能体自身的一定范围的状态区域State-Action(状态-动作)信息，还需要考虑超出这个范围内的其他货运智能体的状态区域State-Action信息，两种信息相结合，共同影响奖励R的生成。得到总的奖励R后，利用状态现实网络估计得到货运智能体的下一个位置状态s_时采取的下一个运动动作a_，计算动作-价值函数Q′(s_,a_|θ^π′)，最后估计当前的期望回报y＝R+γQ′(s_,a_|θ^π′)，其中γ(γ∈[0,1])表示为衰减因子。

对于状态估计网络，根据经验池记录的货运智能体的当前状态s和当前动作a，计算得到动作-价值函数Q(s,a|θ^π)，此处用一种隐性赋予权重的方法更新Q值，因此可以表示为：

上述公式中，S_j是当前货运智能体和当前货运智能体视野范围内其它货运智能体观察的一种组合，例如：当货运智能体小组中的货运智能体数量为3个时，对于当前的货运智能体，需要4种组合，当前货运智能体i的信息加上另一个货运智能体的信息(有两种组合)、所有货运智能体的信息(一个组合)、当前货运智能体的信息(一个组合)。利用状态估计网络估计得到货运智能体相应的状态S_j时采取的下一个运动动作A_j，j取值为1…2^N-1，最后得到动作-价值函数Q(s,a|θ^π)。

现实和估计之间的期望回报之间的均方误差为：

上述公式中，N为更新总次数，模拟环境运行一回合里的总步骤数，一般规定一回合不超过25步，25步为一个回合，k为第k步更新，k为小于等于25的整数，利用误差L完成对状态估计网络的参数更新，因为状态现实网络是延迟更新，所以加入平衡因子

的状态现实网络更新公式为：

Actor模块同样由两个结构相同、参数更新时间不同的网络构成，分别为及时更新参数的动作估计网络μ和延时更新参数的动作现实网络μ′，动作估计网络μ的参数表示为θ^μ，动作现实网络μ′的参数表示为θ^μ′。动作现实网络根据经验池中货运智能体的下一个位置状态s_，通过计算，得出货运智能体的下一步动作a_，即μ′(s_|θ^μ′)，用于计算Critic模块里的状态现实网络的目标动作-价值函数Q′(s_,a_|θ^μ′)；

动作估计网络根据经验池记录的货运智能体的当前状态s，计算当前状态s的实际动作即μ(s|θ^μ)，利用当前状态s的实际动作μ(s|θ^μ)和状态估计网络输出的Q(s,a|θ^π)联合更新动作估计网络的参数，并利用梯度下降法进行参数的更新，如公式(4)所示：

由于动作现实网络是延迟更新，因此加入平衡因子

的动作状态现实网络更新公式为：

对Critic模块和Actor模块进行模型训练，并用新产生的{货运智能体的当前状态s，货运智能体的当前动作a,货运智能体的下一步状态s_，奖励R}对替换经验池中之前存储的{货运智能体的当前状态s，货运智能体的当前动作a,货运智能体的下一步状态s_，奖励R}。

本发明中，经过初始化网络参数后，由于Critic模块和Actor模块的参数更新需要在经验学习的基础上进行，因此使用单独的经验池存储各个货运智能体运动行为的历史记录{当前状态s，当前动作a,下一步状态s_，回报R}。

由于Critic模块在迭代回合中不断加强期望回报大的动作，执行此动作会使得状态坐标不断朝着场景内最优状态改进，最终利用训练好的参数和模型获得状态序列，即对场景进行规划后得到的优化路径。在合作避障导航实验中，使用300000个回合重复此步骤，训练出多货运智能体的优化路径。

为了验证本发明的可行性和有效性，通过仿真实验对本发明进行了测试，并与现有的多货运智能体深度确定性策略梯度算法MADDPG进行对比，具体如图4所示，为本发明与现有技术的比较示意图。图中，横坐标是训练的回合数(episode)，纵坐标是平均每个货运智能体获得的奖励数，当障碍物的数量为货运智能体数量的两倍时，可以看出，本发明在奖励方面已经明显超过了多货运智能体深度确定性策略梯度算法MADDPG方法，证明本发明可行且效果良好。

本发明的基于多智能体强化学习的货物运输系统，采用动态分组技术与小组内隐性赋予权重相结合的方法，解决了现有技术无法处理货运智能体数量多、通信信息量可能过大等技术缺陷。相对于现有技术，本发明具有以下优点：

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于多智能体强化学习的货物运输系统，其特征在于，包括货运智能体、分组模块和模型构建模块；

所述货运智能体的数量为至少两个，且每个货运智能体位于地图上的不同位置，并且有相应的地标和障碍物；

模型构建模块：用于通过隐性赋予权重算法对每个货运智能体小组中的货运智能体进行权重划分，对货运智能体小组内的多个货运智能体进行隐式协调控制；采用多智能体深度确定性策略梯度算法的集中式评论家方式构建神经网络，通过所述神经网络生成多货运智能体的优化路径，所述货运智能体小组中的货运智能体根据该优化路径绕过障碍物并到达地标；

所述通过隐性赋予权重算法对每个货运智能体小组中的货运智能体进行权重划分，对货运智能体小组内的多个货运智能体进行隐式协调控制具体包括：

对于每一个货运智能体，都需要4个视角，分别为：每个货运智能体自身信息对应的一个视角、另一个货运智能体信息对应的两个视角、所有货运智能体信息对应的一个视角；每个货运智能体在不同的视角下，根据多智能体深度确定性策略梯度算法的集中式评论家Q值的大小隐私赋予权重；所述集中式评论家由全连接的神经网络组成，每次都使用所有货运智能体信息产生一个Q值，根据当前状态与下一个状态产生Q值的不同推动梯度更新，进而训练神经网络并生成策略，所有货运智能体根据该策略分布式执行。

2.根据权利要求1所述的基于多智能体强化学习的货物运输系统，其特征在于，还包括设置模块，所述设置模块用于设定货运智能体的移动动作空间和状态空间，并设置环境中的奖惩机制。

3.根据权利要求2所述的基于多智能体强化学习的货物运输系统，其特征在于，所述设定货运智能体的移动动作空间和状态空间，具体为：

设定所述货运智能体的状态为单个网格的位置坐标，用网格对角线交点的x,y坐标写成二维数组形式表示；设定货运智能体可以360度自由移动。

4.根据权利要求2所述的基于多智能体强化学习的货物运输系统，其特征在于，所述环境中的奖惩机制为当货运智能体达到设定状态时，环境所给予的奖惩回报；所述奖惩机制包括：令各货运智能体应与其它货运智能体以及障碍物保持设定距离，若违背给予惩罚；根据各货运智能体与所要到达地标之间的距离关系，按照货运智能体与各个地标的最小距离给与相应大小的奖励。

5.根据权利要求4所述的基于多智能体强化学习的货物运输系统，其特征在于，所述神经网络使用深度Q网络中的经验池和双网络结构促进神经网络学习路径知识，将所述货运智能体看作是算法中的Actor，每个Actor对应一个Critic，Critic观测各个货运智能体并给出对应智能体的路径状态建议，进行策略更新。

6.根据权利要求5所述的基于多智能体强化学习的货物运输系统，其特征在于，所述神经网络包括Critic模块，所述Critic模块采用双网络结构，由两个结构相同、参数更新时间不同的网络构成，分别为及时更新参数的状态估计网络π和延时更新参数的状态现实网络π′，状态估计网络π的参数表示为θ^π，状态现实网络π′的参数表示为θ^π′。

7.根据权利要求6所述的基于多智能体强化学习的货物运输系统，其特征在于，所述状态现实网络首先随机抽取经验池中的一批货运智能体信息，每一条信息的形式为：{货运智能体的当前状态s，货运智能体的当前动作a,货运智能体的下一步状态s_，奖励R}，根据该信息估计得到货运智能体的下一个位置状态s_时采取的下一个运动动作a_，计算动作-价值函数Q′(s_,a_|θ^π′)，最后估计当前的期望回报y＝R+γQ′(s_,a_|θ^π′)，其中γ(γ∈[0,1])表示为衰减因子；

现实和估计之间的期望回报之间的均方误差为：

的状态现实网络更新公式为：

8.根据权利要求7所述的基于多智能体强化学习的货物运输系统，其特征在于，所述神经网络还包括Actor模块，所述Actor模块由两个结构相同、参数更新时间不同的网络构成，分别为及时更新参数的动作估计网络μ和延时更新参数的动作现实网络μ′，动作估计网络μ的参数表示为θ^μ，动作现实网络μ′的参数表示为θ^μ′。

9.根据权利要求8所述的基于多智能体强化学习的货物运输系统，其特征在于，所述动作现实网络根据经验池中货运智能体的下一个位置状态s_，通过计算，得出货运智能体的下一步动作a_，即μ′(s_|θ^μ′)，用于计算Critic模块里的状态现实网络的目标动作-价值函数Q′(s_,a_|θ^μ′)；

所述动作估计网络根据经验池记录的货运智能体的当前状态s，计算当前状态s的实际动作，即μ(s|θ^μ)，利用当前状态s的实际动作μ(s|θ^μ)和状态估计网络输出的Q(s,a|θ^π)联合更新动作估计网络的参数，利用梯度下降法进行参数的更新，：

由于动作现实网络是延迟更新，加入平衡因子

的动作状态现实网络更新公式为：

对所述Critic模块和Actor模块进行模型训练，并用新产生的{货运智能体的当前状态s，货运智能体的当前动作a,货运智能体的下一步状态s_，奖励R}对替换经验池中存储的{货运智能体的当前状态s，货运智能体的当前动作a,货运智能体的下一步状态s_，奖励R}。