CN111432015B

CN111432015B - 一种面向动态噪声环境的全覆盖任务分配方法

Info

Publication number: CN111432015B
Application number: CN202010241918.0A
Authority: CN
Inventors: 丁博; 王怀民; 耿明阳; 张捷; 贾宏达; 巩旭东; 怀智博; 刘宸羽
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2020-03-31
Filing date: 2020-03-31
Publication date: 2022-07-19
Anticipated expiration: 2040-03-31
Also published as: CN111432015A

Abstract

本发明公开了一种面向动态噪声环境的全覆盖任务分配方法。先构建由机器人节点和中心控制节点构成的多机器人环境；机器人节点装有感知信息获取模块、输入状态估值模块、位置关系判定模块、交互权重估计模块和动作估计模块；中心控制节点装有环境状态监测模块、经验采集模块和网络更新模块；感知信息获取模块获取局部视图，输入状态估值模块得到输入状态估值向量和编号独热编码向量，位置关系判定模块计算邻接特征矩阵集合，交互权重估值模块计算邻接加权向量，动作估计模块挑选估值最大动作作为决策；中心控制节点采用强化学习方法对各模块中网络进行优化；本发明边执行边优化，不但任务分配准确高效，且机器人下次执行任务时间更短。

Description

一种面向动态噪声环境的全覆盖任务分配方法

技术领域

本发明涉及智能机器人系统领域和多智能体强化学习技术，具体涉及一种基于多智能体强化学习的多机器人全覆盖任务分配方法，可用于有噪声存在的动态环境。

背景技术

移动机器人由于具有可移动性，可以代替人到各种复杂或危险的环境执行探险、探测和操作等任务。移动机器人经过多年的研究与发展，已经逐步走向实用化，在制造业、物流业、服务业等传统领域，已经有不少使用移动机器人提高生产效率或者替代人工作业的实例。而在一些对国家经济、社会、国防等领域具有重大战略意义的项目中，移动机器人的需求也日益明显。随着人类活动范围的不断扩展，移动机器人在星球探测、海洋开发、军事反恐、灾难救助、危险品处理等领域逐渐发挥出巨大的作用，并显现出广泛的应用前景，而这些领域都存在着很大程度的不确定性，有的甚至是完全未知的新环境，探索周围环境成为移动机器人的基本任务，机器人若要在一个不确定、非结构化的环境内完成复杂任务，关键是感知周围环境并创建地图，这也是完成其他任务的基础。实际上，机器人经常在危险环境下作业，如在坍塌的建筑物内进行搜救等，因此研究未知环境中移动机器人的探索问题，对提高移动机器人的实用性至关重要，并有着广泛的经济和社会价值。

在未知环境中，全覆盖任务分配往往要求机器人在较短时间内完成对未知环境全覆盖的任务分配，相比于单机器人而言，多机器人协作探索具有更加高效、可靠和鲁棒的优势，因此受到了移动机器人领域的广泛关注。

多机器人全覆盖任务分配面临的主要问题包括：1)如何有效地协调多机器人的全覆盖任务分配行为。如果缺少协调，多个机器人可能跟踪相同的路径探索环境，导致与单机器人类似的探索结果，因此需要为多个机器人选择不同的运动方式，使它们能够探索环境的不同区域，实现分布式探索。2)在执行全覆盖任务分配任务的时候，环境中往往会存在很多噪声干扰，比如恶劣的环境条件可能会导致单个机器人的环境感知信息有误，或者黑客可能会控制某些机器人使它们的历史轨迹记录信息有误。在这种强噪声环境下，如何使得机器人保持协同，高效率地完成全覆盖任务分配是一个丞待解决的问题。

现有的多机器人全覆盖任务分配方法大多基于传统事先“预设”的协同方法。比如，最近边界点方法是基于贪心技术，即每个机器人都选择到最近边界点的最短路径；基于协同边界点的方法使用简单的智能体边界分配算法来实现协同。简而言之，每个机器人为自己和附近的队友确定边界点的收益值，然后迭代地计算分配方案，从而最大化联合收益；基于市场的方法要求机器人对探索的子任务进行投标，出价通常基于预期信息增益和到达目标点的花费值。此类解决方案的有效性已经得到实践检验，但其执行过程基于对目标任务、环境等的可预期性和不变假设性，需要事先获得任务和环境的全面、具体的信息，相应系统仅限于执行那些专门为其设计的任务，无法适应超出程序设计的情况。在真实环境中，往往不能提前预知环境可能会发生的各种变化以及非预期因素，事先“预设”的协同方法将很难应对，这将会限制多机器人系统适应动态变化环境的能力和应用到现实场景中的潜能。

强化学习作为机器学习的方法之一，又称再励学习、增强学习，来源于生物学中的条件反射理论，其基本思想是对所希望的结果予以奖励，对不希望的结果予以惩罚，逐渐形成一种趋向于好结果的条件反射。智能体在完成某项任务时，首先通过动作A与周围环境进行交互，在动作A和环境的作用下，智能体会产生新的状态S，同时环境会给出一个奖惩信息R，即如果智能体在状态S采取动作A符合设定的奖励情况，则会收到正信号奖励；反之则收到负信号惩罚。如此循环下去，智能体与环境不断地交互从而产生很多数据。强化学习算法利用产生的数据修改自身的动作策略，再与环境交互，产生新的数据，进一步改善自身行为，经过数次迭代学习后，智能体能够学到完成相应任务的最优动作，也就是最优策略。正是由于强化学习算法所具有的简单、灵活的特性，使得强化学习算法符合人们对多智能体策略学习算法的各种需求，进而在多智能体领域有着广阔的前景，多智能体强化学习应运而生。多智能体强化学习已被成功应用于计算机技术、移动通信技术、自动化技术等领域。每个具有强化学习能力的智能体能够在训练中学会如何与动态变化的环境进行交互，观察环境的状态并采取行动，使得所在环境到达一个新的状态，同时智能体会收到一个量化的反馈值，以使得智能体能够不断适应有其他智能体存在的新的环境，学会如何在动态开放环境中做出决策。多个这样彼此相互影响相互适应的智能体，通过强化学习的方法学习策略，以达到整体的期望目标。

现有的多智能体强化学习方法直接应用到多机器人全覆盖任务分配场景也是有一定的不足，因为在分布式多机器人全覆盖任务分配问题中，每个机器人需要记录自己的历史轨迹并告知其他队友以避免重复区域探索。这就需要机器人学会关注那些虽然目前距离相对较远，但是历史轨迹在机器人当前位置周围的机器人传递的消息，这需要一个准确的衡量每一对机器人之间交互权重的注意力机制，而现有的多智能体强化学习算法大多只能实现近距离的消息关注权重计算，无法对历史轨迹告知问题和局部目标区域冲突问题做出平衡。比如，如果机器人1和机器人3由于距离比较近，存在潜在的目标冲突问题应该紧密交互；同样地，机器人1因即将要探索机器人0的已探索区域，而机器人0的历史轨迹需要通过消息传递的形式才能告知机器人1，虽然二者此时距离较远，但是二者也应紧密交互以避免重复探索，而现有的多智能体强化学习算法很难平衡这两部分消息的权重。因此，如何能够将多智能体强化学习方法应用于多机器人全覆盖任务分配问题，且能够有效应对环境的动态变化，同时能够应对环境中的噪声，是目前智能机器人系统领域技术人员面临的一个技术难题。

发明内容

本发明要解决的技术问题是提供一种基于多智能体强化学习的多机器人动态噪声环境全覆盖任务分配方法，该方法利用边训练边学习的方法让多机器人在执行对未知环境的全覆盖分配任务的同时优化多机器人的交互及行动策略，应对环境中存在的噪声及随机分布的动态障碍达到指定的环境覆盖率，进而掌握协同策略，无需事先获得任务和环境的全面、具体的信息。本发明提出的多头注意力机制可以帮助机器人在通信时选择正确且对自己有价值的消息，减小对噪声信息和对自己无用信息的关注权重，进而正确地完成状态价值估计过程，以有效应对动态和噪声环境的干扰。本发明的技术方案是：首先将地图离散化为网格信息，每个网格被设置为一个网格点，每个机器人配备定位装置和通信装置，机器人之间可以互相通信以获取机器人编号信息以及局部环境感知信息(即当前局部视图)。机器人通过感知信息获取模块在获取当前局部视图后，将当前局部视图与历史坐标集合发送至输入状态估值模块，输入状态估值模块得到输入状态估值向量和编号独热编码向量并将其发送给位置关系判定模块，位置关系判定模块接收来自其余机器人的输入状态估值向量和编号独热编码向量计算出邻接特征矩阵集合，然后这些信息经过交互权重估值模块的处理后得到邻接加权向量，动作估计模块对邻接加权向量和输入状态估值向量进行处理，得到当前状态对应的动作概率分布，进而挑选估值最大动作作为决策。当到达指定探索时间后，中心控制节点根据设定的奖惩函数使用强化学习方法对机器人的行为及通信策略(即交互权重估计模块对邻接特征矩阵集合的注意力分配权重)进行优化，供机器人后续执行。本发明采用边执行边优化的方法，在每一次执行的过程中由中心控制节点记录地图各个网格是否已被探索，且存储所有机器人的状态转移信息，进而在执行周期结束的时候通过强化学习方法优化各个机器人的行为策略参数，使得机器人在完成下一次执行任务时覆盖全部地图的时间更短。

本发明包括以下步骤：

第一步，构建多机器人环境，它由N个机器人节点和中心控制节点构成，N为正整数，N个机器人节点的工作方式一致。机器人节点是可以运行软件程序的异构机器人硬件设备，如无人车、人形机器人、无人机等。中心控制节点是具有良好计算能力的资源可控的计算设备，可以运行计算密集型或者知识密集型的机器人应用，可以运行深度学习模型。中心控制节点监控地图状态，为每个机器人更新行为策略参数。多个机器人节点和中心控制节点通过网络设备互联。

机器人节点i(1≤i≤N)除了装有操作系统(如Ubuntu16.04)、深度学习框架(如Pytorch0.3.0.post4)外，还装有感知信息获取模块、输入状态估值模块、位置关系判定模块、交互权重估计模块和动作估计模块。

中心控制节点除了装有操作系统(如Ubuntu16.04)以及深度学习框架(如Pytorch0.3.0.post4)外，还装有环境状态监测模块、经验采集模块和网络更新模块。

定义离散化地图中的每个网格为网格点，使用占用网格法来表示地图，根据每个网格上的不同情况，将网格的当前状态分为障碍、已探索和未探索三种地图状态，如公式1所示：

P(x,y)为在离散化地图上横坐标为x，纵坐标为y位置的当前地图状态。地图状态记录在地图状态数组(H₁×W₁的二维数组，H₁和W₁均为正整数)里，地图状态数组的每个元素表示每个网格点的状态。

定义机器人节点i的局部环境感知信息为当前状态o_i，o_i描述了以机器人节点i为中心，以机器人节点i通信范围为半径的正方形网格区域内(网络区域不是圆形，因为地图被离散化为网格，是正方形，这里的半径意指正方形边长的一半)，是否包含障碍物或其余的机器人；定义机器人节点i前往的下一网格点方向(如向上、向下、向左、向右)的移动为动作a_i，到达的下一个状态为o′_i；定义机器人节点从到达当前网格点至到达下一网格点的过程中，与障碍物或其余机器人节点的碰撞与否以及下一节点是否为机器人群体已探索过的区域，为当前状态下选择该动作后获得的奖惩信息r_i；定义机器人节点i从一个状态开始选择一个动作后直至全覆盖任务结束(即当前时刻到达预设的全覆盖任务周期)所得到的奖惩信息之和为该状态下选择该动作后获得的累积回报R_i；将机器人节点i将自己的编号i以及K_i个邻居的编号转化为独热编码向量，得到(K_i+1)×N维的矩阵，定义该矩阵为邻接矩阵C_i，N为机器人的数目，N为正整数，K_i为机器人节点i的邻居机器人的个数，0≤K_i≤N-1。邻接矩阵C_i定义为的第一行代表机器人节点i的编号独热编码，其余K_i行代表K_i个邻居机器人的编号独热编码，由上到下的顺序为机器人编号由小到大的顺序，代表机器人的数目。因此邻接矩阵C_i与传统意义上的“邻接矩阵”含义不同，每个机器人的邻接矩阵描述了其通信范围内的邻居机器人的编号信息，用于判断邻居机器人是谁。

中心控制节点的经验采集模块中有一个经验池，经验池存储各个机器人的经验五元组，经验五元组为[当前状态，动作，奖惩信息，下一状态，邻接矩阵]。

定义机器人节点i的动作估计模块估计机器人节点i在当前环境状态(简称状态)o_i，采取动作a_i能够得到的累积回报值为Q(o_i,a_i；θ₃)，θ₃为动作估计模块的参数。通过计算当前状态o_i对应的所有动作的累积回报值，并挑选出使得累积回报值最大的动作a，即max_aQ(o_i,a_i；θ₃)，得到当前状态应该采取的动作a。

下一状态就是从当前状态采取了动作后到达的状态。例如当前状态包含所有机器人的位置信息以及距离其余机器人的相对位置信息，那么当机器人采取行动后，新的位置信息以及新的距离其余机器人的相对位置信息就是下一状态。

机器人节点i的感知信息获取模块与机器人节点i的输入状态估值模块、中心控制节点的环境状态监测模块和经验采集模块相连，用于从环境获取当前局部视图，记录机器人节点i的历史轨迹信息以避免重复探索。感知信息获取模块从环境获取机器人节点i的实时位置(x_i,y_i)，(x_i,y_i)为二维数组，代表实时位置在离散化地图中的坐标值，将实时位置(x_i,y_i)存储到机器人节点i的历史坐标集合l_i中；使用机器人节点i的传感器获取机器人节点i的当前环境状态o_i(当前环境状态o_i记录了当前环境状态内的其他机器人节点的相对位置，当前环境状态内的其他机器人节点指机器人节点i视觉范围内的机器人)，将o_i和l_i发送给机器人节点i的输入状态估值模块。机器人节点i执行动作后，感知信息获取模块根据传感器获取机器人节点i的下一时刻环境状态o′_i，并将o_i和o′_i发送给环境状态监测模块和经验采集模块。

机器人节点i的输入状态估值模块是包含一个一层的多层感知机的软件模块，与机器人节点i的感知信息获取模块、机器人节点i的位置关系判定模块、机器人节点i的动作估计模块、机器人节点i的交互权重估值模块、K_i(K_i为机器人节点i的邻居机器人的个数，K_i为小于N的正整数)个邻居机器人节点的位置关系判定模块相连，它从机器人节点i的感知信息获取模块获取o_i和l_i，对o_i和l_i进行拼接后输入多层感知机，得到输入状态估值向量h_i(h_i是128维的向量，每一维的数值范围是0～1(指0到1之间的实数)。输入状态估值模块创建机器人节点i的编号独热编码向量，将h_i和编号独热编码向量发送给机器人节点i的位置关系判定模块和K_i个邻居机器人节点的位置关系判定模块；将h_i发送给机器人节点i的动作估计模块。机器人节点i的输入状态估值模块从中心控制节点的网络更新模块接收更新参数，用于更新输入状态估值模块中多层感知机的网络参数θ₁。

多层感知机(MLP，MultiLayerPerception)是一种前馈人工神经网络模型，其为前向结构形式，由输入层、隐藏层、输出层构成，多层感知机将一个a维的向量通过全连接网络转化为一个b维的向量。多层感知机可以抽象成一张有向图，该图由多个层次分明的节点层组成，每层节点全连接到下一层节点，不与不相邻的层的节点连接。多层感知机层与层之间是全连接的，即上一层的任何一个节点都与下一层的所有节点连接。多层感知机最底层是输入层，中间是隐藏层，最后是输出层。输入层的节点个数等于输入向量的维数，假设隐藏层的输入为X，隐藏层的输出为f(W₁X+b₁)，其中W₁为隐藏层的连接系数，b₁是偏置，函数f是激活函数，比如sigmoid函数或tanh函数。具体见(Pal S K,Mitra S.Multilayerperceptron,fuzzy sets,and classification[J].IEEE Transactions on neuralnetworks,1992,3(5):683-697.多层感知机，模糊集和分类[J].IEEE神经网络学报,1992,3(5):683-697.)。一层的多层感知机包括了输入层、隐藏层和输出层，两层的多层感知机包括了输入层、两层隐藏层和输出层。

独热编码(one-hot)，又称为一位有效编码(每一位0或1，代表每一个机器人的状态)，主要是采用N位状态寄存器对N台机器人节点的状态进行编码，每个状态都有其独立的寄存位，且在任意时候只有一位有效。独热编码是分类变量(标签值，比如在动作空间为4的全覆盖任务分配问题中，分类变量就是“向上”、“向下”、“向左”和“向右”)作为二进制向量的表示。这首先要求将分类变量映射到整数值(比如“向上”映射到1、“向下”映射到2、“向左”映射到3、“向右”映射到4)，然后每个整数值所在索引被标记为1(比如1就是1000、2就是0100、3就是0010、4就是0001)，其余位置均被标记为0。

机器人节点i的位置关系判定模块与机器人节点i的输入状态估值模块、机器人节点i的交互权重估值模块和K_i个邻居机器人节点的输入状态估值模块相连，它从机器人节点i的输入状态估值模块接收h_i和编号独热编码向量，从邻居机器人

(K_i为机器人节点i的邻居机器人的个数，i不属于

)的输入状态估值模块接收K_i个输入状态估值向量(用

表示)和K_i个编号独热编码向量(用

表示)，将h_i和

整合成N×H维的特征矩阵F_i(机器人节点i视觉范围外的机器人输入状态估值向量直接用单位向量代替，H代表输入状态估值向量的维度，H为128)。机器人节点i的位置关系判定模块利用编号独热编码向量和

建立(K_i+1)×N维的邻接矩阵C_i，计算C_i×F_i，得到邻接特征矩阵集合G_i，将邻接特征矩阵集合G_i发送给机器人节点i的交互权重估值模块和中心控制节点的经验采集模块。

单位向量的维度是输入状态估值向量的维度，除第一位为1之外，向量的其余位置均为0。

机器人节点i的交互权重估值模块与机器人节点i的位置关系判定模块、机器人节点i的动作估计模块、机器人节点i的输入状态估值模块相连，交互权重估值模块是包含M(1≤M≤4)个注意力头的软件模块，注意力头是计算两个机器人的输入状态估值向量之间匹配程度的软件子模块。每个注意力头由查询转换子模块、键值转换子模块和价值转换子模块组成，查询转换子模块、键值转换子模块和价值转换子模块均是包含一层的多层感知机的软件模块。

注意力头是一种注意力模型，注意力模型可以宏观上理解为一个查询(Query)到一系列(键Key-值Value)对的映射。将Source(源)中的构成元素想象成由一系列的<Key,Value>数据对构成，此时给定Target(目标)中的某个元素Query(查询)，通过计算Query和各个Key的相似性或者相关性，得到每个Key对应Value的权重系数(即Value占整个邻接加权向量的百分比)，通过查询转换子模块、键值转换子模块和价值转换子模块中神经网络归一化层softmax归一化后，对权重和相应Value进行加权求和，得到最终的来自邻居机器人的有价值消息。所以本质上注意力头的功能是根据Query和Key计算对应Query的Value的权重系数，然后对Source中的Value值进行加权求和，得到邻接加权向量。Query指机器人节点i应该关注的邻居机器人消息的权重查询；Key指交互权重计算时的键值；Value值即价值指每个机器人局部视图中信息的有效信息；Value的权重系数指Value占整个邻接加权向量的百分比；Source指邻居机器人集合。

邻接加权向量指所有邻居机器人Value的权重系数与Value值的乘积之和，Value值(即价值)是每个机器人局部视图中信息的有效信息。

机器人节点i的交互权重估值模块从机器人节点i的位置关系判定模块接收机器人节点i的邻接特征矩阵集合G_i，将邻接特征矩阵集合等分为M份，将M份邻接特征矩阵子集合分别分配给M个注意力头并行进行权重估值得到针对机器人i的来自K_i个邻居机器人的邻接加权向量Q_i。机器人节点i的交互权重估值模块从中心控制节点的网络更新模块接收更新参数，用于更新查询转换子模块、键值转换子模块和价值转换子模块中多层感知机的网络参数。

机器人节点i的动作估计模块与机器人节点i的交互权重估值模块、机器人节点i的输入状态估值模块、中心控制节点的环境状态监测模块、经验采集模块和网络更新模块相连，从机器人节点i的交互权重估计模块接收邻接加权向量Q_i，从机器人节点i的输入状态估值模块接收输入状态估值向量h_i，从中心控制节点的网络更新模块接收动作估计模块的参数，从中心控制节点的环境状态监测模块接收机器人步数(N个机器人同时动作，步数是相等的)。动作估计模块是包括一个两层的多层感知机的软件模块，主要用于计算累积回报值。该两层的多层感知机称为状态估计神经网络，状态估计神经网络将m_i和h_i转化为累积回报值Q(o_i,a_i；θ₃)(即在状态o_i下执行动作a_i的累积回报值)，θ₃是为动作估计模块的网络参数。机器人节点i的动作估计模块以∈概率(∈为不按当前策略采取动作，随机采样新动作的概率，0≤∈≤0.1。)随机挑选的动作a或者以(1-∈)的概率选择累积回报值最大的动作a(a＝max_aQ(o_i,a_i；θ₃))。动作a的方向代表分配给机器人的目标探索区域，机器人之间的任务分配过程体现在通信策略当中，即交互权重估计模块对邻接特征矩阵集合的注意力分配权重。机器人通过自己的输入状态估值向量和邻接特征矩阵得到动作方向，即完成了目标探索任务的分配过程。动作估计模块根据∈的概率随机选取动作，可保证尽可能多地估计到机器人i可能经历的完整状态。机器人节点i的动作估计模块从中心控制节点的网络更新模块接收更新参数，用于更新动作估计模块中的网络参数。

中心控制节点的环境状态监测模块与机器人节点i的动作估计模块、机器人节点i的感知信息获取模块和中心控制节点的经验采集模块相连，从N个机器人节点的感知信息获取模块分别接收N个机器人节点当前时刻状态o₁,…,o_i,…，o_N(简写为o_1…N)和下一时刻状态o′₁,…,o′_i,…，o′_N(简写为o′_1…N)，根据o_1…N更新地图状态，即记录地图哪些位置已经被探索，并记录N个机器人每一步来自环境状态检测模块的决策奖惩信息r₁,…,r_i,…，r_N,(简写为r_1…N)，将奖惩信息r_1…N发送给经验采集模块。记录机器人步数，将机器人步数发送给机器人节点i的动作估计模块。

经验采集模块与N个机器人节点的动作估计模块、N个机器人节点的感知信息获取模块、N个机器人节点的位置关系判定模块、中心控制节点的环境状态监测模块、中心控制节点的网络更新模块相连，从N个机器人节点的动作估计模块接收N个机器人节点分别采取的动作a_1…N、从N个机器人节点的感知信息获取模块分别接收N个机器人节点当前时刻状态o_1…N和下一时刻状态o′_1…N、从N个机器人节点的位置关系判定模块分别接收N个机器人节点的邻接特征矩阵集合G₁,…,G_i,…，G_N(简写为G_1…N)、从环境状态监测模块接收N个机器人节点获得的奖惩信息r_1…N，将经验五元组[o_1…N,a_1…N,r_1…N,o′_1…N,G_1…N]存入经验池，以供N个机器人节点的输入状态估值模块、交互权重估值模块和动作估计模块参数更新时用。经验池的容量大小通常设置为100000个经验五元组，当经验池填满后，新加入的经验五元组将顶替经验池顶端的经验五元组。如果当前时刻到达了预设的网络更新周期，经验采集模块将经验池中的p个(p为2的整数次幂，优选1024)经验五元组一次发送给网络更新模块。

网络更新模块与机器人节点i的动作估计模块和中心控制节点的经验采集模块相连，从经验采集模块接收p个经验五元组。网络更新模块的主要功能包括：1)计算网络更新模块中的状态现实神经网络下一时刻状态及动作的累计回报值；2)运行反向传播算法更新动作估计模块、交互权重模块和输入状态估值模块的参数。

网络更新模块是一个包含一个2层的多层感知机的软件模块，该2层的多层感知机称为状态现实神经网络。网络更新模块功能是计算状态现实神经网络下一时刻状态及动作的累积回报值，更新状态现实神经网络的网络参数θ₄；并采用反向传播算法更新动作估计模块、交互权重估计模块和输入状态估值模块的参数，将更新后的参数发送给相应模块；

反向传播算法(Goodfellow,Ian；Bengio,Yoshua；Courville,Aaron(2016)."6.5Back-Propagation and Other Differentiation Algorithms".Deep Learning.MITPress.pp.200–220.ISBN9780262035613.“6.5节反向传播和其他微分算法”书籍《深度学习》200-220页)的学习过程由正向传播过程和反向传播过程组成。在正向传播过程中，输入信息通过输入层经隐含层，逐层处理并传向输出层。如果在输出层得不到期望的输出值，则取输出与期望的误差的平方和作为目标函数，转入反向传播，逐层求出目标函数对各神经元权值的偏导数，构成目标函数对权值向量的梯度，作为修改权值的依据，网络的学习在权值修改过程中完成。误差达到所期望值时，网络学习结束。

第二步，对地图、经验池以及输入状态估值模块、交互权重估计模块、动作估计模块和网络更新模块的多层感知机参数进行初始化，方法是：

2.1初始化地图网格的当前状态，障碍位置标记为0，其余位置标记为未探索即-1；

2.2初始化经验池为空；

2.3初始化历史坐标集合为空；

2.4初始化机器人步数t＝0，令全覆盖任务周期T1＝40，N个机器人节点分别执行40次动作作为一个全覆盖任务周期T1。令网络更新周期T2＝T1*1000，即当全覆盖任务执行1000次的倍数时，网络更新模块开始逐步更新动作估计模块、交互权重估计模块和状态估值模块中的多层感知机的参数。令策略优化周期T3＝T1*50000，即当全覆盖任务执行50000次时，结束对N个机器人节点的输入状态估值模块、交互权重估计模块以及动作估计模块中的多层感知机的参数优化。

2.5将输入状态估值模块的多层感知机参数θ₁、交互权重估值模块的多层感知机参数θ₂、及动作估计模块的多层感知机参数θ₃以及网络更新模块的多层感知机参数θ₄初始化为0至1之间的随机数，交互权重估值模块中M个注意力头的θ₂需分别初始化为不同的随机数。

2.6将N个机器人节点选择各个动作的概率均初始化为1/动作空间维度，动作空间维度指机器人所有可能执行的不同动作个数，例如4个动作初始化概率就是1/4，8个动作初始化概率就是1/8。

第三步，N个机器人节点的感知信息获取模块并行接收环境感知信息，输入状态估值模块、位置关系判定模块、交互权重估计模块、动作估计模块相互配合决策下一步的动作，N个机器人节点执行动作，N个机器人节点的决策过程完全相同，以机器人节点i为例来说明的决策过程是：

3.1机器人节点i的感知信息获取模块从环境获取机器人节点i的实时位置坐标(x_i,y_i)，将(x_i,y_i)加入至历史坐标集合l_i；机器人节点i用传感器获取当前状态o_i，将l_i和o_i发送给输入状态估值模块。

3.2机器人节点i的输入状态估值模块从机器人节点i的感知信息获取模块接收l_i和o_i，通过多层感知机得到输入状态估值向量h_i；并根据机器人的数目N对编号i进行独热编码得到独热编码向量e_i，将h_i和e_i发送给机器人i的位置关系判定模块和视觉范围内的邻居机器人节点

的位置关系判定模块。方法是：

3.2.1机器人节点i的输入状态估值模块从机器人节点i的感知信息获取模块接收l_i和o_i，将l_i拼接到o_i的尾端，然后将拼接了l_i的o_i输入到一层的多层感知机中，得到输入状态估值向量h_i(计算过程见2016年6月12日的cnblog博客，讲解神经网络基础运算的《多层感知机及其BP算法》https://www.cnblogs.com/ooon/p/5577241.html)。

3.2.2机器人节点i的输入状态估值模块根据机器人的数目N对编号i进行独热编码得到独热编码向量e_i。

3.2.3机器人节点i的输入状态估值模块将h_i和e_i发送给机器人i的位置关系判定模块和机器人i的视觉范围内的邻居机器人节点

的位置关系判定模块，并将h_i发送到机器人节点i的动作估计模块。

3.3机器人节点i的位置关系判定模块从邻居机器人节点

的输入状态估值模块接收输入状态估值向量

和编号独热编码向量

从机器人节点i的输入状态估值模块接收h_i和e_i，将e_i和

经过进行转化，得到(K_i+1)×N维的邻接矩阵C_i，将h_i和

进行转化，得到N×H维的特征矩阵F_i。计算C_i×F_i，得到邻接特征矩阵集合G_i，将邻接特征矩阵集合G_i发送给机器人节点i的交互权重估计模块和中心控制节点的经验采集模块。方法是：

3.3.1机器人节点i的位置关系判定模块从邻居机器人

的输入状态估值模块接收

和

从机器人节点i的输入状态估值模块接收h_i和e_i；

3.3.2机器人节点i的位置关系判定模块将e_i和

经过进行转化得到(K_i+1)×N维的邻接矩阵C_i，转化方法是将e_i作为C_i的第一行，

按

由小到大排序，分别作为C_i的其余K_i行；

3.3.3机器人节点i的位置关系判定模块将h_i和

进行转化，得到N×H维的特征矩阵集合F_i，转化方法是：F_i的第一行为h_i，

按

由小到大排序，分别作为F_i的

行，F_i除第一行、第

行以外的其它N-1-K_i行为其余视觉范围外机器人的输入状态估值向量，直接用视觉范围外机器人输入状态估值向量的单位向量按机器人的编号由小到大排序代替，H代表输入状态估值向量的维度；

3.3.4机器人i的位置关系判定模块计算C_i×F_i，得到邻接特征矩阵集合G_i，将G_i发送给交互权重估计模块和中心控制节点的经验采集模块。

3.4机器人节点i的交互权重估计模块从机器人节点i的位置关系判定模块接收机器人节点i的邻接特征矩阵集合G_i，将邻接特征矩阵集合G_i交由M个注意力头并行进行权重估值，获得邻接加权向量Q_i，将Q_i发送给机器人节点i的动作估计模块。M个注意力头子模块并行进行权重估值的方法相同，第m个注意力头进行权重估值的方法是：

3.4.1第m个注意力头的查询转化子模块接收来自机器人节点i的位置关系判定模块的邻接特征矩阵，其中包含了h_i，以及机器人节点i的所有邻居机器人节点的输入状态估值向量。查询转化子模块将机器人节点i的输入状态估值向量输入一层的多层感知机，通过一层的多层感知机转化为机器人i的查询向量

3.4.2初始化独热编码向量的当前维度v为1；

3.4.3第m个注意力头的键值转化子模块将邻居机器人节点j_v的输入状态估值向量通过一层的多层感知机转化为机器人j的第m个注意力头的键值向量

第m个注意力头的价值转化子模块将邻居机器人节点j_v的输入状态估值向量通过一层的多层感知机转化为机器人j的第m个注意力头的价值向量

j_v属于

3.4.4令v＝v+1，若v≤K_i，转步骤3.4.3；若v>K_i，转3.4.5；

3.4.5第m个注意力头按公式2计算交互权重

指第m个注意力头计算出的机器人i与机器人j之间的交互权重，

指机器人i的邻居机器人j_u的第m个注意力头的键值向量，Neigh_i表示机器人i节点的邻居机器人节点集合，

3.4.6第m个注意力头计算邻居机器人j对于机器人i的有价值消息m_ij，

3.4.7第m个注意力头估算来自机器人节点i的邻居机器人节点的有价值消息E_m，方法是将来自邻居机器人节点

的有价值消息求和，即令

3.4.8此时M个注意力头分别计算出了机器人i和机器人j的有价值消息，机器人节点i的交互权重估值模块将有价值消息E₁,…,E_m,…,E_M顺序拼接，如公式3所示：

Q_i＝σ(Concat[E₁,…,E_m,…,E_M]) 公式3

得到融合了多类不同特征(因为每一个注意力头的参数都是不同的，所以每一个注意力头提取出的特征类型也是不同的，比如在输入状态估值向量中，既可以关注于机器人之间的位置关系特征，又可以关注于历史轨迹特征)的针对于机器人i的邻接加权向量Q_i。

公式3中Concat代表拼接，σ(x)代表参数x的非线性激活函数。

3.4.9机器人节点i的交互权重估值模块将邻接加权向量Q_i发送到机器人节点i的动作估计模块。

3.5机器人节点i的动作估计模块估算当前状态对应的动作，方法是：

3.5.1机器人节点i的动作估计模块将h_i和Q_i顺序拼接后输入到动作估计模块的两层的多层感知机中，计算选择不同动作a_i对应的累积回报值Q(o_i,a_i；θ₃)(计算过程见2016年6月12日的cnblog博客，讲解神经网络基础运算的《多层感知机及其BP算法》https://www.cnblogs.com/ooon/p/5577241.html)；

3.5.2机器人节点i的动作估计模块从中心控制节点的环境状态监测模块接收机器人步数，判断当前机器人步数t是否大于T3，即N个机器人是否已执行完T3周期内的任务分配。如果t>T3，则执行步骤3.5.3；否则，机器人节点i生成一个随机数，如果随机数>∈，执行步骤3.5.3；否则，令a_i为向上、向下、向左、向右中的任意一个，执行步骤3.6。

3.5.3取使得累积回报值最大的动作a_i＝max_aQ(O_i,a_i；θ₃)，此动作代表机器人i通过与邻居机器人交互后，得到机器人i下一步的决策方向。如果将所有邻居机器人视为一个整体，此决策方向即代表机器人i被其邻居机器人整体分配的目标探索任务区域。

3.6机器人节点i执行动作a_i，机器人节点i的坐标位置以及历史轨迹发生变化。

3.7机器人节点i的动作估计模块将采取的动作a_i发送给中心控制节点的经验采集模块。

3.8感知信息获取模块获取机器人节点i此时的状态o′_i，将o_i和o′_i发送给中心控制节点的环境状态监测模块。

第四步，环境状态监测模块根据N个机器人的当前位置信息更新地图状态，并将N个机器人的奖惩信息发送给经验采集模块。方法是：

4.1初始化节点编号变量i＝1；

4.2环境状态监测模块从机器人节点i的感知信息获取模块接收当前状态o_i和下一时刻状态o′_i，从o_i中获取机器人节点i当前坐标(x_i,y_i)，更新地图网格状态，即标记(x_i,y_i)状态为已探索，值为1。

4.3环境状态监测模块根据公式4为机器人i计算奖励值

并将

发送给经验采集模块。

的目的是强制机器人i去探索新的区域并且避免与其余机器人或障碍物的碰撞。其中B^backr_bacK+c^tR_coll代表个人奖励，目的是让机器人i学会去探索新的区域并且避免碰撞。B^back是判断机器人是否此时探索的是整个群体已经探索过的区域的布尔向量，为1表示已探索过，为0表示未探索过；r_back的值为-10，r_back指机器人i当前步如果走的是已探索区域应该给予的惩罚值，一般为-10，用来惩罚机器人探索群体已经探索过的区域的行为。C^t代表机器人i与其余机器人或障碍物的碰撞次数。这里碰撞是指两个物体的位置重合。碰撞的惩罚值r_coll是-10。

B^final·is_succ·r_succ+B^final·(1-is_succ)·r_fail代表平均全局奖励和惩罚，只在全覆盖任务的最后一步发挥作用，以引导机器人群体学会协同。每一全覆盖任务周期结束，判断此次全覆盖任务是否成功的标准取决于具体任务的难度。B^final是判断此时是否是全覆盖任务周期最后一步的布尔向量，为1表示是最后一步，为0表示不是最后一步。is_succ是判断这一全覆盖任务周期是否成功的布尔向量，为1表示成功，为0表示不成功；成功即N个机器人是否完成了全覆盖任务，也就是说地图的所有格子状态是否均为已探索。r_succ为奖励值，一般设置为40，r_fail为惩罚值，一般设置为-5。具体来讲，在最后一步，每个机器人会收到一个平均全局奖励，如果所有机器人整体的探索率达到了指定标准，那么每个机器人将会得到值为40的奖励r_succ。(即r_succ＝40)否则，每个机器人将得到一个值为-5(设为固定值-5)的惩罚值r_fail。

4.4环境状态监测模块判断i≤N是否成立。若i≤N，令i＝i+1，令

执行步骤4.2；若i>N，执行步骤4.5；

4.5令机器人步数t＝t+1，环境状态监测模块将奖惩信息r_1…N发送给经验采集模块，将机器人步数发送给所有机器人节点的动作估计模块。

第五步，经验采集模块接收N个机器人节点动作估计模块采取的动作a_1…N、从环境状态监测模块接收的奖励值r_1…N，从N个机器人节点感知信息获取模块接收当前时刻状态o_1…N和下一时刻状态o′_1…N，从N个机器人节点位置关系判定模块接收邻接特征矩阵集合G_1…N。将五元组[o_1…N,a_1…N,r_1…N,o′_1…N,G_1…N]存入经验池。

第六步，环境监测模块判断任务是否达到指定的全覆盖任务周期，即判断t’＝t％T1是否为0，％为取余计算。如果t’不为0，则转第三步；如果为0，转第七步。

第七步，环境状态监测模块判断N个机器人节点是否达到了策略优化周期T3(即判断t>T3是否为真)，如果为真，则中心控制节点停止对N个机器人节点的输入状态估值模块、交互权重估值模块和动作估计模块的参数进行优化；否则继续判断当前是否到达了指定的网络更新周期T2，如果是，网络更新模块逐步更新动作估计模块、交互权重估计模块和输入状态估值模块多层感知机的网络参数。方法是：

7.1环境状态监测模块获取当前步数t，如果t>T3，即到达策略优化周期，执行第八步；否则执行步骤7.2；

7.2环境状态监测模块进行判断，如果t”＝t％T2≠0，即没有到达网络更新周期，转第三步；否则到达网络更新周期，从经验池中取出p个经验五元组，转7.3；

7.3网络更新模块从环境状态监测模块处获取p个经验五元组，从p个经验五元组中获得N个机器人在当前状态下采取的动作信息及到达的下一时刻状态信息，根据N个机器人的下一时刻状态o′_i，挑选使得Q(o′_i,a′_i；θ₄)值最大的动作a′_i，即max_a′Q(o′_i,a′_i；θ₄)，Q(o′_i,a′_i；θ₄)指在状态为o′_i时采取动作a′_i的估算值，描述了在状态为o′_i时采取动作a′_i的累积回报值，θ₄为状态现实神经网络的参数。

7.4网络更新模块通过公式5所示的损失函数L(θ₃)(损失函数即通过最小化所有经验五元组中“当前状态o_i采取动作a_i的估计累积回报值与真实累积回报值的差异”的平均值，来端到端地优化整个网络，使得动作估计模块可以真实预测出在状态o_i采取动作a_i的累积回报值，进而采取正确的动作的函数。)，对动作估计模块的参数进行优化：

其中

y_i＝r_i+γmax_a′Q(o′_i,a′_i；θ₄)

γ代表折扣因子。网络更新模块通过把L(θ₃)对θ求偏导得到梯度

然后将动作估计模块的参数θ₃更新为

其中α为预设的学习率，通常设置为0.01。

7.5N个机器人的网络更新模块更新θ₄，即令

θ₄＝τθ₃+(1-τ)θ₄ 公式6

7.6网络更新模块通过反向传播算法计算损失函数L(θ₃)对于交互权重估计模块以及输入状态估值模块参数的梯度，并对交互权重估计模块的参数θ₂和输入状态估值模块的参数θ₁进行更新，即令

令

7.7网络更新模块将优化后的动作估计模块、交互权重估计模块和输入状态估值模块参数(即各机器人节点相应的θ₃、θ₂、θ₁)分别发送给N个机器人的动作估计模块、交互权重估计模块和输入状态估值模块，N个机器人的动作估计模块、交互权重估计模块和输入状态估值模块接收到参数后，更新多层感知机的参数。

7.8转第三步。

第八步，此时t>T3，N个机器人已执行完T3周期内的任务分配，不再对输入状态估值模块、交互权重估计模块以及动作估计模块中多层感知机的参数优化。环境状态监测模块判断当前地图中的所有网格点是否已被覆盖完，如果已经覆盖完，则转第九步；否则转第三步，继续进行目标区域探索。

第九步，当前地图的全覆盖分配任务结束。

采用本发明可以达到如下的有益效果：

1.本发明由于第三步获得的是累积回报值最大的动作，使得机器人执行的动作是最适合当时环境状态，因此在有突发状况(环境中突然出现新的障碍)或强噪声状态下(机器人的环境感知信息存在噪声)本发明均能做到任务分配准确高效。

2.本发明第七步通过优化动作估计模块、交互权重估计模块和输入状态估值模块、网络更新模块的网络参数让多机器人在指定时间内执行对未知环境的全覆盖分配任务的同时优化多机器人的交互及行动策略，应对随机分布的动态障碍达到指定的环境覆盖率，进而掌握协同策略，无需事先获得任务和环境的全面、具体的信息，就可以让多机器人学会在执行全覆盖任务的时候应对环境的动态变化，自动根据环境的变化调整任务分配决策，得到针对变化后的环境的最优目标区域分配方式，高效率地完成全覆盖任务。

3.本发明交互权重估计模块采用多个注意力头并行估算机器人之间的交互权重，可以帮助机器人在通信时选择正确且对自己有价值的消息，减小对噪声信息和对自己无用信息的关注权重，进而正确地完成状态价值估计过程，以有效应对动态和噪声环境的干扰。

4.本发明在第四步设置奖惩函数，鼓励机器人在避障的同时探索新区域，同时限制多机器人系统在指定时间内达到的环境覆盖率，使得多机器人系统能够通过试错自主学会如何在有限的时间内完成对未知环境的全覆盖任务分配。

附图说明

图1是本发明第一步构建的多机器人环境逻辑结构图。

图2是本发明第一步构建的多机器人环境中机器人节点i和中心控制节点上实现任务分配的软件模块部署图。

图3是本发明整体流程图。

图4是图1所示多机器人环境3.5.3步执行完后获得的地图状态示意图。

图5是在图4中4个机器人完成动作后，下一任务执行周期开始时，环境中突然出现了新障碍的情况下的地图状态示意图最佳分配方案。

具体实施方式

以下以多机器人动态噪声环境救援探索为例说明本发明的具体实施方式。本发明中选取改装的轮式移动机器人Turtlebot作为执行者，机器人中装载Kinect传感器、激光测距传感器、定位装置，同时在底盘安装三个碰撞传感器。整个系统各部分通过局域网实现数据通信。

图3是本发明整体流程图。如图3所示，本发明包括以下步骤：

第一步，构建如图1所示的多机器人环境，它由N(例如实验时图1所示的多机器人环境中N＝4)个机器人节点(轮式移动机器人Turtlebot)和一个中心控制节点(服务器)构成。N个机器人节点和中心控制节点通过网络设备互联，N个机器人节点的工作方式一致。轮式移动机器人Turtlebot装有操作系统Ubuntu16.04版本、深度学习框架Pytorch0.3.0.post4版本、感知信息获取模块(包括Kinect传感器、激光测距传感器、定位装置，同时在底盘安装三个碰撞传感器)、输入状态估值模块、位置关系判定模块、交互权重估计模块和动作估计模块。中心控制节点即服务器装有操作系统Ubuntu16.04版本、深度学习框架Pytorch0.3.0.post4版本、环境状态监测模块、经验采集模块和网络更新模块。多个机器人节点和中心控制节点通过网络设备互联。

如图2所示，机器人节点i的感知信息获取模块与机器人节点i的输入状态估值模块、中心控制节点的环境状态监测模块和经验采集模块相连，用于从环境获取当前局部视图，记录机器人节点i的历史轨迹信息以避免重复探索。感知信息获取模块从环境获取机器人节点i的实时位置(x_i,y_i)，(x_i,y_i)为二维数组，代表实时位置在离散化地图中的坐标值，将实时位置(x_i,y_i)存储到机器人节点i的历史坐标集合l_i中；使用机器人节点i的传感器获取机器人节点i的当前环境状态o_i(当前环境状态o_i记录了当前环境状态内的其他机器人节点的相对位置，当前环境状态内的其他机器人节点指机器人节点i视觉范围内的机器人)，将o_i和l_i发送给机器人节点i的输入状态估值模块。机器人节点i执行动作后，感知信息获取模块根据传感器获取机器人节点i的下一时刻环境状态o′_i，并将o_i和o′_i发送给环境状态监测模块和经验采集模块。

机器人节点i的输入状态估值模块是包含一个一层的多层感知机的软件模块，与机器人节点i的感知信息获取模块、机器人节点i的位置关系判定模块、机器人节点i的动作估计模块、机器人节点i的交互权重估值模块、K_i(K_i为机器人节点i的邻居机器人的个数，K_i为小于N的正整数)个邻居机器人节点的位置关系判定模块相连，它从机器人节点i的感知信息获取模块获取o_i和l_i，对o_i和l_i进行拼接后输入多层感知机，得到输入状态估值向量h_i。输入状态估值模块创建机器人节点i的编号独热编码向量，将h_i和编号独热编码向量发送给机器人节点i的位置关系判定模块和K_i个邻居机器人节点的位置关系判定模块；将h_i发送给机器人节点i的动作估计模块。机器人节点i的输入状态估值模块从中心控制节点的网络更新模块接收更新参数，用于更新输入状态估值模块中多层感知机的网络参数θ₁。

(K_i为机器人节点i的邻居机器人的个数，i不属于

)的输入状态估值模块接收K_i个输入状态估值向量(用

表示)和K_i个编号独热编码向量(用

表示)，将h_i和

机器人节点i的交互权重估值模块与机器人节点i的位置关系判定模块、机器人节点i的动作估计模块、机器人节点i的输入状态估值模块相连，交互权重估值模块是包含M(1≤M≤4)个注意力头的软件模块。每个注意力头由查询转换子模块、键值转换子模块和价值转换子模块组成，查询转换子模块、键值转换子模块和价值转换子模块均是包含一层的多层感知机的软件模块。

机器人节点i的动作估计模块与机器人节点i的交互权重估值模块、机器人节点i的输入状态估值模块、中心控制节点的环境状态监测模块、经验采集模块和网络更新模块相连，从机器人节点i的交互权重估计模块接收邻接加权向量Q_i，从机器人节点i的输入状态估值模块接收输入状态估值向量h_i，从中心控制节点的网络更新模块接收动作估计模块的参数，从中心控制节点的环境状态监测模块接收机器人步数。动作估计模块是包括一个两层的多层感知机的软件模块，主要用于计算累积回报值。该两层的多层感知机称为状态估计神经网络，状态估计神经网络将m_i和h_i转化为累积回报值Q(o_i,a_i；θ₃)(即在状态o_i下执行动作a_i的累积回报值)，θ₃是为动作估计模块的网络参数)。机器人节点i的动作估计模块以∈概率(∈为不按当前策略采取动作，随机采样新动作的概率，0≤∈≤0.1。)随机挑选的动作a或者以(1-∈)的概率选择累积回报值最大的动作a(a＝max_aQ(o_i,a_i；θ₃))，将动作a发送给环境状态监测模块。动作a的方向代表分配给机器人的目标探索区域，机器人之间的任务分配过程体现在通信策略当中，即交互权重估计模块对邻接特征矩阵集合的注意力分配权重。机器人通过自己的输入状态估值向量和邻接特征矩阵得到动作方向，即完成了目标探索任务的分配过程。动作估计模块根据∈的概率随机选取动作，可保证尽可能多地估计到机器人i可能经历的完整状态。机器人节点i的动作估计模块从中心控制节点的网络更新模块接收更新参数，用于更新动作估计模块中多层感知机的网络参数。

中心控制节点的环境状态监测模块与机器人节点i的动作估计模块、机器人节点i的感知信息获取模块和中心控制节点的经验采集模块相连，从N个机器人节点的感知信息获取模块分别接收N个机器人节点当前时刻状态o₁,…,o_i,…，o_N(简写为o_1…N)和下一时刻状态o′₁,…,o′_i,…，o′_N(简写为o′_1…N)，根据o_1…N更新地图状态，即记录地图哪些位置已经被探索，并记录N个机器人每一步来自环境状态检测模块的决策奖惩信息r₁,…,r_i,…，r_N,(简写为r_1…N)，将奖惩信息r_1…N发送给经验采集模块。

经验采集模块与N个机器人节点的动作估计模块、N个机器人节点的感知信息获取模块、N个机器人节点的位置关系判定模块、中心控制节点的环境状态监测模块、中心控制节点的网络更新模块相连，从N个机器人节点的动作估计模块接收N个机器人节点分别采取的动作a_1…N、从N个机器人节点的感知信息获取模块分别接收N个机器人节点当前时刻状态o_1…N和下一时刻状态o′_1…N、从N个机器人节点的位置关系判定模块分别接收N个机器人节点的邻接特征矩阵集合G₁,…,G_i,…，G_N(简写为G_1…N)、从环境状态监测模块接收N个机器人节点获得的奖惩信息r_1…N，将经验五元组[o_1…N,a_1…N,r_1…N,o′_1…N,G_1…N]存入经验池，以供N个机器人节点的输入状态估值模块、交互权重估值模块和动作估计模块参数更新时用。经验池的容量大小设置为100000个经验五元组，当经验池填满后，新加入的经验五元组将顶替经验池顶端的经验五元组。如果当前时刻到达了预设的网络更新周期，经验采集模块将经验池中的p个经验五元组一次发送给网络更新模块。

网络更新模块是一个包含一个2层的多层感知机的软件模块，该2层的多层感知机称为状态现实神经网络。该2层的多层感知机称为状态现实神经网络；网络更新模块功能是计算状态现实神经网络下一时刻状态及动作的累积回报值，更新状态现实神经网络的网络参数θ₄；并采用反向传播算法更新动作估计模块、交互权重估计模块和输入状态估值模块的参数，将更新后的参数发送给相应模块；

假设图1中机器人节点4的感知信息获取模块存在故障，且N个机器人节点在执行全覆盖任务的过程中，环境中可能突然出现新的障碍。

2.2初始化经验池为空；

2.3初始化历史坐标集合为空；

2.5将输入状态估值模块的多层感知机参数θ₁、交互权重估值模块的多层感知机参数θ₂、及动作估计模块的多层感知机参数θ₃以及网络更新模块的多层感知机参数θ₄初始化为0至1之间的随机数，交互权重估值模块中M(例如图2中M＝4)个注意力头的θ₂需分别初始化为不同的随机数。

2.6将N个机器人节点在初始状态选择各个动作的概率均初始化为1/4，即每个机器人在初始状态选择向上、向左、向下或向右动作的概率是相等的。

第三步，N个机器人节点的感知信息获取模块并行接收环境感知信息，输入状态估值模块、位置关系判定模块、交互权重估计模块、动作估计模块相互配合决策下一步的动作，N个机器人节点执行动作，N个机器人节点的决策过程完全相同，以机器人节点1为例来说明的决策过程是：

3.1机器人节点1的感知信息获取模块从环境获取机器人节点1的实时位置坐标(5,5)，将(5,5)加入至历史坐标集合l₁＝{(0,5)、(1,5)、…、(4,5)}的尾部，即新的历史坐标集合为l₁＝{(0,5)、(1,5)、…、(4,5)、(5,5)}；机器人节点1用传感器获取当前状态o₁＝10维的实数向量，将l₁和o₁发送给输入状态估值模块。这里机器人节点4获取的当前状态o₄＝0.15×真实值+0～1间的随机数，用来模仿感知信息获取模块存在故障。(假设正常状态(即真实值)是10维0～1间的随机数[0.5,0.7…0.9]，0～1间的随机数是0.2，那么机器人节点4获取到的状态就是[0.15*0.5+0.2,0.15*0.7+0.2,…0.15*0.9+0.2]。)

3.2机器人节点1的输入状态估值模块从机器人节点1的感知信息获取模块接收l₁和o₁，通过一层多层感知机(输入神经元个数为10，输出神经元个数为128)得到输入状态估值向量h₁＝128维的实数向量；并根据机器人的数目N＝4对编号1进行独热编码得到独热编码向量e₁＝[1,0,0,0]，将h₁和e₁发送给机器人1的位置关系判定模块和视觉范围内的邻居机器人节点{2、4}的位置关系判定模块。这里设置所有机器人节点的视觉范围为7(即以机器人节点1通信范围为半径为7的正方形网格区域内)，即每个机器人可以接收以其为中心，边长为14的正方形范围内的邻居机器人消息，故当前状态机器人节点1的邻居机器人节点是机器人节点{2，4}。方法是：

3.2.1机器人节点1的输入状态估值模块从机器人节点1的感知信息获取模块接收l₁和o₁，将l₁拼接到o₁的尾端，然后将拼接了l₁的o₁输入到一层的多层感知机中，得到输入状态估值向量h₁。

3.2.2机器人节点1的输入状态估值模块根据机器人的数目N＝对编号1进行独热编码得到独热编码向量e₁＝[1,0,0,0]。

3.2.3机器人节点1的输入状态估值模块将h₁和e₁发送给机器人1的位置关系判定模块和机器人1的视觉范围内的邻居机器人节点{2、4}的位置关系判定模块，并将h₁发送到机器人节点1的动作估计模块。

3.3机器人节点1的位置关系判定模块从邻居机器人节点{2、4}的输入状态估值模块接收输入状态估值向量{h₂、h₄}和编号独热编码向量{e₂、e₄}，从机器人节点1的输入状态估值模块接收h₁和e₁，将e₁和{e₂、e₄}经过进行转化，得到(2+1)×4维的邻接矩阵

将h₁和{h₂、h₄}进行转化，得到4×128维的特征矩阵F₁。计算C₁×F₁，得到邻接特征矩阵集合G₁，将邻接特征矩阵集合G₁发送给机器人节点i的交互权重估计模块和中心控制节点的经验采集模块。方法是：

3.3.1机器人节点1的位置关系判定模块从邻居机器人{2、4}的输入状态估值模块接收{h₂、h₄}和{e₂、e₄}，从机器人节点1的输入状态估值模块接收h₁和e₁；

3.3.2机器人节点1的位置关系判定模块将e₁和{e₂、e₄}经过进行转化得到(2+1)×4维的邻接矩阵C₁，转化方法是将e₁作为C₁的第一行，e₂、e₄按2、4由小到大排序，分别作为C₁的其余2行；

3.3.3机器人节点1的位置关系判定模块将h₁和{h₂、h₄}进行转化，得到4×128维的特征矩阵集合F₁，转化方法是：F₁的第一行为h₁，h₂、h₄按2、4由小到大排序，分别作为F₁的2、4行，F₁除第一行、第2、4行以外的其它1行，即第三行为其余视觉范围外机器人的输入状态估值向量，因机器人3在机器人1的视觉范围之外，机器人1无法收到其输入状态估值向量，故第三行机器人1的输入状态估值向量

机器人2的输入状态估值向量，

用单位向量代替，因此F₁为单位向量此，即4×128维的矩阵；

机器人4的输入状态估值向量

3.3.4机器人1的位置关系判定模块计算C₁×F₁，得到邻接特征矩阵集合

机器人1的输入状态估值向量

G₁＝机器人2的输入状态估值向量，即3×128维的矩阵，将G₁发送给交互权重

机器人4的输入状态估值向量

估计模块和中心控制节点的经验采集模块。

3.4机器人节点i的交互权重估计模块从机器人节点1的位置关系判定模块接收机器人节点1的邻接特征矩阵集合G₁，将邻接特征矩阵集合G₁交由4个注意力头并行进行权重估值，最终获得邻接加权向量Q₁，将Q₁发送给机器人节点1的动作估计模块。4个注意力头子模块并行进行权重估值的方法相同，以第1个注意力头为例，其进行权重估值的方法是：

3.4.1第1个注意力头的查询转化子模块接收来自机器人节点1的位置关系判定模块的邻接特征矩阵。查询转化子模块将机器人节点1的输入状态估值向量输入一层的多层感知机，通过一层(输入神经元个数为128，输出神经元个数为32)的多层感知机转化为机器人1的查询向量

维的实数向量。

3.4.2初始化独热编码向量的当前维度v为1；

3.4.3第1个注意力头的键值转化子模块将邻居机器人节点j＝2的输入状态估值向量通过一层(输入神经元个数为128，输出神经元个数为32)的多层感知机转化为机器人2的第1个注意力头的键值向量

维的实数向量；第1个注意力头的价值转化子模块将邻居机器人节点2的输入状态估值向量通过一层(输入神经元个数为128，输出神经元个数为32)的多层感知机转化为机器人2的第1个注意力头的价值向量

维的实数向量。2属于邻居机器人集合{2、4}。

3.4.4令v＝v+1，若v≤2，转步骤3.4.3，计算出邻居机器人节点4的键值向量

和价值向量

若v>2，转3.4.5；

3.4.5第1个注意力头按公式2计算交互权重

这里由于机器人节点4的环境感知信息存在噪声，故机器人节点1对其消息的关注权重较小，为0.2；由于机器人节点1和机器人节点2存在潜在的目标区域冲突问题，因此机器人节点1对机器人节点2的消息关注权重较大，为0.8。

3.4.6第1个注意力头计算邻居机器人2对于机器人1的有价值消息m₁₂，

3.4.7第1个注意力头估算来自机器人节点i的邻居机器人节点的有价值消息E_m，方法是将来自邻居机器人节点{2、4}的有价值消息求和，即令

维的实数向量。

3.4.8此时4个注意力头分别计算出了机器人1和所有邻居机器人的有价值消息，机器人节点1的交互权重估值模块将有价值消息E₁,E₂,…,E₄顺序拼接，如公式3所示：

Q_i＝σ(Concat[E₁,…,E_m,…,E_M]) 公式3

得到32*4＝128维的实数向量，即融合了多类不同特征(因为每一个注意力头的参数都是不同的，所以每一个注意力头提取出的特征类型也是不同的，比如在输入状态估值向量中，既可以关注于机器人之间的位置关系特征，又可以关注于历史轨迹特征)的针对于机器人1的邻接加权向量Q₁＝128维实数向量。

公式3中Concat代表拼接，σ(x)代表参数x的非线性激活函数。

3.4.9机器人节点1的交互权重估值模块将邻接加权向量Q₁发送到机器人节点1的动作估计模块。

3.5机器人节点1的动作估计模块估算当前状态对应的动作，方法是：

3.5.1机器人节点1的动作估计模块将h₁和Q₁顺序拼接后得到128*2＝256维的拼接向量，然后输入到动作估计模块的两层的多层感知机中，多层感知机的第一层输入神经元个数为256，输出神经元个数为128；多层感知机的第二层输入神经元个数为128，输出神经元个数为4。多层感知机的第二层输出代表选择不同的4个动作a₁对应的累积回报值Q(o₁,a₁；θ₃)。令a₁代表向上、a₂代表向下、a₃代表向左、a₄代表向右，则Q(o₁,a₁；θ₃)＝-37.76、Q(o₁,a₂；θ₃)＝-39.94、Q(o₁,a₃；θ₃)＝-25.42、Q(o₁,a₄；θ₃)＝-18.68。

3.5.2机器人节点i的动作估计模块从中心控制节点的环境状态监测模块接收机器人步数，判断当前机器人步数t>T3，即N个机器人是否已执行完T3周期内的任务分配。此时t<T3，机器人节点1生成一个随机数0.9，如果随机数>∈＝0.8，执行步骤3.5.3；否则，令a_i为向上、向下、向左、向右中的任意一个，执行步骤3.6。

3.5.3取使得累积回报值最大的动作a_i＝max_aQ(o_i,a_i；θ₃)，在状态o₁下，使得Q(o₁,a₁；θ₃)值最大的动作为a₄向右，此动作代表机器人1通过与邻居机器人交互后，得到机器人1下一步的决策方向。如果将所有邻居机器人视为一个整体，此决策方向即代表机器人1被其邻居机器人整体分配的目标探索任务区域。当前时刻的地图状态如图4所示。图4的左上角表示地图位置(0,0)，由左上角向右一格表示地图位置(0，1)，由左上角向下一格表示地图位置(1，0)。图4中/标注1的位置为已探索，黑色为0的位置代表障碍，标注为-1的位置代表未探索的目标区域。图4中①代表机器人1，②代表机器人2，③代表机器人3，④代表机器人4，④为故障机器人，传感器信息有误。同时，机器人节点2的动作a₂为向下，机器人节点3的动作a₃为向下，机器人节点4的动作a₄为向下。从4个机器人节点的动作方向中可以看出，机器人节点1被分配的目标探索区域是区域4，机器人节点2被分配的目标探索区域是区域1，机器人节点3被分配的目标探索区域是区域3，机器人节点4被分配的目标探索区域是区域2。这种分配方案从整体角度来看对于提升整体的全覆盖任务效率显然是最优的。

3.6机器人节点1执行动作a₁，向右移动一格，机器人节点1的坐标位置变为(5,6)，历史轨迹变为l₁＝{(0,5)、(1,5)、…、(5,5)、(5,6)}。

3.7机器人节点1的动作估计模块将采取的动作a₁发送给中心控制节点的经验采集模块。

3.8假设此时环境中出现了新障碍，如图5所示，在地图坐标为(4,4)、(4,5)、(4,6)、(4,7)、(5,7)处出现了新的障碍(即在位置(4,4)、(4,5)、(4,6)、(4,7)、(5,7)的地图状态为0)。感知信息获取模块获取机器人节点1此时的状态o′₁为新的10维实数向量，将o₁和o′₁发送给中心控制节点的环境状态监测模块。

第四步，环境状态监测模块根据N个机器人的当前位置信息以及动作信息更新地图状态，并将N个机器人的奖惩信息发送给经验采集模块。方法是：

4.1初始化节点编号变量i＝1；

4.2环境状态监测模块从机器人节点i的感知信息获取模块接收当前状态o_i和下一时刻状态o′_i，从o_i中获取机器人节点i当前坐标。例如机器人节点1的当前坐标为(5,5)，动作为向右，故环境状态检测模块将地图(5,5)值标记为1，即已探索。

4.3环境状态监测模块根据公式4为机器人i计算奖励值

并将

发送给经验采集模块。

此时由于机器人1的新坐标(5，6)在地图网格的状态值为1，即该位置已经被探索过了，故B^back为1。由于机器人1的新坐标处没有其余机器人，即机器人1并未与其余机器人发生碰撞，故C^t为0，由于当前时刻t％40不等于0，故当前时刻尚未达到全覆盖任务周期，故B^final值为0。因此机器人1的奖励值

执行步骤4.2，依次更新地图和计算机器人奖励值；若i>N，执行步骤4.5；

第六步，环境监测模块判断任务是否达到指定的全覆盖任务周期，即判断t’＝t％T1是否为0，％为取余计算。如果t’不为0，则转第三步，4个机器人节点的感知信息获取模块并行接收环境感知信息，输入状态估值模块、位置关系判定模块、交互权重估计模块、动作估计模块相互配合决策下一步的动作。经过计算累积回报值，此时4个机器人节点的决策为：机器人1节点的动作为向左，机器人2节点的动作为向右，机器人3节点的动作为向下，机器人4节点的动作为向下。此决策分配时由于新障碍阻挡了机器人1节点前往目标区域4的道路，故机器人1节点与机器人2节点沟通后交换了目标区域，此分配是当前状态下的最优任务分配方案。

第七步，环境状态监测模块判断N＝4个机器人节点是否达到了策略优化周期T3(即判断t>T3是否为真)，如果为真，则中心控制节点停止对N＝4个机器人节点的输入状态估值模块、交互权重估值模块和动作估计模块的参数进行优化；否则继续判断当前是否到达了指定的网络更新周期T2，如果是，网络更新模块逐步更新动作估计模块、交互权重估计模块和输入状态估值模块多层感知机的网络参数。方法是：

7.2环境状态监测模块进行判断，如果t”＝t％T2≠0，即没有到达网络更新周期，转第三步；否则到达网络更新周期，从经验池中取出p＝1024个经验五元组，转7.3；

7.3网络更新模块从环境状态监测模块处获取1024个经验五元组，从1024个经验五元组中获得5个机器人在当前状态下采取的动作信息及到达的下一时刻状态信息，根据N个机器人的下一时刻状态o′_i，挑选使得Q(o′_i，a′_i；θ₄)值最大的动作a′_i，即max_a′Q(o′_i,a′_i；θ₄)，Q(o′_i,a′_i；θ₄)指在状态为o′_i时采取动作a′_i的估算值，描述了在状态为o′_i时采取动作a′_i的累积回报值，θ₄为状态现实神经网络的参数。

其中

y_i＝r_i+γmax_a′Q(o′_i,a′_i；θ₄)

γ代表折扣因子。网络更新模块通过把L(θ₃)对θ₃求偏导得到梯度

然后将动作估计模块的参数θ₃更新为

其中α为预设的学习率，通常设置为0.01。

7.5N个机器人的网络更新模块更新θ₄，即令

θ₄＝τθ₃+(1-τ)θ₄ 公式6

令

7.8转第三步。

第八步，此时t>T3，N＝4个机器人已执行完T3周期内的任务分配，不再对输入状态估值模块、交互权重估计模块以及动作估计模块中多层感知机的参数优化。环境状态监测模块判断当前地图中的所有网格点是否已被覆盖完，如果已经覆盖完，则转第九步；否则转第三步，继续进行目标区域探索。

第九步，当前地图的全覆盖分配任务结束。

Claims

1.一种面向动态噪声环境的全覆盖任务分配方法，其特征在于包括以下步骤：

第一步，构建多机器人环境，它由N个机器人节点和中心控制节点构成，N为机器人节点全数，N为正整数，N个机器人节点的工作方式一致；机器人节点是可以运行软件程序的异构机器人硬件设备，中心控制节点是具有计算能力的资源可控的计算设备；中心控制节点监控地图状态，为每个机器人更新行为策略参数，多个机器人节点和中心控制节点通过网络设备互联；

机器人节点i除了装有操作系统外，还装有感知信息获取模块、输入状态估值模块、位置关系判定模块、交互权重估计模块和动作估计模块，1≤i≤N；

中心控制节点除了装有操作系统以及深度学习框架外，还装有环境状态监测模块、经验采集模块和网络更新模块；

P(x，y)为在离散化地图上横坐标为x，纵坐标为y位置的当前状态；

定义机器人节点i的局部环境感知信息为当前状态o_i，o_i描述了以机器人节点i为中心，以机器人节点i通信范围为半径的正方形网格区域内是否包含障碍物或其余的机器人，半径指正方形边长的一半；定义机器人节点i前往的下一网格点方向的移动为动作a_i，到达的下一个状态为o′_i，下一网格点方向包括向上、向下、向左、向右；定义机器人节点从到达当前网格点至到达下一网格点的过程中，与障碍物或其余机器人节点的碰撞与否以及下一节点是否为机器人群体已探索过的区域，为当前状态下选择该动作后获得的奖惩信息r_i；定义机器人节点i从一个状态开始选择一个动作后直至全覆盖任务结束所得到的奖惩信息之和为该状态下选择该动作后获得的累积回报R_i；将机器人节点i的编号i以及K_i个邻居的编号转化为独热编码向量，得到(K_i+1)×N维的矩阵，定义该矩阵为邻接矩阵C_i，K_i为机器人节点i的邻居机器人的个数，0≤K_i≤N-1；邻接矩阵C_i定义为的第一行代表机器人节点i的编号独热编码，其余K_i行代表K_i个邻居机器人的编号独热编码，由上到下的顺序为机器人编号由小到大的顺序，代表机器人的数目；

中心控制节点的经验采集模块中有一个经验池，经验池存储各个机器人的经验五元组，经验五元组为[当前状态，动作，奖惩信息，下一状态，邻接矩阵]；

定义机器人节点i的动作估计模块估计机器人节点i在当前状态o_i，采取动作a_i得到的累积回报值为Q(o_i，a_i；θ₃)，θ₃为动作估计模块的网络参数，当前状态o_i记录了当前环境状态内的其他机器人节点的相对位置，当前环境状态内的其他机器人节点指机器人节点i视觉范围内的机器人；通过计算当前状态o_i对应的所有动作的累积回报值，并挑选出使得累积回报值最大的动作a，即max_aQ(o_i，a_i；θ₃)，得到当前状态应该采取的动作a；

下一状态指从当前状态采取了动作后到达的状态；

机器人节点i的感知信息获取模块与机器人节点i的输入状态估值模块、中心控制节点的环境状态监测模块和经验采集模块相连，用于从环境获取当前局部视图，记录机器人节点i的历史轨迹信息以避免重复探索；感知信息获取模块从环境获取机器人节点i的实时位置(x_i，y_i)，(x_i，y_i)为二维数组，代表实时位置在离散化地图中的坐标值，将实时位置(x_i，y_i)存储到机器人节点i的历史坐标集合l_i中；使用机器人节点i的传感器获取机器人节点i的当前状态o_i，将o_i和l_i发送给机器人节点i的输入状态估值模块；机器人节点i执行动作后，感知信息获取模块根据传感器获取机器人节点i的下一时刻环境状态o′_i，并将o_i和o′_i发送给环境状态监测模块和经验采集模块；

机器人节点i的输入状态估值模块是包含一个一层的多层感知机的软件模块，与机器人节点i的感知信息获取模块、机器人节点i的位置关系判定模块、机器人节点i的动作估计模块、机器人节点i的交互权重估值模块、K_i个邻居机器人节点的位置关系判定模块相连，它从机器人节点i的感知信息获取模块获取o_i和l_i，对o_i和l_i进行拼接后输入多层感知机，得到输入状态估值向量h_i，K_i为机器人节点i的邻居机器人的个数，K_i为小于N的正整数；输入状态估值模块创建机器人节点i的编号独热编码向量，将h_i和编号独热编码向量发送给机器人节点i的位置关系判定模块和K_i个邻居机器人节点的位置关系判定模块；将h_i发送给机器人节点i的动作估计模块；机器人节点i的输入状态估值模块从中心控制节点的网络更新模块接收更新参数，用于更新输入状态估值模块中多层感知机的网络参数θ₁；

的输入状态估值模块接收K_i个输入状态估值向量

和K_i个编号独热编码向量

将h_i和

整合成N×H维的特征矩阵F_i；机器人节点i的位置关系判定模块利用编号独热编码向量和

建立(K_i+1)×N维的邻接矩阵C_i，计算C_i×F_i，得到邻接特征矩阵集合G_i，将G_i发送给机器人节点i的交互权重估值模块和中心控制节点的经验采集模块；机器人节点i视觉范围外的机器人输入状态估值向量用单位向量代替，H代表输入状态估值向量的维度；

单位向量的维度是输入状态估值向量的维度，除第一位为1之外，向量的其余位置均为0；机器人节点i的交互权重估值模块与机器人节点i的位置关系判定模块、机器人节点i的动作估计模块、机器人节点i的输入状态估值模块相连，交互权重估值模块是包含M个注意力头的软件模块，1≤M≤4；注意力头是计算两个机器人的输入状态估值向量之间匹配程度的软件子模块，每个注意力头由查询转换子模块、键值转换子模块和价值转换子模块组成，查询转换子模块、键值转换子模块和价值转换子模块均是包含一层的多层感知机的软件模块；

注意力头的功能是根据Query和Key计算对应Query的Value的权重系数，然后对Source中的Value值进行加权求和，得到邻接加权向量；Query指机器人节点i应该关注的邻居机器人消息的权重查询；Key指交互权重计算时的键值；Value值即价值指每个机器人局部视图中信息的有效信息；Value的权重系数指Value占整个邻接加权向量的百分比；Source指邻居机器人集合；邻接加权向量指所有邻居机器人Value的权重系数与Value值的乘积之和；

机器人节点i的交互权重估值模块从机器人节点i的位置关系判定模块接收机器人节点i的邻接特征矩阵集合G_i，将邻接特征矩阵集合等分为M份，将M份邻接特征矩阵子集合分别分配给M个注意力头并行进行权重估值，得到针对机器人i的来自K_i个邻居机器人的邻接加权向量Q_i；机器人节点i的交互权重估值模块从中心控制节点的网络更新模块接收更新参数，用于更新查询转换子模块、键值转换子模块和价值转换子模块中多层感知机的网络参数θ₂；

机器人节点i的动作估计模块与机器人节点i的交互权重估值模块、机器人节点i的输入状态估值模块、中心控制节点的环境状态监测模块、经验采集模块和网络更新模块相连，从机器人节点i的交互权重估计模块接收邻接加权向量Q_i，从机器人节点i的输入状态估值模块接收输入状态估值向量h_i，从中心控制节点的网络更新模块接收动作估计模块的参数，从中心控制节点的环境状态监测模块接收机器人步数；动作估计模块是包括一个两层的多层感知机的软件模块，主要用于计算累积回报值；该两层的多层感知机称为状态估计神经网络，状态估计神经网络将m_i和h_i转化为状态o_i下执行动作a_i的累积回报值Q(o_i，a_i；θ₃)；机器人节点i的动作估计模块以∈概率随机挑选的动作a或者以(1-∈)的概率选择累积回报值最大的动作a，a＝max_aQ(o_i，a_i；θ₃)，∈为不按当前策略采取动作随机采样新动作的概率；机器人节点i的动作估计模块从中心控制节点的网络更新模块接收更新参数，用于更新θ₃；

中心控制节点的环境状态监测模块与机器人节点i的动作估计模块、机器人节点i的感知信息获取模块和中心控制节点的经验采集模块相连，从N个机器人节点的感知信息获取模块分别接收N个机器人节点当前时刻状态o₁，...，o_i，...，o_N和下一时刻状态o′₁，...，o′_i，...，o′_N，将o₁，...，o_i，...，o_N简写为o_1...N，将o′₁，...，o′_i，...，o′_N简写为o′_1...N，根据o_1...N更新地图状态，即记录地图哪些位置已经被探索，并记录N个机器人每一步来自环境状态检测模块的决策奖惩信息r₁，...，r_i，...，r_N，将r₁，...，r_i，...，r_N简写为r_1...N，将奖惩信息r_1...N发送给经验采集模块；记录机器人步数，将机器人步数发送给机器人节点i的动作估计模块；

经验采集模块与N个机器人节点的动作估计模块、N个机器人节点的感知信息获取模块、N个机器人节点的位置关系判定模块、中心控制节点的环境状态监测模块、中心控制节点的网络更新模块相连，从N个机器人节点的动作估计模块接收N个机器人节点分别采取的动作a_1...N、从N个机器人节点的感知信息获取模块分别接收N个机器人节点当前时刻状态o_1...N和下一时刻状态o′_1...N、从N个机器人节点的位置关系判定模块分别接收N个机器人节点的邻接特征矩阵集合G₁，...，G_i，...，G_N、从环境状态监测模块接收N个机器人节点获得的奖惩信息r_1...N，将G₁，...，G_i，...，G_N简写为G_1...N，将经验五元组[o_1...N，a_1...N，r_1...N，o′_1...N，G_1...N]存入经验池；如果当前时刻到达了预设的网络更新周期，经验采集模块将经验池中的p个经验五元组发送给网络更新模块，p为2的整数次幂；

网络更新模块与机器人节点i的动作估计模块和中心控制节点的经验采集模块相连，从经验采集模块接收p个经验五元组；网络更新模块是一个包含一个2层的多层感知机的软件模块，该2层的多层感知机称为状态现实神经网络；网络更新模块功能是计算状态现实神经网络下一时刻状态及动作的累积回报值，更新状态现实神经网络的网络参数θ₄；并更新动作估计模块、交互权重模块和输入状态估值模块的参数，将更新后的参数发送给相应模块；

2.1初始化地图网格的当前状态，障碍位置标记为0，其余位置标记为-1；

2.2初始化经验池为空；

2.3初始化历史坐标集合为空；

2.4初始化机器人步数t＝0，令全覆盖任务周期T1＝40；令网络更新周期T2＝T1*1000；令策略优化周期T3＝T1*50000；

2.5将输入状态估值模块的多层感知机参数θ₁、交互权重估值模块的多层感知机参数θ₂、及动作估计模块的多层感知机参数θ₃以及网络更新模块的多层感知机参数θ₄初始化为0至1之间的随机数，其中交互权重估值模块中M个注意力头的θ₂分别初始化为不同的随机数；

2.6将N个机器人节点选择各个动作的概率均初始化为1/动作空间维度，动作空间维度指机器人所有可能执行的不同动作个数；

第三步，N个机器人节点的感知信息获取模块并行接收环境感知信息，输入状态估值模块、位置关系判定模块、交互权重估计模块、动作估计模块相互配合决策下一步的动作，N个机器人节点执行动作，N个机器人节点的决策过程完全相同，机器人节点i的决策过程是：

3.1机器人节点i的感知信息获取模块从环境获取机器人节点i的实时位置坐标(x_i，y_i)，将(x_i，y_i)加入至历史坐标集合l_i；机器人节点i用传感器获取当前状态o_i，将l_i和o_i发送给输入状态估值模块；

的位置关系判定模块；

3.3机器人节点i的位置关系判定模块从邻居机器人节点

的输入状态估值模块接收输入状态估值向量

和编号独热编码向量

从机器人节点i的输入状态估值模块接收h_i和e_i，将e_i和

经过进行转化，得到(K_i+1)×N维的邻接矩阵C_i，将h_i和

进行转化，得到N×H维的特征矩阵F_i；计算C_i×F_i，得到邻接特征矩阵集合G_i，将邻接特征矩阵集合G_i发送给机器人节点i的交互权重估计模块和中心控制节点的经验采集模块；

3.4机器人节点i的交互权重估计模块从机器人节点i的位置关系判定模块接收机器人节点i的邻接特征矩阵集合G_i，将邻接特征矩阵集合G_i交由M个注意力头并行进行权重估值，获得邻接加权向量Q_i，将Q_i发送给机器人节点i的动作估计模块， M个注意力头子模块并行进行权重估值的方法相同，第m个注意力头进行权重估值的方法是：

3.4.1第m个注意力头的查询转化子模块接收来自机器人节点i的位置关系判定模块的邻接特征矩阵，其中包含了h_i，以及机器人节点i的所有邻居机器人节点的输入状态估值向量；查询转化子模块将机器人节点i的输入状态估值向量输入一层的多层感知机，通过一层的多层感知机转化为机器人i的查询向量

3.4.2初始化独热编码向量的当前维度v为1；

第m个注意力头的价值转化子模块将邻居机器人节点j_v的输入状态估值向量的第m份通过一层的多层感知机转化为机器人j的第m个注意力头的价值向量

j_v属于

3.4.4令v＝v+1，若v≤K_i，转步骤3.4.3；若v＞K_i，转3.4.5；

3.4.5第m个注意力头按公式2计算交互权重

的有价值消息求和，即令

3.4.8机器人节点i的交互权重估值模块将有价值消息E₁，...，E_m，...，E_M顺序拼接，得到融合了多类不同特征的针对于机器人i的邻接加权向量Q_i：

Q_i＝σ(Concat[E₁，...，E_m，...，E_M])公式3；

公式3中Concat代表拼接，σ(x)代表参数x的非线性激活函数；

3.4.9机器人节点i的交互权重估值模块将邻接加权向量Q_i发送到机器人节点i的动作估计模块；

3.5.1机器人节点i的动作估计模块将h_i和Q_i顺序拼接后输入到动作估计模块的两层的多层感知机中，计算选择不同动作a_i对应的累积回报值Q(o_i，a_i；θ₃)；

3.5.2机器人节点i的动作估计模块从中心控制节点的环境状态监测模块接收机器人步数，判断机器人步数t是否大于T3，如果t＞T3，则执行步骤3.5.3；否则，机器人节点i生成一个随机数，如果随机数＞∈，执行步骤3.5.3；否则，令a_i为向上、向下、向左、向右中的任意一个，执行步骤3.6；

3.5.3取使得累积回报值最大的动作a_i＝max_aQ(o_i，a_i；θ₃)，此动作代表机器人i通过与邻居机器人交互后，得到机器人i下一步的决策方向；

3.6机器人节点i执行动作a_i，机器人节点i的坐标位置以及历史轨迹发生变化；

3.7机器人节点i的动作估计模块将采取的动作a_i发送给中心控制节点的经验采集模块；

3.8感知信息获取模块获取机器人节点i此时的状态o′_i，将o_i和o′_i发送给中心控制节点的环境状态监测模块；

第四步，环境状态监测模块根据N个机器人的当前位置信息更新地图状态，并将N个机器人的奖惩信息发送给经验采集模块，方法是：

4.1初始化节点编号变量i＝1；

4.2环境状态监测模块从机器人节点i的感知信息获取模块接收当前状态o_i和下一时刻状态o′_i，从o_i中获取机器人节点i当前坐标(x_i，y_i)，更新地图网格状态；

4.3环境状态监测模块根据公式4为机器人i计算奖励值

并将

发送给经验采集模块：

B^back·r_back+C^t·r_coll代表个人奖励，B^back是判断机器人是否此时探索的是整个群体已经探索过的区域的布尔向量，为1表示已探索过，为0表示未探索过；r_back指机器人i当前步如果走的是已探索区域应该给予的惩罚值，C^t代表机器人i与其余机器人或障碍物的碰撞次数；r_coll为碰撞的惩罚值；B^final·is_succ·r_succ+B^final·(1-is_succ)·r_fail代表平均全局奖励和惩罚B^final是判断此时是否是全覆盖任务周期最后一步的布尔向量；is_succ是判断这一全覆盖任务周期是否成功的布尔向量；r_succ为奖励值，r_fail为惩罚值；

4.4环境状态监测模块判断i≤N是否成立，若i≤N，令i＝i+1，令

执行步骤4.2；若i＞N，执行步骤4.5；

4.5令机器人步数t＝t+1，环境状态监测模块将奖惩信息r_1...N发送给经验采集模块；将机器人步数发送给所有机器人节点的动作估计模块；

第五步，经验采集模块接收N个机器人节点动作估计模块采取的动作a_1...N、从环境状态监测模块接收的奖励值r_1...N，从N个机器人节点感知信息获取模块接收当前时刻状态o_1...N和下一时刻状态o′_1...N，从N个机器人节点位置关系判定模块接收邻接特征矩阵集合G_1...N，将五元组[o_1...N，a_1...N，r_1...N，o′_1...N，G_1...N]存入经验池；

第六步，环境监测模块判断任务是否达到指定的全覆盖任务周期，即判断t’＝t％T1是否为0，％为取余计算，如果t’不为0，转第三步；如果为0，转第七步；

第七步，环境状态监测模块判断N个机器人节点是否达到了策略优化周期T3，即t＞T3是否为真，如果为真，则中心控制节点停止对N个机器人节点的输入状态估值模块、交互权重估值模块和动作估计模块的参数进行优化；否则继续判断当前是否到达了指定的网络更新周期T2，如果是，网络更新模块逐步更新动作估计模块、交互权重估计模块和输入状态估值模块多层感知机的网络参数，方法是：

7.1环境状态监测模块获取当前步数t，如果t＞T3，执行第八步；否则执行步骤7.2；

7.2环境状态监测模块进行判断，如果t”＝t％T2≠0，转第三步；否则到达网络更新周期，从经验池中取出p个经验五元组，转7.3；

7.3网络更新模块从环境状态监测模块处获取p个经验五元组，从p个经验五元组中获得N个机器人在当前状态下采取的动作信息及到达的下一时刻状态信息，根据N个机器人的下一时刻状态o′_i，挑选使得Q(o′_i，a′_i；θ₄)值最大的动作a′_i，即max_a′Q(o′_i，a′_i；θ₄)，Q(o_i′，a_i′；θ₄)指在状态为o_i′时采取动作a_i′的累积回报值；

7.4网络更新模块通过公式5所示的损失函数L(θ₃)，对动作估计模块的参数进行优化：

其中

y_i＝r_i+γmax_a′Q(o′_i，a′_i；θ₄)；

γ代表折扣因子，网络更新模块通过把L(θ₃)对θ求偏导得到梯度

然后将动作估计模块的参数θ₃更新为

其中α为预设的学习率；

7.5N个机器人的网络更新模块按照动作估计模块的参数θ₄进行更新，即令

θ₄＝τθ₃+(1-τ)θ₄ 公式6；

令

7.7网络更新模块将优化后的动作估计模块、交互权重估计模块和输入状态估值模块参数即各机器人节点相应的θ₃、θ₂、θ₁分别发送给N个机器人的动作估计模块、交互权重估计模块和输入状态估值模块，N个机器人的动作估计模块、交互权重估计模块和输入状态估值模块接收到参数后，更新多层感知机的参数；

7.8转第三步；

第八步，环境状态监测模块判断当前地图中的所有网格点是否已被覆盖完，如果已经覆盖完，转第九步；否则转第三步继续进行目标区域探索；

第九步，当前地图的全覆盖分配任务结束。

2.如权利要求1所述的一种面向动态噪声环境的全覆盖任务分配方法，其特征在于所述机器人节点、中心控制节点上安装的操作系统指Ubuntu16.04，安装的深度学习框架指Pytorch0.3.0.post4。

3.如权利要求1所述的一种面向动态噪声环境的全覆盖任务分配方法，其特征在于所述地图状态记录在地图状态数组里，地图状态数组是一个H₁×W₁的二维数组，地图状态数组的每个元素表示每个网格点的状态，H₁和W₁均为正整数。

4.如权利要求1所述的一种面向动态噪声环境的全覆盖任务分配方法，其特征在于所述输入状态估值向量h_i是128维的向量，每一维的数值范围是0到1之间的实数；机器人节点i视觉范围外的机器人输入状态估值向量用单位向量代替，H代表输入状态估值向量的维度，H＝128；所述不按当前策略采取动作随机采样新动作的概率∈满足，0≤∈≤0.1。

5.如权利要求1所述的一种面向动态噪声环境的全覆盖任务分配方法，其特征在于所述经验池的容量大小设置为100000个经验五元组，当经验池填满后，新加入的经验五元组将顶替经验池顶端的经验五元组；所述p为1024。

6.如权利要求1所述的一种面向动态噪声环境的全覆盖任务分配方法，其特征在于3.2步所述机器人节点i的输入状态估值模块得到输入状态估值向量h_i和独热编码向量e_i，将h_i和e_i发送给机器人i的位置关系判定模块和视觉范围内的邻居机器人节点

的位置关系判定模块的方法是：

3.2.1机器人节点i的输入状态估值模块从机器人节点i的感知信息获取模块接收l_i和o_i，将l_i拼接到o_i的尾端，然后将拼接了l_i的o_i输入到一层的多层感知机中，得到输入状态估值向量h_i；

3.2.2机器人节点i的输入状态估值模块根据机器人的数目N对编号i进行独热编码得到独热编码向量e_i；

7.如权利要求1所述的一种面向动态噪声环境的全覆盖任务分配方法，其特征在于3.3步所述机器人节点i的位置关系判定模块得到邻接特征矩阵集合G_i，将邻接特征矩阵集合G_i发送给机器人节点i的交互权重估计模块和中心控制节点的经验采集模块的方法是：

3.3.1机器人节点i的位置关系判定模块从邻居机器人

的输入状态估值模块接收

和

从机器人节点i的输入状态估值模块接收h_i和e_i；

3.3.2机器人节点i的位置关系判定模块将e_i和

按

由小到大排序，分别作为C_i的其余K_i行；

3.3.3机器人节点i的位置关系判定模块将h_i和

按

由小到大排序，分别作为F_i的

行，F_i除第一行、第

8.如权利要求1所述的一种面向动态噪声环境的全覆盖任务分配方法，其特征在于4.2步所述环境状态监测模块更新地图网格状态的方法是：标记(x_i，y_i)状态为已探索，值为1。

9.如权利要求1所述的一种面向动态噪声环境的全覆盖任务分配方法，其特征在于4.3步公式4中所述B^back为1表示已探索过，为0表示未探索过；r_back的值为-10，r_coll是-10；B^final为1表示是最后一步，为0表示不是最后一步；is_succ为1表示成功，为0表示不成功；r_succ设置为40；r_fail设置为-5。

10.如权利要求1所述的一种面向动态噪声环境的全覆盖任务分配方法，其特征在于7.4步所述α设置为0.01。